Производительность превосходит GPT-4 Turbo! «SenseTime RiRixin» был значительно модернизирован, и открылся отечественный крупномасштабный модельный супермаркет.
За несколько лет до того, как прокатилась волна крупных моделей, на самом деле произошла волна предпринимательства в области ИИ. Среди них SenseTime Technology, Megvii Technology, Yuncong Technology и Yitu Technology являются представителями этого периода. Эти четыре компании также известны как «Четыре маленьких дракона китайского ИИ».
В этой новой волне, запущенной OpenAI, SenseTime, один из четырех маленьких драконов, по-прежнему остается в центре сцены. В апреле прошлого года SenseTime выпустила серию «Ririxin·Large Model». Это была одна из первых компаний в Китае, запустившая большую языковую модель, основанную на сотнях миллиардов параметров.
Оно новое каждый день, и оно новое каждый день.
Тан, основатель династии Шан, вырезал на ванне вышеупомянутый самоуничижительный девиз. Точно так же, как и глубина изменений в области AIGC сегодня, ритм обновления больших моделей Шан Тан также можно охарактеризовать как «новый каждый день». "
Два месяца назад SenseTime запустила систему больших моделей «Ririxin SenseNova 4.0» и даже запустила первый в мире API-интерфейс Assistants, который поддерживает вызовы различных модальных инструментов, опережая OpenAI.
И сегодня днем компания SenseTime, которая называется «Rixin», продолжила запуск серии генеративных моделей искусственного интеллекта и приложений на основе «Rixin». Позвольте мне сначала выделить основные моменты:
- Ририксин 5.0: достигает или превосходит GPT-4 Turbo по общим объективным оценкам
- Конечная модель 1.8B: лучшая производительность в том же масштабе, лидерство во всех масштабах
- Универсальная машина для приложений корпоративного уровня: включая финансы, медицину, государственные дела, программирование и другие области.
- Платформа создания видео Wensheng, которая еще не запущена
Удар GPT-4 Turbo, удар DALL·E 3
В эпоху ИИ 2.0 генеративный ИИ рассматривается как важная технология, способствующая повышению производительности. Если он сможет достичь прорыва в трехуровневых возможностях знания, рассуждения и исполнения, это действительно приведет к скачку. поступательное развитие производительности всего общества.
В прошлом месяце генеральный директор SenseTime Сюй Ли выдвинул вышеупомянутую точку зрения на GDC 2024. На сегодняшней пресс-конференции он еще раз подчеркнул, что SenseTime продолжит изучать трехуровневую архитектуру KRE для возможностей больших моделей под руководством закона. масштаба (знание-рассуждение-исполнение), постоянно преодолевая границы возможностей большой модели.
Итак, каковы основные моменты обновления недавно обновленной версии RiRixin SenseNova 5.0 (далее — RiRixin 5.0)?
- Принять архитектуру Министерства образования
- На основе обучения токенов объемом 10 ТБ большой объем синтетических данных
- Окно контекста вывода поддерживает 200 тыс.
- Комплексное тестирование знаний, рассуждений, математики и кода с помощью GPT-4 Turbo.
Ririxin 5.0 Это обновление в основном направлено на расширение знаний, математики, рассуждений и возможностей кодирования и полностью соответствует GPT-4 Turbo.
По основным объективным оценкам RiRiXin 5.0 достиг или превзошел версию GPT-4 Turbo, представленную OpenAI на конференции разработчиков в прошлом году, а также почти полностью разгромил недавно выпущенную Llama 3-70B.
Одни разговоры и никакой практики, на пресс-конференции SenseTime также полностью продемонстрировала реальные возможности Ririxin 5.0 в языке, математических рассуждениях и других аспектах.
Также введите вопрос эссе вступительного экзамена в колледж 2022 года и сравните его с GPT-4 Turbo (только версия от ноября прошлого года, та же самая ниже). Видно, что результаты, полученные с помощью Ririxin 5.0, свободны от ограничений шаблонов. и распорядок дня, и у вас будет больше людей. Со вкусом, на первый взгляд, это статья, которая может проникнуть в сердце преподавателя, определяющего вступительные экзамены в колледж.
Столкнувшись с мучительными математическими задачами, GPT-4 Turbo начал чувствовать себя немного растерянным. Мало того, что процесс вычислений был сложным, но и конечные результаты были неверными. Однако ответы, полученные RiRixin 5.0, были очень логичными и полностью правильными.
Дифференциация отрасли является ключевым фактором, позволяющим крупным моделям выделиться среди конкурентов.
Ririxin 5.0, предназначенный для сценариев локализованных приложений, лучше, чем GPT-4 Turbo, в понимании уникальной культуры и контекста китайского языка. Поскольку GPT-4 Turbo не знаком с китайским контекстом, он, естественно, не может точно понять местные правила игры «Орел, ловящий курицу».
Мультимодальные возможности обычно рассматриваются в отрасли как ключевой путь к достижению AGI.
Судя по результатам тестов производительности, RiRixin 5.0 также может жестко конкурировать с GPT-4V, и обе стороны выигрывают или проигрывают. В реальной демонстрации эффект создания старого слона за секунды, поддерживаемый RiRiXin 5.0, более естественен. Однако, когда та же проблема представлена другу, может возникнуть даже трехлапая ошибка.
На основе портретного изображения, созданного по той же подсказке, текстура кожи, созданная Miahua от SenseTime, является естественной, без чрезмерной полировки кожи и фильтров и успешно дополняет показатель «красивости». Учитывая, что международная база данных портретов азиатов, используемых для обучения моделей ИИ, относительно ограничена, такие результаты сравнения являются относительно нормальными.
В сочетании с возможностями мультимодальности и анализа данных ИИ может решать более сложные и сложные задачи.
RiRiXin 5.0 может «сломать» краткое описание длинных изображений. Он может идентифицировать конкретную информацию о такси Didi. Он также может рассчитать калорийность уникального китайского завтрака. Та же проблема возникает с GPT-4 Turbo. .Дискредитация.
Всегда говорят, что ИИ изменит рабочий процесс. На этот раз SenseTime также продемонстрировала возможности офисного енота в этом плане.
Введите в систему трехлетний рекорд участия гонщика Формулы-1 Чжоу Гуаньюя и позвольте тигру указать гистограмму количества гонок, в которых он участвовал. Эта задача кажется простой, но на самом деле она также включает в себя сложные проблемы идентификации.
На международных соревнованиях Чжоу Гуаньюй использует свое английское имя. Традиционные большие модели, как правило, плохо работают при решении задач распознавания, в которых участвуют нетрадиционные английские варианты написания или конкретные люди. Хотя офисный енот, обновленный в Ririxin 5.0, претерпел некоторые изменения, в конце концов он был успешно нарисован.
Большая сквозная модель, только быстрая и никогда не ломающаяся
В мире боевых искусств «единственное боевое искусство в мире, которое невозможно сломать, — это быстрота» подчеркивает важность скорости в реальном бою, и в крупномасштабных сражениях этот принцип также применим.
С быстрым развитием технологий больших моделей все чаще возникают потребности в различных сценариях применения Терминальных устройств, таких как смартфоны, компьютеры и очки виртуальной реальности, выдвигаются более высокие требования к частоте использования, скорости работы, безопасности и стабильности больших моделей. .
Компания SenseTime, которая стала более прагматичной, также официально представила на этой конференции оконечную модель SenseChat-Lite в масштабе 1,8B.
В эталонном тесте эта конечная модель полностью превзошла большие модели того же размера, что и MiniCPM-2B и Phi-2, и даже превзошла некоторые большие модели 7B и 13B. По словам Сюй Ли, это лучшая производительность среди всех. тот же масштаб Отлично, лидерство на всех уровнях.
Исследования показывают, что самая высокая скорость чтения человеческого глаза составляет около 20 слов в секунду, а модель SenseTime на стороне устройства, оснащенная 1,8B, может достигать скорости 18,3 слова в секунду на мобильном телефоне среднего класса, в то время как флагманский мобильный телефон Телефон может поддерживать скорость до 78,3 слов в секунду, что является самой высокой скоростью вывода в отрасли.
SenseTime также запустила решение для совместной работы между устройствами и облаком, которое может использовать соответствующие преимущества устройства и облака за счет интеллектуального сотрудничества. Когда необходимо обработать поиск в Интернете или сложные сцены, они выгружаются для обработки в облако. на конечную обработку приходится более 80%, что значительно снижает стоимость вывода.
За несколько секунд разговора с «Консультацией», будь то формирование отчета о запросе на отпуск за несколько секунд или обобщение документа в несколько тысяч слов, мы можем быстро отреагировать.
Модель диффузии на стороне устройства также может обеспечить самую высокую скорость вывода в отрасли. На основной платформе технология расширения изображения LDM-AI на стороне устройства имеет скорость вывода менее 1,5 секунды, что в 10 раз быстрее, чем у модели. конкурирующие облачные приложения поддерживают вывод изображений с разрешением 12 миллионов пикселей и выше, поддерживают такие функции редактирования изображений, как пропорциональное увеличение изображения, бесплатное увеличение изображения и быстрое увеличение изображения с помощью вращения на терминале.
Во время демонстрации на месте сотрудники смогли расшириться во время съемки, полностью продемонстрировав способность большой сквозной модели «идти быстро, но никогда не ломаться».
Более того, по словам Сюй Ли, крупномасштабная сквозная модель в основном подходит для шести основных областей: ежедневный диалог, вопросы и ответы, основанные на здравом смысле, создание копирайтинга, управление фотоальбомами, создание изображений и расширение изображений. -адаптация устройства, позволяющая гибко применять его в самых разных сценариях и устройствах.
В ответ на растущий спрос на приложения искусственного интеллекта в ключевых отраслях, таких как финансы, программирование, здравоохранение и государственные дела, SenseTime также официально выпустила универсальную машину для приложений корпоративного уровня, которая является экономически эффективной. готовые к использованию, защищенные от данных и произведенные на национальном уровне, охватывающие финансовые, медицинские, государственные дела, программирование и другие четыре основные отрасли.
Возьмем в качестве примера правительственную интеллектуальную платформу консультаций и вопросов и ответов. Она может не только понимать вопросы, поднятые пользователями, но и предоставлять справочные источники для ответов, что значительно повышает уровень интеллекта государственных служб.
Сюй Ли отметил, что естественный язык по-прежнему не может заменить языки программирования. Нынешние «программисты искусственного интеллекта» не могут самостоятельно выполнять сложные проекты кода промышленного уровня, и Copilot является более подходящей формой.
Поэтому сегодня SenseTime также выпустила облегченную версию крупномасштабной модели «все в одном» Little Raccoon Code, которая может поддерживать команду исследований и разработок из 100 человек на одной машине. Поддерживает данные, не покидающие домен, безопасность гарантирована, а бесплатное развертывание можно использовать «из коробки». Цена каждого устройства начинается от 350 000 юаней, что обеспечивает экономически эффективный вариант для пользователей малого и среднего бизнеса.
С начала этого года появление Sora позволило людям увидеть безграничный творческий потенциал создания видео с помощью искусственного интеллекта. Сюй Ли также представил на финальной сессии «еще одну вещь» — три видеоролика, полностью созданных большими моделями. Будущая платформа генерации видео Wensheng также имеет отличные характеристики в управлении персонажами, действиями и сценами.
Для реализации приложений искусственного интеллекта требуется готовая к использованию крупная модель супермаркета.
Спустя год после выпуска GPT-4 крупные модели все еще постоянно повышают параметры, чтобы обновить рейтинги. Но что действительно беспокоит всех в отрасли в этом году, так это то, как интегрировать крупные модели через агентов в рабочие процессы бесчисленного количества компаний и частных лиц.
GPT Store OpenAI не стал GPT Store индустрии искусственного интеллекта, как надеялись, но множество потребностей и проблем все еще существуют. Отсутствие плавного моста между мощными возможностями больших моделей и их реализацией в различных отраслевых сценариях также открывает огромные возможности.
Открытая платформа RiRixin от SenseTime на самом деле представляет собой большой модельный супермаркет. Благодаря возможностям мультимодальной модели повышается эффективность вызовов API, а порог для предприятий и разработчиков при вызове и настройке различных функций искусственного интеллекта снижается.
По сравнению с масштабными параметрами модели, SenseTime больше фокусируется на применении возможностей модели. От крупных отраслевых моделей SenseTime для финансов, здравоохранения, государственных дел и программирования до клиентских моделей с самой высокой скоростью вывода в отрасли, а также собственных приложений искусственного интеллекта, таких как Дискуссия, Ruying, Dayi и Little Raccoon Family. , можно видеть, что SenseTime Tang хочет предоставить набор инструментов искусственного интеллекта с более богатыми интерфейсами, которые смогут выполнять сложные задачи в различных отраслях.
В «Отчете о рынке платформ разработки искусственного интеллекта в Китае в 2023 году», опубликованном известной исследовательской организацией Frost & Sullivan, отмечается, что большие устройства SenseCore стали ведущим поставщиком инфраструктуры облачных вычислений для китайских платформ разработки искусственного интеллекта. По пяти пунктам оценки: совместимость аппаратной инфраструктуры, сотрудничество производственных цепочек, модуль оптимизации обучения модели, технические возможности интеллектуальных аннотаций и технический уровень модели предварительного обучения — SenseTime получила самые высокие оценки.
Некоторое время назад мы сообщали о корпоративной версии WPS AI от Kingsoft Office, и одной из крупных моделей, с которыми она сотрудничает, является SenseTime. Kingsoft заявила, что SenseTime превосходно справляется с анализом данных, поэтому WPS AI использует его для обработки сценариев, требующих научного мышления.
APPSO называет такие компании, как Kingsoft, которые не производят большие модели, но полны решимости применять большие модели, специалистами по применению ИИ. Роль SenseTime — это не столько поставщик крупных моделей, сколько универмаг и супермаркет, помогающий различным отраслям внедрять крупномасштабные приложения искусственного интеллекта.
Что такое универмаг? Он имеет широкий спектр продуктовых линеек, которые могут удовлетворить индивидуальные потребности различных потребителей, больших и малых. Самое главное, появление универмагов и супермаркетов сделало широкий ассортимент товаров более доступным для населения, позволяя большему количеству обычных людей с удобством наслаждаться высококачественными продуктами и впечатлениями со всего мира.
И это величайшая ценность, которую формирующийся AIGC принесет нам в будущем. Говорят, что компания, являющаяся одним из величайших изобретений современного общества, осуществляет четвертую промышленную революцию, скорее всего, начиная с ее воздействия на предприятия. Покойный Тан Сяоу, основатель SenseTime, также сказал:
Не существует индустрии ИИ, есть только индустрия ИИ+. В ней подчеркивается, что ИИ должен сотрудничать с традиционными отраслями. Эти отношения представляют собой объединение и расширение возможностей, а не подрывную деятельность. Их ценность заключается в том, чтобы помочь традиционным отраслям повысить эффективность производства и повысить производительность.
Тан Сяоу упомянул в своей речи, что «корпоративное финансирование предназначено не для того, чтобы гореть, а для того, чтобы совершать великие дела». «Великим делом», которое SenseTime совершит в ближайшие десять лет, будет помощь тысячам отраслей промышленности во внедрении AIGC.
Автор: Ли Чаофань, Мо Чунюй
# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo