Самая сдержанная звезда шага «ИИ Шесть маленьких драконов» передала новый лист ответов в волне DeepSeek
Волна, вызванная DeepSeek, еще не закончилась. Не только OpenAI, но и китайские «Шесть маленьких драконов ИИ» сталкиваются с пытками: можно ли еще соблюдать закон масштабирования, является ли он открытым исходным кодом или закрытым, и возможен ли путь внедрения ИИ.
Сегодня Step Star, которая всегда была относительно сдержанной среди AI Six Little Dragons, взяла на себя инициативу по сдаче своего первого листа ответов в этом году.
На первом экологическом дне открытых дверей Step UP компания Step UP Star объявила о своем собственном способе изучения искусственного интеллекта, инициировала технические исследования мультимодальных рассуждений и сосредоточила свою реализацию искусственного интеллекта на интеллектуальных терминалах, уделив особое внимание сценариям применения, таким как автомобили, мобильные телефоны, воплощенный интеллект и Интернет вещей.
Цзян Даксин, основатель и генеральный директор Step Star, считает, что интеллектуальные терминалы станут ключевым носителем крупномасштабного применения агентных технологий.
Мы уверенно продвигаемся к цели реализации AGI и сейчас вступили в стадию разработки Агента (разумного тела).
Он отметил, что развитие интеллектуальных агентов зависит от двух ключевых элементов:
Первый — это мультимодальные возможности, позволяющие интеллектуальным агентам полностью воспринимать и понимать мир;
Второе — это способность к рассуждению, которая позволяет агенту медленно думать в длинной цепочке размышлений, активно планировать, пробовать и размышлять, а также давать точные ответы посредством непрерывного исправления ошибок.
Мультимодальность позволяет интеллектуальным агентам «видеть, слушать и понимать», как люди, что эквивалентно «сенсорной системе» человека, а способность к рассуждению — это «кора головного мозга», обрабатывающая информацию.
Сочетание этих двух качеств может сделать ИИ Ван Сифэна из «Мечты о красных особняках» с парой красных фениксов и треугольными глазами не только способным распознавать слова и цвета, но и читать глубокий смысл другой стороны из предложения или действия.
Мультимодальность также является самой большой особенностью Step Star среди шести маленьких драконов. В настоящее время в матрице моделей серии Step выпущено 11 больших мультимодальных моделей, охватывающих комплексные возможности в области распознавания речи, генерации речи, мультимодального понимания, генерации изображений и видео.
Несколько дней назад Step Star также открыла исходный код модели генерации видео Step-Video-T2V и речевой модели Step-Audio, став одним из шести маленьких драконов, которые быстрее всех внедрили открытый исходный код. Однако, в отличие от DeepSeek, все модели Step Star с открытым исходным кодом являются мультимодальными, и эту возможность DeepSeek еще не продемонстрировал.
В прошлом году APPSO использовала приложение Yuewen в рамках Step Star, чтобы предоставить китайскому iPhone 16, который еще не поддерживает Apple AI, возможность, аналогичную официальному визуальному интеллекту. Вы можете легко открыть камеру, нажав кнопку съемки, и вы, по сути, можете найти ответ на любой вопрос, с которым вам нужно проконсультироваться.
Что касается возможностей рассуждения, Step Star также анонсировала сегодня модель рассуждения с открытым исходным кодом Open-Reasoner-Zero, разработанную совместно с Университетом Цинхуа. Впервые крупномасштабное обучение с подкреплением начинается с предварительно обученной модели, а эффективность в 25 раз выше, чем у DeepSeek-R1-Zero.
Цзян Дасинь также ознакомился с моделью визуального мышления, разрабатываемой внутри компании. Фактически, это раскрыло техническую логику Step Star по продвижению внедрения искусственного интеллекта: объединение мультимодальных возможностей и возможностей рассуждения, превращающее интеллектуальные терминалы в носителя агента.
В настоящее время возможности модели Step Star в основном включают следующие сценарии в интеллектуальных терминалах.
- Автомобильная сцена: агент «умной кабины», разработанный в сотрудничестве с Geely, реализует «видеть и говорить» посредством мультимодального взаимодействия (голос + зрение). Например, если пользователь говорит «Идите к ближайшей зарядной станции», агент автоматически вызовет карту, запросит статус зарядной станции и спланирует маршрут.
- Сценарий для мобильного телефона: благодаря функции «запрос экрана в один клик», созданной совместно с OPPO, после того, как пользователь сделает фотографию или снимок экрана, агент может напрямую проанализировать содержимое изображения (например, продукты, документы) и вызвать API для завершения поиска или перевода без необходимости вручную переключать приложения.
- Сценарий Интернета вещей: Сотрудничайте с такими производителями, как TCL, для реализации активных услуг посредством связи между устройствами, достижения интеллектуальных обновлений между устройствами и беспрепятственного взаимодействия между устройствами.
- Воплощенный интеллект: продвигать инновационное применение агента в воплощенной сфере. Step Star объявила о стратегическом сотрудничестве с Zhiyuan Robot для совместного изучения сценариев применения роботов на базе AI+.
Интеллектуальные терминалы с искусственным интеллектом — это привлекательная и противоречивая концепция, которая может позволить многим устройствам улучшить взаимодействие с пользователем с помощью искусственного интеллекта. Недавно многие мобильные телефоны объявили о доступе к DeepSek. В то же время аппаратное обеспечение искусственного интеллекта Ai Pin, ставшее популярным в прошлом году, в следующем месяце прекратит все службы искусственного интеллекта, отправку сообщений и другие сетевые функции.
В настоящее время большинство подключенных к мобильным телефонам DeepSeek добавляют плагин к голосовому помощнику. В то же время, поскольку DeepSeek еще не поддерживает мультимодальные возможности, сценарии использования более ограничены. Недавно популярный комбинированный игровой процесс «DeepSeek+xx» на самом деле призван компенсировать недостаток возможностей.
OPPO, которая в прошлом году первой выпустила телефон с искусственным интеллектом, пошла дальше в интеграции терминалов с искусственным интеллектом.
Например, с помощью приложения Xiaobu Assistant «Опрос в один клик» пользователи взаимодействуют с искусственным интеллектом посредством мультимодального зрения, чтобы реализовать множество функций, таких как фото-вопрос и ответ, документирование вопросов и ответов, а также вопрос и ответ по распознаванию экрана.
Пользователи могут даже давать Xiaobu инструкции по входу в различные приложения для выполнения задач, таких как поиск одного и того же продукта на Taobao и JD.com, поиск информации и услуг на таких платформах, как Xiaohongshu, Tonghuashun и Ctrip, а также поиск записей чата в социальных программах, таких как Feishu, DingTalk и WeChat Enterprise и т. д., реализуя всесторонний поиск одним щелчком мыши.
Эти функции совместно разработаны OPPO на основе серии мультимодальных моделей Step Ван Юлун, директор отдела интеллектуальных помощников OPPO и глава Xiaobu Assistant, рассказал нам, что благодаря глубокой интеграции технологий искусственного интеллекта нового поколения и мобильных терминалов мобильные телефоны постепенно превратились в интеллектуальных помощников, которые могут понимать намерения пользователей, предоставлять упреждающие услуги и даже прогнозировать потребности пользователей.
Интеллектуальные терминалы вступают в эпоху агентов. Самое большое отличие от прошлого заключается в том, что локализованные возможности рассуждения ИИ превращают терминал из инструмента, который пассивно реагирует на инструкции, в «интеллектуального партнера», который активно понимает потребности и сотрудничает между приложениями.
Что делает этот проект реальностью, так это мультимодальный агент ИИ, который будет служить новым интерактивным интерфейсом без необходимости в физическом интерфейсе, подобном дереву души в «Аватаре», соединяя всех киберагентов. Пользователи могут даже напрямую взаимодействовать с ИИ посредством мышления для выполнения всех реальных задач.
Цзян Даксин предположил, что развитие ОИИ должно пройти три этапа: моделирование мира, исследование мира и обобщение мира:
- Имитируемый мир: тренируйте мультимодальные модели посредством имитационного обучения, чтобы единообразно представлять звук, текст, изображения, видео и физический мир.
- Исследуйте мир: внедрите обучение с подкреплением (например, AlphaGo, DeepSeek), чтобы дать модели возможность логического рассуждения и решения проблем.
- Обобщите мир: изучите способность машин независимо открывать физические законы, такие как вывод Ньютона о законе гравитации из падения яблока. Цель — совместная разработка инноваций между искусственным интеллектом и учеными.
К AGI может быть несколько путей, но кому-то всегда нужно идти по другому пути. Step Star выбрала путь интеллектуального терминального агента. Возможно, следующее нововведение в области взаимодействия человека и компьютера уже заложило основу для следующего нововведения.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo