Модель глубокого мышления Doubao официально выпущена! Как и o3, он может «думать, глядя на картинки», а также у него есть последний прием Агента.
За последние два месяца темпы выпуска моделей и продуктов ИИ нельзя назвать «меняющимися с каждым днем».
Популярность генерации графов GPT-4o, похоже, была вчерашней. OpenAI выпустила свои самые сильные модели вывода o3 и o4 mini, но, возможно, это не самый важный релиз ИИ в этом месяце. DeepSeek R2, Claude 4 от Anthropic и Grok-3.5 от Маска, скорее всего, выйдут один за другим в этом месяце.
И только сегодня Byte также выпустила полный набор сегментов семейства ИИ, включая модели глубокого мышления, визуальное мышление, диаграммы Винсента, агент ИИ… почти охватывающий продукты, которые в последнее время привлекли наибольшее внимание в кругу ИИ.
Давайте сначала взглянем на продукты и основные моменты, выпущенные Byte на этот раз:
1. Дубао 1.5 · Модель глубокого мышления
- Способность рассуждать входит в число лучших в мире
- Меньшая задержка поддерживает требовательные приложения
- Мультимодальное понимание и сценарии применения: поддерживает «поиск во время мышления» и «визуальное мышление».
2. Диаграмма Винсента 3.0.
- Картинка за 3 секунды
- Исходное разрешение 2K HD
- Оптимизация макета текста и генерации мелкого шрифта
- Улучшены эстетические эффекты и структура изображения.
3. Doubao 1.5 новая версия модели визуального понимания.
- Более точное визуальное позиционирование
- Понимайте видео более разумно
4.Агент ИИ
- Агент вертикальных приложений: Doubao запускает первую в Китае AI IDE – Trae
- Агент ОС: способен управлять браузерами, компьютерами, мобильными телефонами или другими агентами для выполнения сложных задач.
Серия обновлений продуктов Byte не только обеспечивает прорыв в возможностях рассуждения и мультимодальном понимании, но также ускоряет применение ИИ в большем количестве сценариев с помощью агента.
Как сказал Тан Дай, президент Volcano Engine: «Если 2024 год станет первым годом применения ИИ-приложений в Китае, то 2025 год, скорее всего, станет первым годом применения ИИ-агентов».
Дубао 1.5 · Модель глубокого мышления: «Ищите, думая» + «Визуальное рассуждение», думайте и наблюдайте как человек.
В основе этого обновления лежит три ключевых улучшения Doubao 1.5·Deep Thinking Model: более сильный эффект рассуждения, чрезвычайно низкая задержка ответа и комплексные мультимодальные возможности.
В тесте на способность к рассуждению в профессиональных областях модель глубокого мышления Дубао достигла или близка к первому уровню в мире.
- С точки зрения математических рассуждений, результат теста AIME 2024 сравнялся с OpenAI o3-mini-high.
- По конкурентоспособности программирования он близок к OpenAI o1 в тесте Codeforces pass@8.
- Способность к научному рассуждению также близка к o3-mini в тесте GPQA.
Модель глубокого мышления Doubao 1.5 использует архитектуру MoE с общим параметром 200B, но параметры активации составляют только 20B.
Эта конструкция может значительно снизить затраты на обучение и логические выводы, обеспечивая при этом высокую производительность и чрезвычайно низкую задержку в 20 миллисекунд, что означает, что ее можно лучше применять в сценариях взаимодействия в реальном времени, чувствительных к задержкам.
Технический отчет модели глубокого мышления Beanbao
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
На практике две функции «поиск во время мышления» и «визуальное мышление» модели глубокого мышления Дубао принесли некоторые сюрпризы, которые на данный момент более заметны по сравнению с аналогичными продуктами.
Функция «Поиск во время мышления» имитирует процесс мышления человека и обращения к информации при решении задач. Он объединяет поиск и рассуждения и проводит множественный поиск на основе результатов мышления на каждом этапе, делая ответ более логичным и близким к потребностям.
Недавно APPSO также имел подробный опыт глубокого мышления Дубао «поиск во время мышления».
Модель глубокого мышления Дубао не просто дает ответы, но выполняет несколько раундов поиска и размышлений, как консультант:
- 1. Первый раунд поиска данных о цене и производительности для определения основного диапазона выбора.
- 2. Второй раунд поиска основан на потребностях детей и выбирает безопасное и подходящее оборудование.
- 3. В третьем раунде учитываются погодные факторы, и, пожалуйста, ознакомьтесь с подробной оценкой.
Весь процесс прозрачен, и пользователи могут видеть, как модель шаг за шагом строит решение. Эта возможность «мышления и поиска» применима не только к решениям о покупках, но также может применяться к сложным сценариям принятия решений, таким как финансовый анализ и планирование поездок.
Что касается способности визуального мышления модели глубокого мышления Doubao 1.5, она совпадает с OpenAI o3, что позволяет ИИ глубоко мыслить на основе изображений, подобных людям.
Например, в задаче оценки географического положения модель не только идентифицировала озеро на изображении, но также заметила мелкие детали, такие как кристаллы соли на краю озера и окружающих туристических объектах, и точно определила местоположение живописного места посредством логических рассуждений.
Способность к визуальному мышлению действительно может сыграть важную роль в сценах корпоративного офиса. Дубао может интерпретировать сложные схемы процессов управления проектами, быстро находить ключевую информацию и отвечать на вопросы строго в соответствии с логикой блок-схемы.
Видно, что независимо от того, анализирует ли он диаграммы финансовых отчетов или диаграммы описаний продуктов, он может продемонстрировать понимание на профессиональном уровне.
Дубао Вэньшэн Рисунок 3.0: Скачок от поколения к созиданию
Gemini 2.0 и программа GPT-4o «Одно предложение для создания изображений» положили начало новой волне создания изображений. На этот раз Seedream 3.0, модель генерации изображений beanbao, добилась прорыва в трех основных аспектах: набор текста, реализм изображений и возможности вывода изображений высокой четкости.
На арене искусственного анализа, авторитетной оценке в области винсентийской графики, Doubao Vincentia 3.0 не уступила таким топовым моделям, как GPT-4o, Imagen 3, Midjourney v6.1 и FLUX 1.1 Pro, входя в число первых эшелонов мира.
Самым значительным обновлением Seedream3.0 является прямое создание изображений с разрешением 2K. Технологическая группа Byte использует стратегию смешанного обучения с несколькими разрешениями, чтобы модель могла адаптироваться к различным требованиям к соотношению изображений — от экранов мобильных телефонов до гигантских плакатов, а также выводить четкие и высококачественные изображения без обработки после усиления.
Эта встроенная возможность высокого разрешения означает большое удобство для профессионального дизайна и коммерческих приложений.
При этом рендеринг изображений с разрешением 1К сокращается до 3 секунд. Эта способность эффективного рассуждения выигрывает от ряда технических оптимизаций, позволяющих создателям добиться интерактивного опыта в реальном времени: «то, что вы думаете, это то, что вы получаете». Для таких сценариев, как дизайн плакатов и визуальное творчество, требующих эффективного взаимодействия со стороной А. Такая скорость очень практична.
Набор мелких китайских иероглифов и длинных текстов всегда был болевой точкой в рисовании с помощью ИИ. Doubao 3.0 не только решает эту проблему, но и повышает красоту верстки до профессионального уровня. Возьмем, к примеру, серию плакатов «Визуальное». Создаваемый контент богат деталями, красиво напечатан и соответствует коммерческим стандартам.
С точки зрения создания портретов, благодаря оптимизации данных обнаружения дефектов и технологии кросс-модального кодирования, новая модель чрезвычайно реалистична с точки зрения текстуры кожи, естественного выражения лица, текстуры одежды и т. д., почти устраняя «странности», создаваемые искусственным интеллектом.
В настоящее время Seedream 3.0 полностью открыт на таких платформах, как Doubao и Jimeng. Возможно, вы захотите попробовать это сами.
Модель визуального понимания: от узнавания к пониманию
Модель Doubao 1.5·Визуальное понимание добилась прорыва в основном в двух направлениях: визуальное позиционирование и понимание видео.
Что касается визуального позиционирования, новая модель поддерживает расширенные функции, такие как позиционирование по нескольким целям (одновременная идентификация нескольких объектов), позиционирование малых целей (идентификация очень маленьких объектов) и универсальное позиционирование целей (не ограниченное категориями предварительного обучения). Он также может выполнять подсчет позиционирования точек и позиционирование 3D-сцены. Эти возможности обеспечивают прочную основу для таких областей, как зрение роботов и автономное вождение.
В то же время модель достигла значительного улучшения памяти, способности к краткому пониманию, способности к восприятию скорости и способности к пониманию длинных видео. Это позволяет пользователям выполнять семантический поиск по видеозаписям домашнего наблюдения, например, спрашивать: «Что котенок делал сегодня дома?» Система может находить и отображать соответствующие клипы.
Будущее AI Agent: Приложение + ОС
Основной прорыв Doubao 1.5 на этот раз не только отражен в возможностях модели, но, что более важно, он обеспечивает прочную основу для агентов ИИ, позволяющих им начать думать о том, «какие проблемы должен решать ИИ», а не просто гоняться за техническими индикаторами.
Тан Дай считает, что состав ИИ-агента можно разделить на вертикальных агентов приложений и агентов ОС.
В области агентов приложений команда Doubao запустила профессиональных ИИ-помощников для различных вертикальных сценариев, включая агентов по обслуживанию клиентов, агентов данных, агентов кода и т. д. Эти агенты сосредоточены на задачах в конкретных областях и обладают глубокими профессиональными возможностями.
Самый привлекательный из них — Trae, первая AI IDE в Китае. В отличие от традиционных плагинов искусственного интеллекта, Trae глубоко интегрирует искусственный интеллект с интегрированными средами разработки и имеет три основные характеристики:
- Доставка: ориентирована на доставку программного обеспечения, а не просто на генерацию кода, начиная с основных потребностей.
- Интеллектуальный: способен понимать информацию и намерения, самостоятельно планировать и размышлять, а также использовать инструменты для выполнения задач.
- Сотрудничество: возможность сотрудничать с пользователями в различных измерениях, чтобы обеспечить качество конечного результата.
Эта концепция дизайна позволяет Trae помогать разработчикам и предприятиям быстрее и точнее выполнять работу по разработке программного обеспечения, обеспечивая переход от создания фрагментов кода к полной доставке программного обеспечения.
Агент ОС представляет собой более высокий уровень возможностей искусственного интеллекта: он обладает универсальностью и гибкостью в различных сценариях и может управлять браузерами, компьютерами, мобильными телефонами или другими агентами для выполнения сложных задач.
Ядро решения OS Agent от Volcano Engine состоит из модели beanbao и продуктов veFaaS. Благодаря двум случаям вы можете интуитивно понять его мощные возможности:
- Выполнение кода: агент может писать код и запускать его на нескольких языках, таких как Python и NodeJS, например, генерировать числа Фибоначчи и выводить результаты. Модель beanbag отвечает за генерацию кода, а песочница безопасности кода veFaaS отвечает за безопасную компиляцию и работу.
- Работа браузера: агент может выполнять сравнение цен на продукты iPhone через браузер, автоматически выполнять поиск на нескольких платформах электронной коммерции, извлекать информацию о ценах и выполнять сравнительный анализ и, наконец, давать оптимальные предложения по покупке.
В более сложных сценариях OS Agent может работать даже с профессиональным программным обеспечением. Например, вы можете использовать профессиональную версию Jianying для редактирования видео и создания звукового сопровождения или использовать приложение Doubao для создания контента и публикации его в Toutiao; На мобильном телефоне вы можете использовать специальное приложение для выполнения таких задач, как бронирование билетов на высокоскоростной поезд.
Ядром этих возможностей является недавно выпущенная большая модель GUI Agent — UI-Tars, которая объединяет визуальное понимание экрана, логические рассуждения, позиционирование и работу элементов интерфейса в единую модель, преодолевая ограничения традиционных инструментов автоматизации, основанных на заранее заданных правилах. UI-Tars добился лучших результатов среди различных отечественных моделей на тестовых наборах, таких как OS World.
Недавно в статье OpenAI Яо Шунюй отметил, что мы вступили во «вторую половину» развития ИИ. В отличие от первой половины, вторая половина больше не фокусируется исключительно на усовершенствовании моделей и технических показателях, а вместо этого обращается к тому, как определить действительно ценные проблемы и как измерить реальный прогресс.
Трудно сказать, уместно ли делить Интернет на верхнюю и нижнюю половины в прошлом, при быстром и нелинейном развитии ИИ, но некоторые изменения действительно происходят: модели уже используются не как цель, а как инструмент решения практических задач.
Возможно, это так называемый «прагматический роман» внутри Byte. Генеральный директор Byte Лян Рубо подчеркнул эту концепцию на собрании всех сотрудников Byte All Hands в начале года.
Первоначально это было предложено Чжан Имином в 2019 году. Он считает, что прагматичный роман заключается в том, чтобы «превратить воображение в реальность, взглянуть в лицо реальности и изменить ее».
Это также станет ответом Byte на радикальные изменения в индустрии искусственного интеллекта, вызванные продуктами DeepSeek и Agent.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Айфанера: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo