Модель глубокого мышления Doubao официально выпущена! Как и o3, он может «думать, глядя на картинки», а также у него есть последний прием Агента.

17 апреля, 2025 Дядя Влад

За последние два месяца темпы выпуска моделей и продуктов ИИ нельзя назвать «меняющимися с каждым днем».

Популярность генерации графов GPT-4o, похоже, была вчерашней. OpenAI выпустила свои самые сильные модели вывода o3 и o4 mini, но, возможно, это не самый важный релиз ИИ в этом месяце. DeepSeek R2, Claude 4 от Anthropic и Grok-3.5 от Маска, скорее всего, выйдут один за другим в этом месяце.

И только сегодня Byte также выпустила полный набор сегментов семейства ИИ, включая модели глубокого мышления, визуальное мышление, диаграммы Винсента, агент ИИ… почти охватывающий продукты, которые в последнее время привлекли наибольшее внимание в кругу ИИ.

Давайте сначала взглянем на продукты и основные моменты, выпущенные Byte на этот раз:

1. Дубао 1.5 · Модель глубокого мышления

Способность рассуждать входит в число лучших в мире
Меньшая задержка поддерживает требовательные приложения
Мультимодальное понимание и сценарии применения: поддерживает «поиск во время мышления» и «визуальное мышление».

2. Диаграмма Винсента 3.0.

Картинка за 3 секунды
Исходное разрешение 2K HD
Оптимизация макета текста и генерации мелкого шрифта
Улучшены эстетические эффекты и структура изображения.

3. Doubao 1.5 новая версия модели визуального понимания.

Более точное визуальное позиционирование
Понимайте видео более разумно

4.Агент ИИ

Агент вертикальных приложений: Doubao запускает первую в Китае AI IDE – Trae
Агент ОС: способен управлять браузерами, компьютерами, мобильными телефонами или другими агентами для выполнения сложных задач.

Серия обновлений продуктов Byte не только обеспечивает прорыв в возможностях рассуждения и мультимодальном понимании, но также ускоряет применение ИИ в большем количестве сценариев с помощью агента.

Как сказал Тан Дай, президент Volcano Engine: «Если 2024 год станет первым годом применения ИИ-приложений в Китае, то 2025 год, скорее всего, станет первым годом применения ИИ-агентов».

Дубао 1.5 · Модель глубокого мышления: «Ищите, думая» + «Визуальное рассуждение», думайте и наблюдайте как человек.

В основе этого обновления лежит три ключевых улучшения Doubao 1.5·Deep Thinking Model: более сильный эффект рассуждения, чрезвычайно низкая задержка ответа и комплексные мультимодальные возможности.

В тесте на способность к рассуждению в профессиональных областях модель глубокого мышления Дубао достигла или близка к первому уровню в мире.

С точки зрения математических рассуждений, результат теста AIME 2024 сравнялся с OpenAI o3-mini-high.
По конкурентоспособности программирования он близок к OpenAI o1 в тесте Codeforces pass@8.
Способность к научному рассуждению также близка к o3-mini в тесте GPQA.

Модель глубокого мышления Doubao 1.5 использует архитектуру MoE с общим параметром 200B, но параметры активации составляют только 20B.

Эта конструкция может значительно снизить затраты на обучение и логические выводы, обеспечивая при этом высокую производительность и чрезвычайно низкую задержку в 20 миллисекунд, что означает, что ее можно лучше применять в сценариях взаимодействия в реальном времени, чувствительных к задержкам.

Технический отчет модели глубокого мышления Beanbao
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

На практике две функции «поиск во время мышления» и «визуальное мышление» модели глубокого мышления Дубао принесли некоторые сюрпризы, которые на данный момент более заметны по сравнению с аналогичными продуктами.

Функция «Поиск во время мышления» имитирует процесс мышления человека и обращения к информации при решении задач. Он объединяет поиск и рассуждения и проводит множественный поиск на основе результатов мышления на каждом этапе, делая ответ более логичным и близким к потребностям.

Недавно APPSO также имел подробный опыт глубокого мышления Дубао «поиск во время мышления».

Если взять в качестве примера сценарий рекомендаций по покупкам, пользователю необходимо выбрать туристическое снаряжение для семьи из трех человек с учетом многих факторов, таких как бюджет, безопасность, портативность и адаптируемость к погодным условиям.

Модель глубокого мышления Дубао не просто дает ответы, но выполняет несколько раундов поиска и размышлений, как консультант:

1. Первый раунд поиска данных о цене и производительности для определения основного диапазона выбора.
2. Второй раунд поиска основан на потребностях детей и выбирает безопасное и подходящее оборудование.
3. В третьем раунде учитываются погодные факторы, и, пожалуйста, ознакомьтесь с подробной оценкой.

Весь процесс прозрачен, и пользователи могут видеть, как модель шаг за шагом строит решение. Эта возможность «мышления и поиска» применима не только к решениям о покупках, но также может применяться к сложным сценариям принятия решений, таким как финансовый анализ и планирование поездок.

Что касается способности визуального мышления модели глубокого мышления Doubao 1.5, она совпадает с OpenAI o3, что позволяет ИИ глубоко мыслить на основе изображений, подобных людям.

Например, в задаче оценки географического положения модель не только идентифицировала озеро на изображении, но также заметила мелкие детали, такие как кристаллы соли на краю озера и окружающих туристических объектах, и точно определила местоположение живописного места посредством логических рассуждений.

Сцена заказов в зарубежных странах более репрезентативна, и модель должна одновременно обрабатывать множество сложных факторов: рассчитывать конвертацию цен в разных валютах, учитывать диетические предпочтения пожилых людей и детей, избегать ингредиентов, которые могут вызвать аллергию и т. д. Эта возможность выходит далеко за рамки традиционных однофункциональных инструментов.

Способность к визуальному мышлению действительно может сыграть важную роль в сценах корпоративного офиса. Дубао может интерпретировать сложные схемы процессов управления проектами, быстро находить ключевую информацию и отвечать на вопросы строго в соответствии с логикой блок-схемы.

Видно, что независимо от того, анализирует ли он диаграммы финансовых отчетов или диаграммы описаний продуктов, он может продемонстрировать понимание на профессиональном уровне.

Дубао Вэньшэн Рисунок 3.0: Скачок от поколения к созиданию

Gemini 2.0 и программа GPT-4o «Одно предложение для создания изображений» положили начало новой волне создания изображений. На этот раз Seedream 3.0, модель генерации изображений beanbao, добилась прорыва в трех основных аспектах: набор текста, реализм изображений и возможности вывода изображений высокой четкости.

На арене искусственного анализа, авторитетной оценке в области винсентийской графики, Doubao Vincentia 3.0 не уступила таким топовым моделям, как GPT-4o, Imagen 3, Midjourney v6.1 и FLUX 1.1 Pro, входя в число первых эшелонов мира.

Самым значительным обновлением Seedream3.0 является прямое создание изображений с разрешением 2K. Технологическая группа Byte использует стратегию смешанного обучения с несколькими разрешениями, чтобы модель могла адаптироваться к различным требованиям к соотношению изображений — от экранов мобильных телефонов до гигантских плакатов, а также выводить четкие и высококачественные изображения без обработки после усиления.

Эта встроенная возможность высокого разрешения означает большое удобство для профессионального дизайна и коммерческих приложений.

При этом рендеринг изображений с разрешением 1К сокращается до 3 секунд. Эта способность эффективного рассуждения выигрывает от ряда технических оптимизаций, позволяющих создателям добиться интерактивного опыта в реальном времени: «то, что вы думаете, это то, что вы получаете». Для таких сценариев, как дизайн плакатов и визуальное творчество, требующих эффективного взаимодействия со стороной А. Такая скорость очень практична.

Набор мелких китайских иероглифов и длинных текстов всегда был болевой точкой в рисовании с помощью ИИ. Doubao 3.0 не только решает эту проблему, но и повышает красоту верстки до профессионального уровня. Возьмем, к примеру, серию плакатов «Визуальное». Создаваемый контент богат деталями, красиво напечатан и соответствует коммерческим стандартам.

С точки зрения создания портретов, благодаря оптимизации данных обнаружения дефектов и технологии кросс-модального кодирования, новая модель чрезвычайно реалистична с точки зрения текстуры кожи, естественного выражения лица, текстуры одежды и т. д., почти устраняя «странности», создаваемые искусственным интеллектом.

В настоящее время Seedream 3.0 полностью открыт на таких платформах, как Doubao и Jimeng. Возможно, вы захотите попробовать это сами.

Модель визуального понимания: от узнавания к пониманию

Модель Doubao 1.5·Визуальное понимание добилась прорыва в основном в двух направлениях: визуальное позиционирование и понимание видео.

Что касается визуального позиционирования, новая модель поддерживает расширенные функции, такие как позиционирование по нескольким целям (одновременная идентификация нескольких объектов), позиционирование малых целей (идентификация очень маленьких объектов) и универсальное позиционирование целей (не ограниченное категориями предварительного обучения). Он также может выполнять подсчет позиционирования точек и позиционирование 3D-сцены. Эти возможности обеспечивают прочную основу для таких областей, как зрение роботов и автономное вождение.

В то же время модель достигла значительного улучшения памяти, способности к краткому пониманию, способности к восприятию скорости и способности к пониманию длинных видео. Это позволяет пользователям выполнять семантический поиск по видеозаписям домашнего наблюдения, например, спрашивать: «Что котенок делал сегодня дома?» Система может находить и отображать соответствующие клипы.

Будущее AI Agent: Приложение + ОС

Основной прорыв Doubao 1.5 на этот раз не только отражен в возможностях модели, но, что более важно, он обеспечивает прочную основу для агентов ИИ, позволяющих им начать думать о том, «какие проблемы должен решать ИИ», а не просто гоняться за техническими индикаторами.

Тан Дай считает, что состав ИИ-агента можно разделить на вертикальных агентов приложений и агентов ОС.

В области агентов приложений команда Doubao запустила профессиональных ИИ-помощников для различных вертикальных сценариев, включая агентов по обслуживанию клиентов, агентов данных, агентов кода и т. д. Эти агенты сосредоточены на задачах в конкретных областях и обладают глубокими профессиональными возможностями.

Самый привлекательный из них — Trae, первая AI IDE в Китае. В отличие от традиционных плагинов искусственного интеллекта, Trae глубоко интегрирует искусственный интеллект с интегрированными средами разработки и имеет три основные характеристики:

Доставка: ориентирована на доставку программного обеспечения, а не просто на генерацию кода, начиная с основных потребностей.
Интеллектуальный: способен понимать информацию и намерения, самостоятельно планировать и размышлять, а также использовать инструменты для выполнения задач.
Сотрудничество: возможность сотрудничать с пользователями в различных измерениях, чтобы обеспечить качество конечного результата.

Эта концепция дизайна позволяет Trae помогать разработчикам и предприятиям быстрее и точнее выполнять работу по разработке программного обеспечения, обеспечивая переход от создания фрагментов кода к полной доставке программного обеспечения.

Агент ОС представляет собой более высокий уровень возможностей искусственного интеллекта: он обладает универсальностью и гибкостью в различных сценариях и может управлять браузерами, компьютерами, мобильными телефонами или другими агентами для выполнения сложных задач.

Ядро решения OS Agent от Volcano Engine состоит из модели beanbao и продуктов veFaaS. Благодаря двум случаям вы можете интуитивно понять его мощные возможности:

Выполнение кода: агент может писать код и запускать его на нескольких языках, таких как Python и NodeJS, например, генерировать числа Фибоначчи и выводить результаты. Модель beanbag отвечает за генерацию кода, а песочница безопасности кода veFaaS отвечает за безопасную компиляцию и работу.
Работа браузера: агент может выполнять сравнение цен на продукты iPhone через браузер, автоматически выполнять поиск на нескольких платформах электронной коммерции, извлекать информацию о ценах и выполнять сравнительный анализ и, наконец, давать оптимальные предложения по покупке.

В более сложных сценариях OS Agent может работать даже с профессиональным программным обеспечением. Например, вы можете использовать профессиональную версию Jianying для редактирования видео и создания звукового сопровождения или использовать приложение Doubao для создания контента и публикации его в Toutiao; На мобильном телефоне вы можете использовать специальное приложение для выполнения таких задач, как бронирование билетов на высокоскоростной поезд.

Ядром этих возможностей является недавно выпущенная большая модель GUI Agent — UI-Tars, которая объединяет визуальное понимание экрана, логические рассуждения, позиционирование и работу элементов интерфейса в единую модель, преодолевая ограничения традиционных инструментов автоматизации, основанных на заранее заданных правилах. UI-Tars добился лучших результатов среди различных отечественных моделей на тестовых наборах, таких как OS World.

Недавно в статье OpenAI Яо Шунюй отметил, что мы вступили во «вторую половину» развития ИИ. В отличие от первой половины, вторая половина больше не фокусируется исключительно на усовершенствовании моделей и технических показателях, а вместо этого обращается к тому, как определить действительно ценные проблемы и как измерить реальный прогресс.

Трудно сказать, уместно ли делить Интернет на верхнюю и нижнюю половины в прошлом, при быстром и нелинейном развитии ИИ, но некоторые изменения действительно происходят: модели уже используются не как цель, а как инструмент решения практических задач.

Возможно, это так называемый «прагматический роман» внутри Byte. Генеральный директор Byte Лян Рубо подчеркнул эту концепцию на собрании всех сотрудников Byte All Hands в начале года.

Первоначально это было предложено Чжан Имином в 2019 году. Он считает, что прагматичный роман заключается в том, чтобы «превратить воображение в реальность, взглянуть в лицо реальности и изменить ее».

Это также станет ответом Byte на радикальные изменения в индустрии искусственного интеллекта, вызванные продуктами DeepSeek и Agent.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Айфанера: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo