Первый опыт выпуска Baidu запустила две новые модели для тестирования DeepSeek. Я попросил их собирать арбузы и продавать барбекю. Все подробности здесь.

16 марта, 2025 Дядя Влад

Если в прошлом году невозможно было добиться прогресса без самостоятельно разработанной модели GPT-4, то в этом году направление развития ИИ стало более конкретным — без модели глубокого вывода это также невозможно.

Это также спровоцировало новый виток конкуренции между крупными производителями в сфере искусственного интеллекта. Помимо доступа к DeepSeek, Tencent Yuanbao, Alibaba и т. д. активно запустили свои собственные модели глубокого мышления, чтобы конкурировать за суперприложения в эпоху искусственного интеллекта.

Baidu не является исключением. С начала года такие продукты компании, как Baidu Wenku и Wen Xiaoyan App, последовательно интегрировали модель DeepSeek-R1.

Конечно, модели собственной разработки и доступ к DeepSeek не являются противоположными вариантами, и нет необходимости делать выбор между ними.

Ко второй годовщине дебюта Вэнь Синь Ияна компания Baidu сегодня официально выпустила модель Wen Xin Large Model 4.5, и компания Deep Thinking Model X1 также была заранее приглашена испытать ее.

Краткое описание «дизайнов персонажей» этих двух моделей:

Текстовая большая модель 4.5: собственная мультимодальная базовая большая модель, хорошо подходящая для создания или интерпретации изображений и ответов на вопросы.
Deep Thinking X1: модель Deep Thinking, поддерживает вызов нескольких инструментов.

На официальном сайте Вэнь Синь И Яня были представлены две модели для бесплатного использования.

https://yiyan.baidu.com

Сбор арбузов, понимание мемов и определение древних картин — насколько сильны мультимодальные способности Wenxin 4.5?

Давайте сначала поговорим о Wenxin 4.5. Будучи большой встроенной мультимодальной базовой моделью, она преподнесла мне много сюрпризов с точки зрения возможностей мультимодального распознавания и понимания.

Когда дело доходит до классического процесса выбора арбуза, Wenxin 4.5 предоставляет различные критерии оценки, такие как цвет, полосы, звуки, дынные поля и т. д. Однако, как зрелый и прагматичный ИИ-фермер, выращивающий дыни, он не осмеливается ничего сказать.

Слова грубые, но узнать, какой арбуз слаще, можно только разрезав его и попробовав.

С точки зрения распознавания «мемов» Wenxin 4.5 тоже очень хорош в этом. Используя смайлик, чтобы проверить почву, он успешно распознал личность Человека-Свиньи. Когда дело дошло до идентификации другого смайла, Wenxin 4.5 не только понял буквальное значение, но и точно уловил метафоры и коннотации, стоящие за ним.

Вот небольшая хитрость. В дополнение к основной функции обмена, его ответы можно сохранить в Baidu Netdisk одним щелчком мыши, или же документы могут быть созданы автоматически. При обнаружении божественных ответов ИИ вы также можете сохранить их в любое время, и рабочее соединение будет довольно плавным.

Проверьте свое понимание еще раз и начните решать головоломки.

«Есть ли слово, которое все произносят неправильно? Что это такое?» Он легко ответил на этот вопрос, не увлекаясь им. Логический процесс рассуждения был ясен, и он также задал несколько дополнительных вопросов, соответствующих теме.

Какой из них больше, 9,8 или 9,11? Кусок торта. Однако я несколько раз подряд проверял «Сколько букв в клубнике», и его уверенность захлестывала экран, но и оно опрокидывалось одно за другим.

А вот вопрос по физике, который проверяет как вычислительные способности, так и способность распознавания изображений. Сначала спокойно анализирует структуру, затем разбирает варианты один за другим и, наконец, прочно фиксирует правильный ответ D. Процесс вполне обоснован и чем-то напоминает «представителя физического класса».

В своей повседневной жизни я часто сталкиваюсь с некоторыми древними картинами или скриншотами из фильмов неизвестного происхождения. Самый распространенный способ сделать это — опубликовать их в социальных сетях и попросить помощи у восторженных пользователей сети в области комментариев. Теперь, возможно, я смогу попробовать Wenxin 4.5.

После тестирования, даже если функция онлайн-поиска отключена, она все равно может точно отвечать на вопросы.

Помимо картинок, распознавание звука также однозначное. Например, я случайно записал на свой мобильный телефон отрывок из «Солнечного дня», и он моментально распознал песню по тексту, однако на это нельзя рассчитывать, когда речь идет о некоторых слишком непопулярных и нишевых песнях.

Кроме того, будь то загрузка отчетов технологической отрасли или 44-секундное демонстрационное видео последних достижений роботов, выпущенное Ли Фейфеем на платформе X некоторое время назад, к сводным возможностям Wenxin 4.5 трудно придраться.

В ноябре прошлого года Baidu выпустила технологию iRAG, технологию графов Винсента с улучшенным поиском, которая фокусируется на отсутствии галлюцинаций и ультрареалистичности.

Его основной принцип заключается в объединении ресурсов изображений Baidu Search на миллиард уровне с мощными возможностями базовой модели, чтобы обеспечить точную ссылку для создания изображений путем получения реальных и надежных данных изображений. Теперь Wenxin 4.5 также поддерживает создание изображений.

Например, рыночная стоимость Tesla в последнее время сильно колебалась. Итак, я нашел выход для Маска, самого богатого человека в мире, и попросил Wenxin 4.5 сгенерировать фотографию «Маска, продающего барбекю в ларьке ночью».

Киоск для барбекю по-прежнему нуждается в фотографии, так что не волнуйтесь, он также поддерживает частичную перерисовку, а настройка деталей очень удобна для пользователя.

Однако его еще нужно улучшить в генерации текста. Например, я хотел «перерисовать» для Маска «маровианский знак», но либо текст был размытым и трудно читаемым, либо позиция была смещена. Несколько раундов попыток закончились неудачей.

Медленное мышление ≠ медленное, X1 открывает правильный способ использования модели глубокого рассуждения?

Давайте поговорим о модели глубокого вывода X1, представленной сегодня Baidu. Это, очевидно, модель, которая сравнивает DeepSeek R1.

Согласно официальному представлению, текстовая модель X1 возникла на основе технологии медленного мышления, выпущенной Baidu в октябре 2023 года. Она обладает возможностями комплексного понимания, планирования, анализа и развития, а также поддерживает мультимодальность.

Если вы спешите, оставьте решение проблемы Wenxin 4.5, а сложные и длительные задачи выполнит X1, обладающий более сильными возможностями глубокого рассуждения.

Возьмем, к примеру, рекомендации деликатесов Гуанчжоу. Вэньсинь 4.5 просто нацарапал некоторые общие названия деликатесов, такие как «рисовые рулеты» и другие поверхностные ответы, в то время как X1 напрямую превратился в «заботливого гида», предоставляя единые названия магазинов + адреса и лучше понимая мысли туристов.

Столкнувшись с классической проблемой троллейбуса, время размышления X1 не слишком медленное, анализ краток, а результаты обсуждаются с точки зрения различных этических систем. Глубина и широта онлайн.

Что касается более сложного логического вопроса, производительность X1 также впечатляет.

Вызов нескольких инструментов — одна из особенностей Text Center X1.

Официальные лица заявили, что X1 разблокировал расширенный поиск, вопросы и ответы по документам, понимание изображений, рисование AI, интерпретатор кода и другие инструменты.

У меня возникла внезапная идея, и я загрузил изображение в форме сердца. На самом деле в изображение была встроена математическая формула. Это казалось простым, но довольно сложным. В конце концов, извлечение математической информации из изображений требует высокого визуального понимания и логических способностей.

Что касается результата, то он успешно извлек содержание формулы и объяснил смысл формулы.

Способность генерировать сложный текст также является изюминкой X1. Сначала я попросил X1 создать сценарий из 500 слов на тему «Линь Дайюй выкорчевывает плакучую иву». Сценарий «побеждает силу мягкостью», сохраняет черты характера Линь Дайюй, а также включает в себя драматические конфликты и повороты.

Сразу после этого я попросил X1 проанализировать сценарий с психологической точки зрения и на основе этого доработать новый сценарий из 1000 слов.

На этот раз задача, очевидно, более сложная. Теория, используемая X1, является подходящей, хотя она и не особенно глубока, но модель ИИ очень редко способна выполнить такую междисциплинарную интерпретацию за короткое время. Конечно, не лишено недостатков. Количество слов не соответствует требованиям.

Это просто ответ. По сравнению с Deepseek, полным «инфляционного» социального жаргона, X1 явно более сдержан в языковом выражении, а его выражение более гладкое и приземленное, с немного большей теплотой, которая трогает сердца людей.

DeepSeek хорош в комплексном мышлении, стремясь к технической глубине и широте мышления, но его язык немного отчужден.

Недавно технологический блоггер Александр Дориа выдвинул точку зрения — следующим циклом разработки в области ИИ будет «модель сама по себе является продуктом». Тот, кто справится с обучением моделей, будет управлять будущим.

Он также процитировал прогноз инвестора Databricks Навина Рао:

«В ближайшие 2-3 года поставщики ИИ с закрытым исходным кодом прекратят предоставлять услуги API. Только модели с открытым исходным кодом будут продолжать предоставлять API, а компании с закрытым исходным кодом обратятся к созданию более уникальных возможностей».

Оглядываясь назад на внутренний рынок, можно сказать, что показатели Baidu весьма репрезентативны.

С момента выпуска Wenxin Yiyan два года назад Baidu продолжала увеличивать свои инвестиции в модели собственной разработки с устойчивым ритмом итераций. Дебют Wenxin 4.5 и X1 также является лучшим примечанием к тенденции «модель как приложение».

Первый полагается на триллионы параметров для непосредственной атаки на мультимодальные возможности, а второй использует медленное мышление и вызов нескольких инструментов, чтобы продемонстрировать свои мыслительные способности. Такое дифференцированное расположение возможностей точно отвечает разнообразным потребностям пользователей и превращает саму модель из чисто технического ядра в «продукт», который можно использовать напрямую.

Оглядываясь назад на историю, можно сказать, что технологическое накопление Baidu в эпоху поиска и ее попытки трансформации в эпоху мобильного Интернета позволили ей стоять в авангарде, но она также упустила некоторые возможности из-за контроля ритма или рыночной конкуренции.

Отражая текущую ситуацию, если сравнивать ИИ с «огнем», Baidu два года назад, несомненно, был «Прометеем», который лучше всех знает, как использовать огонь на китайском рынке. Однако, как и в прошлом, Baidu, как «Военная академия Вампу» китайского ИИ, встала рано и поспешила на вечернее собрание.

Это неотделимо от тенденции экосистемы индустрии искусственного интеллекта.

Генеральный директор OpenAI Сэм Альтман в прошлом месяце предсказал, что стоимость использования ИИ фиксированного уровня будет падать на 90% примерно каждые 12 месяцев.

Быстрое снижение затрат ослабило высокие барьеры на пути к выживанию модели с закрытым исходным кодом, в результате чего ров технологической монополии постепенно обмелел. В то же время, модель с открытым исходным кодом и бесплатная модель стали новым способом привлечения пользователей и расширения технологического влияния благодаря своему низкому порогу и высокой доступности.

Быстрое проникновение DeepSeek и Manus за короткий период времени также показывает, что в настоящее время не существует серьезных препятствий для продуктов искусственного интеллекта. Пользователи будут выбирать тот опыт, который лучше, без какой-либо ностальгии.

Будь то Baidu, другие крупные компании или независимые разработчики, похоже, мы вернулись в безрассудную эпоху подъема мобильного Интернета.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo