Фактический тест модели Wenxin 4.5T/X1 с двойным турбонаддувом, «порез ножом» Baidu также сместил DeepSeek
Стратегия открытого исходного кода, которую продвигает DeepSeek, не только оказала большое влияние на «Шесть маленьких драконов искусственного интеллекта», но и оказала реальное давление на таких авторитетных гигантов, как Baidu.
Но развернувшаяся Baidu постепенно демонстрирует сильную контратаку.
После объявления о том, что 30 июня исходный код серии Wenxin Large Model 4.5 будет официально открыт, компания Baidu, выпустившая ряд новых продуктов, сегодня представила на конференции Create для разработчиков две новые модели: Wenxin 4.5 Turbo и Deep Thinking Model X1 Turbo.
Поскольку они получили название Turbo, возможности этих двух моделей, естественно, были полностью улучшены с упором на мультимодальность, убедительные аргументы и низкую стоимость. Новый интеллектуальный помощник по поиску Baidu Вэнь Сяоянь также объявил о полном доступе и открыт для пользователей бесплатно. Отныне пользователи могут использовать приложение Wen Xiaoyan.
На встрече основатель Baidu Робин Ли четко отметил: «Мультимодальность станет стандартом для базовых моделей в будущем. Рынок чисто текстовых моделей будет становиться все меньше и меньше, в то время как рынок мультимодальных моделей будет становиться все больше и больше».
«Конечно, DeepSeek не всесилен. Например, он может обрабатывать только текст и не может понимать и генерировать мультимедийный контент, такой как изображения, аудио и видео», — считает Робин Ли. «Его большая проблема в том, что он медленный и дорогой. Большинство вызовов API крупных моделей на китайском рынке дешевле и быстрее, чем полноценная версия DeepSeek».
По его мнению, выпущенные сегодня крупные модели Wenxin 4.5 Turbo и X1 Turbo как раз призваны решить эти проблемы.
Основываясь на этом решении, большая модель Wenxin 4.5 Turbo еще больше усиливает свои мультимодальные возможности. В нескольких наборах тестов производительность Wenxin 4.5 Turbo по мультимодальным возможностям находится на одном уровне с GPT-4.1, а по некоторым параметрам даже лучше, чем у GPT-4o.
▲Wenxin 4.5 Турбо-многорежимный
▲Wenxin 4.5 Турбо-текст
С таким же успехом мы могли бы проверить способность Wenxin 4.5 Turbo к логическому мышлению и посмотреть, как он сможет ответить на такой классический вопрос:
«Чтобы сжечь неровную веревку, требуется час. Как вы можете использовать этот метод, чтобы судить о получасе? Всего требуется 1 час, чтобы сжечь неровную веревку от начала до конца. Теперь есть несколько веревок из одного и того же материала. Как я могу использовать метод сжигания веревки, чтобы рассчитать время в один час и пятнадцать минут?»
С точки зрения создания надежен ли Wenxin 4.5 Turbo? Мы также попросили его написать короткий сценарий о том, как Сунь Укун и Король Драконов Восточно-Китайского моря станут побратимами.
В результате переданный сценарий не только сохранил суть оригинальной работы, но и привнес новые интерпретации. Среди них изюминкой является олицетворение иглы, фиксирующей море, а дизайн церемонии кровного союза также добавляет новое измерение.
Большая модель Wenxin X1 Turbo была модернизирована с «глубоким мышлением» на основе 4.5 Turbo, со значительно улучшенными характеристиками и более полной встроенной системой цепочки мышления.
Будь то возможности вопросов и ответов, создание контента, логические рассуждения, вызов инструментов или мультимодальная обработка, X1 Turbo добился всесторонних улучшений, а его общая производительность опережает DeepSeek R1 и последнюю версию V3.
В прошлом месяце мы протестировали способность Wenxin Large Model 4.5 и Deep Thinking Model X1 понимать мемы. Как себя ведет новая модель? Ответ заключается в том, что мультимодальное понимание действительно сильнее.
Возьмите этот мем в качестве примера. По сравнению с прошлым разом, X1 Turbo имеет лучшее понимание и более организованный ответ, полностью осознавая «дружескую доброту», стоящую за этим универсальным смайликом.
Например, загрузите фотографию культурной реликвии, и пусть X1 Turbo объяснит и проанализирует ее. Он может не только точно определить идентичность культурных реликвий, но и подробно проанализировать характеристики их мастерства и объяснить содержание так же подробно, как профессиональный музейный переводчик.
Или попробуйте сгенерировать изображение с точки зрения самолета в воздухе, и картинка сгенерируется сразу, почти реальная.
▲Подсказка: рука человека показывает из окна самолета. Крылья самолета за окном видны сбоку. Небо снаружи чистое, а на линии горизонта виден рассвет или сумерки. Перед тобой огромный океан
Что касается стоимости, которая всех больше всего беспокоит, Baidu на этот раз также запустила ценовую комбинацию.
Входная цена Wenxin Large Model 4.5 Turbo составляет всего 0,8 юаней за миллион токенов, а выходная цена — 3,2 юаня, что на 80% меньше по сравнению с предыдущим поколением 4.5 и эквивалентно лишь 40% DeepSeek V3.
Входная цена большой модели Wenxin X1 Turbo составляет 1 юань за миллион токенов, а выходная — 4 юаня. Цена также снижена вдвое, а производительность улучшена — всего на 25% по сравнению с DeepSeek R1.
На сегодняшней сессии One More Thing компания Baidu официально представила первый в Китае полностью самостоятельно разработанный кластер на 30 000 карт, который может одновременно проводить полное обучение нескольких крупных моделей с десятками миллиардов параметров и поддерживать 1000 клиентов для одновременной точной настройки больших моделей с десятками миллиардов параметров. Помимо жесткой силы мощной технической базы, это также означает, что Baidu в очередной раз подала отрасли четкий сигнал.
Кроме того, Робин Ли заявил на встрече, что одним из текущих препятствий для разработчиков при внедрении приложений ИИ является то, что большие модели дороги и недоступны. После снижения затрат разработчики и предприниматели смогут уверенно и смело развиваться, а предприятия смогут развертывать крупные модели с низкими затратами, что в конечном итоге будет способствовать взрывному росту числа приложений во всех сферах жизни.
Мы больше не рассматриваем возможности модели как барьер, а возвращаемся к логике «затратной эффективности», которой должны обладать продукт и платформа. Вместо того, чтобы говорить о скользящей цене, лучше использовать эффективность, чтобы снизить порог и построить экосистему за счет открытости.
# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo