DeepSeek настаивает на стратегии расширения Gemini, функция поиска ChatGPT бесплатна и открыта, а ИИ начинает войну за участие в прибылях
В конце прошлого года Google Deedmind запустила модель Gemini 2.0 Flash для эпохи интеллектуальных агентов, войдя в эпоху 2.0 одной ногой. Спустя два месяца серия семейных ковшей Gemini 2.0 была наконец официально запущена.
Этот выпуск, вызванный «эффектом сома» DeepSeek, отличается от обычного. Он не только еще больше повышает производительность, но и поднимает знамя экономической эффективности ИИ, а также включает в себя мультимодальные возможности.
На рынке новейших крупных моделей Gemini-2.0-Pro занимает 1-е место во всех категориях, Gemini-2.0-Flash — 3-е, а Flash-lite входит в десятку лучших благодаря превосходному соотношению цена/качество.
Генеральный директор Deepmind Демис Хассабис написал:
Захватывающий прогресс! Мы стремимся сокращать затраты, постоянно улучшая качество. Серия Gemini 2.0 является ведущей моделью по соотношению цена/качество и производительности. Благодаря сегодняшнему выпуску каждый сможет воспользоваться их мощными рассуждениями и мультимодальными возможностями, что также закладывает основу для нашей интеллектуальной работы.
Основные характеристики моделей серии Gemini 2.0 следующие:
- 2.0 Pro Experimental: основное внимание уделяется производительности кодирования и способности обрабатывать сложные подсказки, а также хорошие результаты в понимании знаний и логическом рассуждении.
- 2.0 Flash: предоставляет интерфейс API, специально предназначенный для разработчиков, для поддержки быстрого создания приложений.
- 2.0 Flash-Lite: повышение экономической эффективности и скорости реагирования при сохранении высокой производительности.
- Экспериментальная версия Flash Thinking 2.0: теперь она доступна пользователям в приложении Gemini.
Что можно сделать, имея менее 1 доллара? Новая модель Google может подписывать 40 000 изображений
В частности, каждая модель семейного ковша серии Gemini 2.0 имеет свои особенности.
Среди них Gemini 2.0 Flash, который был полностью выпущен, поддерживает многомодальный ввод и текстовый вывод, имеет контекстное окно из 1 миллиона токенов и поддерживает структурированный вывод, вызов функций, выполнение кода и другие функции.
Стоит отметить, что его мультимодальный API реального времени все еще находится на стадии «бета», а функции вывода изображения и звука также будут запущены позже.
Также определен ценовой план для этой модели: ввод текста, изображений и видео стоит 0,10 доллара США за миллион токенов, а аудиовход стоит 0,70 доллара США (официально вступает в силу с 20 февраля). Вывод текста стоит 0,40 доллара США за миллион токенов.
Все виды сборов за кэш также поддерживаются на низком уровне. Кэширование текста/изображений/видео стоит 0,025 доллара США за миллион токенов, а кэширование аудио — 0,175 доллара США.
Исходя из этого, Google также выпустила более экономичную «облегченную версию» — Gemini 2.0 Flash-Lite.
Хотя эта модель имеет определенные компромиссы в функциональности и в настоящее время не поддерживает мультимодальные API реального времени, инструменты поиска и выполнение кода, она сохраняет контекстное окно из 1 миллиона токенов, а также основные функции, такие как мультимодальный ввод, текстовый вывод и вызовы функций.
Его цена более доступна: входы для текста, изображений и видео стоят всего 0,075 доллара за миллион токенов, что почти на треть дешевле, чем в стандартной версии. Аудиовход также стоит 0,075 доллара США, вывод текста — 0,30 доллара США, кэширование текста/изображений/видео — всего 0,01875 доллара США за миллион токенов, а кэширование звука — 0,175 доллара США.
Для сравнения, модель DeepSeek-V3 теперь стоит 0,014 доллара за миллион токенов при попадании в кеш. С 8 февраля его цена вернется к уровню $0,07 за миллион токенов. Эта корректировка также может быть одним из важных факторов, побудивших Google сформулировать свою текущую стратегию ценообразования.
По данным Google, стоимость использования этой модели для создания подписей к 40 000 уникальных изображений составляет менее 1 доллара.
На вершине линейки продуктов находится экспериментальная версия Gemini 2.0 Pro. Эта модель имеет большое контекстное окно на 2 миллиона токенов, что эквивалентно обработке около 1,5 миллиона слов за раз, чего более чем достаточно, чтобы переварить все семь книг серии «Гарри Поттер» одновременно.
Функционально это также самый универсальный проигрыватель, не только поддерживающий мультимодальный ввод и вывод текста, но также обладающий универсальными возможностями, такими как структурированный вывод, вызов функций, инструменты поиска и выполнение кода.
Что касается тестирования производительности, серия Gemini 2.0 показала хорошие результаты.
В тесте MMLU-Pro 2.0 Pro Experimental лидировал с результатом 79,1%, а 2.0 Flash Lite Preview и 2.0 Flash GA набрали 71,6% и 77,6% соответственно.
С точки зрения генерации кода, математики и многоязычности версия 2.0 Pro Experimental также показала хорошие результаты, особенно по математике (91,8%) и многоязычности (86,5%).
К сожалению, даже самая мощная версия Gemini 2.0 Pro Experimental сильно отстает от модели OpenAI o3 и не завершила ожидаемый внешним миром «обгон поворотов».
Однако некоторые пользователи сети считают, что, поскольку Gemini 2.0 Pro не является типичной моделью CoT, текущее сравнение производительности может быть не совсем разумным.
Основными преимуществами этих моделей являются их быстрое реагирование и низкая стоимость, что делает их особенно подходящими для конкретных задач, таких как распознавание или классификация именованных объектов. С предстоящим запуском новых функций, таких как генерация изображений и преобразование текста в речь, сценарии применения серии Gemini 2.0 будут еще больше расширены.
Эти новые модели теперь доступны разработчикам в Google AI Studio и платформе Vertex AI, а также опытным пользователям Gemini на их устройствах.
Змеиная битва, прыгающий мяч, Близнецы 2.0 все еще могут так играть
Кто сказал, что искусственный интеллект может давать только сухие ответы? С запуском Gemini 2.0 Family Bucket пользователям сети не терпится разыграть новые трюки?
Например, хотите увидеть бой змей? Позвольте Gemini 2.0 разработать игру «Змея», используя код.
Или модель Gemini Flash Thinking — первая модель вывода, имеющая доступ к YouTube, а также поддерживающая функции поиска Google и карты.
Что касается рендеринга изображений, разработчик попросил модель написать скрипт с использованием p5.js, который генерировал трехмерную сцену, содержащую 100 динамически прыгающих желтых шариков. Более того, желтые шарики внутри сферы должны иметь возможность правильно сталкиваться друг с другом, сфера должна медленно вращаться и всегда оставаться внутри сферы.
Мы также кратко ознакомились с несколькими новыми моделями, выпущенными на этот раз в студии Google AI. Скорость отклика у этих новых моделей довольно высокая. Что касается эффекта, эммм, его действительно сложно оценить.
В то время как Gemini играет мускулами, OpenAI, который часто выступает в роли снайпера, также продолжает прилагать свои усилия.
Сегодня рано утром OpenAI объявила, что функция Deep Research полностью открыта для всех пользователей Pro, включая Великобританию, ЕС, Норвегию, Исландию, Лихтенштейн, Швейцарию и другие регионы. Плюс пользователи плакали от зависти.
Более того, функция поиска ChatGPT теперь открыта для всех пользователей и может использоваться без регистрации, что еще больше снижает порог пользователя.
Однако перед свертыванием модели вы также можете сначала свернуть наименование модели AI. Будь то серия Gemini или серия GPT/o OpenAI, поскольку новые модели появляются одна за другой, различные номера версий и правила именования также поражают воображение.
В прошлом году, когда генерального директора OpenAI Сэма Альтмана спросили о стратегии именования продуктов компании, он также признал, что это была настоящая головная боль.
В том числе генеральный директор Anthropic Амодей однажды сказал, что, хотя метод именования Клода выглядел хорошо в первые дни, с быстрыми итерациями и обновлениями модели система именования, которая все еще использовалась, также стала растянутой.
Он отметил, что в настоящее время ни одна компания, занимающаяся искусственным интеллектом, по-настоящему «не решила проблему именования», и все усердно работают над поиском более простых и понятных методов именования. Это также может быть редким консенсусом среди гигантов ИИ.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo