Новые модели Google Gemma 3 AI быстрые, экономичные и готовы к использованию на телефонах

Усилия Google в области искусственного интеллекта являются синонимом Gemini, который теперь стал неотъемлемым элементом ее самых популярных продуктов в программном и аппаратном обеспечении Worksuite. Тем не менее, компания уже более года выпускает несколько моделей искусственного интеллекта с открытым исходным кодом под маркой Gemma.

Сегодня Google представила свои модели искусственного интеллекта с открытым исходным кодом третьего поколения с некоторыми впечатляющими заявлениями. Модели Gemma 3 выпускаются в четырех вариантах — с 1 миллиардом, 4 миллиардами, 12 миллиардами и 27 миллиардами параметров — и предназначены для работы на самых разных устройствах — от смартфонов до мощных рабочих станций.

Готов для мобильных устройств

Сравнение производительности модели Google Gemma 3 AI.
Google

Google заявляет, что Gemma 3 — лучшая в мире модель с одним ускорителем, а это означает, что она может работать на одном графическом процессоре или TPU вместо целого кластера. Теоретически это означает, что модель Gemma 3 AI может работать на базе тензорного процессорного ядра (TPU) смартфона Pixel точно так же, как модель Gemini Nano работает локально на телефонах .

Самым большим преимуществом Gemma 3 по сравнению с семейством моделей искусственного интеллекта Gemini является то, что, поскольку он имеет открытый исходный код, разработчики могут упаковывать и поставлять его в соответствии со своими уникальными требованиями в мобильные приложения и настольное программное обеспечение. Еще одним важным преимуществом является то, что Gemma поддерживает более 140 языков, 35 из которых входят в предварительно обученный пакет.

И, как и последние модели серии Gemini 2.0 , Gemma 3 также способна понимать текст, изображения и видео. Короче говоря, это мульти-мультимдальность. Утверждается, что с точки зрения производительности Gemma 3 превосходит другие популярные модели искусственного интеллекта с открытым исходным кодом, такие как DeepSeek V3 , готовый к рассуждению OpenAI o3-mini и вариант Llama-405B от Meta.

Универсальность и готовность к развертыванию

Что касается диапазона ввода, Gemma 3 предлагает контекстное окно стоимостью 128 000 токенов. Этого достаточно, чтобы охватить полную 200-страничную книгу, представленную в качестве входных данных. Для сравнения, контекстное окно модели Gemini 2.0 Flash Lite от Google составляет миллион токенов. В контексте моделей искусственного интеллекта среднее слово английского языка примерно эквивалентно 1,3 токенам.

Демонстрация визуального понимания с помощью модели Google Gemma 3 AI.
Gemma 3 обрабатывает визуальный ввод. Google

Gemma 3 также поддерживает вызов функций и структурированный вывод, что, по сути, означает, что она может взаимодействовать с внешними наборами данных и выполнять задачи как автоматический агент. Ближайшей аналогией может быть Gemini и то, как он может беспрепятственно выполнять работу на разных платформах, таких как Gmail или Docs.

Новейшие модели искусственного интеллекта с открытым исходным кодом от Google можно развертывать либо локально, либо через облачные платформы компании, такие как пакет Vertex AI Suite. Модели Gemma 3 AI теперь доступны через Google AI Studio, а также из сторонних репозиториев, таких как Hugging Face, Ollama и Kaggle.

Тест модели Google Gemma 3 AI.
Google

Gemma 3 является частью отраслевой тенденции, когда компании работают над моделями больших языков (Gemini в случае Google) и одновременно продвигают модели малых языков (SLM). Microsoft также следует аналогичной стратегии со своей серией небольших языковых моделей Phi с открытым исходным кодом.

Маленькие языковые модели, такие как Gemma и Phi, чрезвычайно эффективны в использовании ресурсов, что делает их идеальным выбором для работы на таких устройствах, как смартфоны. Более того, поскольку они обеспечивают меньшую задержку, они особенно хорошо подходят для мобильных приложений.