Действительно ли Gemini, самая мощная модель в истории Google, «сокрушает» GPT-4?

Вчера поздно вечером Google внезапно выпустил свой блокбастер-инструмент-убийцу искусственного интеллекта — Gemini.

Мультимодальные Близнецы могут понимать, манипулировать и комбинировать различные типы информации, включая текст, код, аудио, изображения и видео.

Менее чем через две недели после выпуска ChatGPT в прошлом году Google уже объявил «красную тревогу» для решения этой проблемы. Но Bard, который был запущен в срочном порядке, допустил ошибку при своем дебюте, в результате чего Google потеряла рыночную стоимость в 100 миллиардов долларов США в одночасье.

В прошлом году чат-боты на основе крупных моделей получили более 2 миллиардов посещений в месяц, среди которых с большим отрывом опережает ChatGPT. Хотя Google Bard и занимает второе место, его правильнее отнести к «прочим» вместе с несколькими конкурирующими продуктами.

▲ Изображение из: Информация

Поэтому на Gemini уже давно возлагаются большие надежды догнать ChatGPT. Независимо от успеха или неудачи, это результат прошлых отчаянных усилий Google над крупными моделями искусственного интеллекта.

Способен видеть, говорить и рассуждать

Gemini 1.0 официально объявила о трех разных размерах: средняя чашка, большая чашка и очень большая чашка.

Средний размер: Gemini Nano — наиболее эффективная модель для выполнения задач с помощью устройств. Большой размер: Gemini Pro — лучшая модель для широкого спектра задач. Сверхбольшой размер: Gemini Ultra — самая большая и наиболее мощная модель для выполнения очень сложных задач.

Оставив на время сложную информацию о параметрах, давайте рассмотрим несколько случаев, чтобы дать вам полное представление о возможностях Gemini.

Когда вы наугад рисуете утку, Близнецы могут точно определить все, от изгиба до формы утки. Нарисуйте утку волнистой линией, и она поймет ваш смысл и точно укажет ответ на сцену с уткой, плавающей в воде.

В то же время он также может гуманно имитировать утиные крики, даже если вы свободно произносите утиные крики на китайском языке.

Если вам скучно, вы также можете сыграть в игру с Близнецами: на какую область вы укажете пальцем, Близнецы расскажут вам об этой стране и ее характерных вещах.

Трое бессмертных возвращаются в пещеру. Угадайте, под какой чашкой находится бумажный шарик. Как бы быстро вы ни двигались, вам не скрыться от «глаз» Близнецов.

Если вы получили пряжу, но понятия не имеете, не волнуйтесь, умный мозг Близнецов уже подготовит для вас готовое изделие, как только увидит пряжу, вам просто нужно «подражать кошке и тигру».

Распознавание изображений — это лишь базовый уровень Близнецов.Когда вы видите музыкальные инструменты, Близнецы также могут создавать музыку, соответствующую атмосфере окружающей среды.

Логика и решение головоломок, анализ последовательности изображений, интерпретация фокусов, память и логика — Близнецы обладают всеми этими способностями и владеют ими всеми.

Google также выпустил текстовую демонстрационную версию. Если вы не хотите смотреть видео, вы можете посетить https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html. чтобы просмотреть его.

Возможно, это видео слишком шокирующее, и некоторые пользователи сети усомнились в том, что видео Google является «фейковым».Однако вскоре Gemini будет открыт для публики в Google AI Studio, и тогда подлинность можно будет отличить.

Мультимодальный Близнецы VS GPT-4

По словам представителей Google, производительность Gemini Ultra от естественного понимания изображений, аудио и видео до математических рассуждений превысила 30 современных показателей в 32 широко используемых академических тестах для исследований и разработок моделей больших языков (LLM).

Судя по результатам испытаний, опубликованным Google, производительность Gemini почти полностью превзошла OpenAI GPT-4 в таких областях, как текст, традиционные рассуждения, математика и кодирование.

MMLU (массовое многозадачное понимание языка) — один из самых популярных способов проверки знаний и способностей моделей ИИ к решению проблем. Gemini Ultra стала первой моделью, превзошедшей в этом тесте человека-эксперта с точностью 90,0%.Для сравнения, GPT-4 имела точность всего 86,4%.

Новый эталонный тест MMMU включает мультимодальные задачи в различных областях и имеет более высокую степень тестирования крупных мультимодальных моделей, но Gemini Ultra также получил высокий балл — 59,4%.

В интервью MIT Technology Review генеральный директор Google Сундар Пича сказал, что одна из важных причин, почему Gemini примечательна, заключается в том, что это по сути мультимодальная модель.Как и люди, она учится не только с помощью текста, но и с помощью видео. аудио и код.

Мультимодальные функции — это встроенные функции, над которыми Gemini потратила время. Gemini 1.0 может одновременно распознавать и понимать текст, изображения, аудио и другую информацию. Он обладает более сильной способностью понимать информацию и может с легкостью отвечать на вопросы, связанные со сложными темами. В мультимодальном тесте SOTA уровень мультимодального тестирования изображения, видео и звука Gemini снова далеко впереди.

Код является одним из важных показателей для тестирования уровня больших моделей. Способность Gemini 1.0 работать на разных языках и анализировать сложную информацию является его сильной стороной, и он может понимать высококачественные коды, такие как Python, Java, C++. , и т. д. Два года назад Google запустил AlphaCode, первую систему генерации кода искусственного интеллекта, которая достигла конкурентного уровня в соревнованиях по программированию.

Теперь AlphaCode запускает свое второе поколение, конкурентоспособную модель кодирования, доработанную Gemini.По сравнению с исходным AlphaCode на той же платформе, AlphaCode-2 набрал 87% очков среди конкурентов-людей, по сравнению с предыдущим AlphaCode, набравшим только 46%.

Адрес технического отчета AlphaCode-2  : https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

В техническом отчете Google DeepMind (производитель AlphaCode 2) поделился множеством подробностей о своей системе поиска, фильтрации и повторного ранжирования во время вывода. Джим Фан, старший научный сотрудник NVIDIA, назвал эти последние результаты Google Q* (что можно просто понимать как крупный прорыв в области искусственного интеллекта).

Генеральный директор thehiredai Арман сделал смелое предсказание: «ИИ Gemini только что убил ChatGPT!»

Стоит отметить, что Google также объявила о выпуске самой мощной, эффективной и масштабируемой системы TPU на сегодняшний день: Cloud TPU v5p.

▲ Облачный ТПУ v5p

Обучение Gemini 1.0 проводится на инфраструктуре оптимизации искусственного интеллекта тензорных процессоров (TPU) собственной разработки Google v4 и v5e.

Генеральный директор Google Cloud Томас Куриан без колебаний похвалил свой продукт: «Cloud TPU v5p — наш самый мощный и масштабируемый ускоритель TPU на сегодняшний день, а скорость обучения его модели в 2,8 раза выше, чем у его предшественника. Times».

Новые игроки в моделях мобильных телефонов

Мобильные телефоны являются важной средой для прорыва новых технологий.

Будучи первым мобильным телефоном со встроенным искусственным интеллектом, Pixel 8 Pro заслужил хорошую репутацию на пути к высокотехнологичному гражданскому использованию.Судя по отзывам пользователей, которые уже использовали Pixel 8 Pro, Google проделала хорошую работу интеграция искусственного интеллекта с приложениями мобильных терминалов.

На этом основании Google официально объявил, что модель среднего размера Gemini Nano с сегодняшнего дня будет официально работать на Pixel 8 Pro.

Как только эта новость появилась, техническому директору PassionateGenius Моримото не терпелось испытать запуск больших моделей на Pixel 8.

Pixel 8 Pro — первый смартфон, разработанный специально для Gemini Nano, и имеет две эксклюзивные функции расширения, которые будут добавлены в последующих обновлениях: «Сводка рекордера» и «Gboard Smart Reply».

Даже при отсутствии подключения к сети диктофон может получать краткие сведения о записях разговоров по мобильному телефону, интервью, демонстрациях и т. д. Мощное терминальное оборудование является основой для поддержки этой функции, а оптимизированный боковой алгоритм позволяет «продолжать быть в автономном режиме, даже если сеть отключена».

Функция интеллектуального ответа очень похожа на автоматический ответ после того, как мы повесим трубку, но по сравнению с традиционным фиксированным контентом Gemini Nano может идентифицировать содержание входящего письма и генерировать соответствующие ответы на основе разных предложений. Язык будет более разнообразным. естественный и дружелюбный, что делает его похожим на звезду. Оперативная группа реагирует на непосредственные чувства фанатов в социальных сетях.

Эти две функции в настоящее время поддерживают только распознавание текста на английском языке, но если подумать, это не окажет никакого влияния на тех из нас, кто не может купить телефоны Google. Однако пользователи из неанглоязычных стран, которые могут купить Pixel 8 Pro все равно придется подождать некоторое время.

С точки зрения оптимизации производительности Pixel на другом берегу океана наконец-то догнал базовый уровень Китая.

Подобные функции редактирования фотографий и видео с помощью искусственного интеллекта стали синонимом новых телефонов Google, когда новые телефоны были впервые выпущены.

Новая функция очистки поможет удалить пятна, пятна и складки со отсканированных документов. Теперь вы можете удалить пятна со своих фотографий всего несколькими движениями по фотоальбому.

Используя возможности Google Tensor G3, модель улучшения видео на Pixel 8 Pro может регулировать цвет, освещение, стабильность и детализацию в облаке.

Судя по официальному сравнению дисплея, к видео был добавлен «яркий» фильтр, который делает цвета более насыщенными и повышает контраст между светлым и темным. Особенно в темных светлых условиях ночью эффект этой оптимизации AI будет более очевидным. .

По сравнению с редактированием видео, улучшение изображения должно быть ожидаемо большим количеством людей. Особенно при съемке динамических объектов размытые изображения всегда будут вызывать у вас некоторые сожаления, когда вы их потом пролистаете. Модернизированная система редактирования с помощью искусственного интеллекта может редактировать фотографии Google. Все размытия удалены. .

В будущем вы сможете записывать самые яркие моменты жизни своих питомцев, не беспокоясь о беспокойстве, вызванном тем, что камера не фокусируется.

Кроме того, Google также обновил связь между несколькими устройствами. Pixel Watch могут стать еще одним способом разблокировки телефона, а также помочь вам игнорировать нежелательные вызовы или проверять, кто звонит и почему вы звоните, прежде чем ответить.

Если вы можете купить Pixel 8 Pro или уже являетесь пользователем телефона Google, вы можете попытаться проверить, станут ли эти новые функции для вас движущей силой для покупки или продолжения использования Google.

Начиная с сегодняшнего дня, благодаря обновленной версии Gemini Pro, Бард получит более продвинутые возможности рассуждения, планирования, понимания и других функций. Он будет доступен на английском языке в более чем 170 странах и регионах.

В интервью MIT Technology Review Сундар Пичаи также сказал: «Gemini Pro показал себя очень хорошо в тестах производительности, и я лично могу почувствовать его преимущества при интеграции его в Bard. Мы тестировали его и увидели значительные улучшения во всех категориях. задачи, мы называем это одним из наших самых больших обновлений».

▲В настоящее время Бард использует версию Gemini Pro. Изображение предоставлено пользователем X @gijigae.

В ближайшие несколько месяцев Gemini постепенно запустит больше продуктов и услуг Google, таких как поиск, реклама, Chrome и Duet AI.

Начиная с 13 декабря разработчики и корпоративные клиенты смогут получить доступ к Gemini Pro через Gemini API в Google AI Studio или Google Cloud Vertex AI.

В настоящее время Gemini Ultra находится на внутреннем тестировании и планирует представить его разработчикам и корпоративным пользователям в начале следующего года.В начале следующего года Google также запустит Bard Advanced, чтобы позволить большему количеству обычных пользователей использовать самый мощный Gemini Ultra.

Генеральный директор Google Сундар Пичаи сказал при запуске Gemini:

Каждый технологический сдвиг — это возможность продвинуть научные открытия, ускорить прогресс человечества и улучшить жизнь.
Я считаю, что трансформация, которую мы наблюдаем сейчас в отношении ИИ, будет самой глубокой за всю нашу жизнь, намного большей, чем трансформация мобильных устройств или Интернета, произошедшая до нее.

Если вы хотите реализовать AGI (искусственный общий интеллект), вам нужен ИИ, который сможет решать сложные задачи в разных областях и режимах так же спокойно, как люди. В этом процессе, помимо базовых вычислений, рассуждений и других базовых способностей, соответствующие текст, мультимодальные возможности, такие как изображения и видео, также должны поддерживаться.

DeepMind предложил структуру оценки и классификации AGI. Первые два этапа:

AGI-0: базовый искусственный интеллект, который может проявлять интеллект в определенных областях и задачах, таких как распознавание изображений, обработка естественного языка и т. д., но не может учиться и рассуждать в разных областях и модальностях, а также не может взаимодействовать с людьми и другими ИИ, общающимися и сотрудничает эффективно и естественно, а также не может воспринимать и выражать эмоции и ценности.

AGI-1: Первичный общий искусственный интеллект, способный проявлять интеллект в различных областях и задачах, таких как вопросы и ответы, обобщение, перевод, диалог и т. д., способный к обучению и рассуждению в разных областях и модальностях, а также способный взаимодействовать с людьми. и другие ИИ участвуют в базовом общении и сотрудничестве и способны воспринимать и выражать простые эмоции и ценности.

Демонстрационное видео Близнецов полностью демонстрирует его глубокое понимание взаимодействия в различных модальностях. Он может видеть, говорить, рассуждать, воспринимать и выражать простые эмоции и ценности. Это также позволяет нам увидеть потенциал AGI-1.

Эту статью написали в соавторстве Ли Чаофань, Сяо Фаньбо и Мо Чунюй.

Стиль любви делает будущее доступным.

# Добро пожаловать на официальную общедоступную учетную запись aifaner в WeChat: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo