Google выпускает «Семейное ведро AI» для борьбы с GPT-4o! Редкое крупное обновление поисковой системы, 121 предложение «ИИ» для устранения беспокойства.

15 мая, 2024 Дядя Влад

После того, как OpenAI вчера вечером выпустила ChatGPT-4o, на Google I/O оказывалось давление, как будто Google не мог избавиться от звания «Ван Фэн в AI», несмотря ни на что.

Google, с другой стороны, упомянул ИИ 121 раз и представил более десяти новых продуктов и обновлений на почти двухчасовой пресс-конференции. Можно сказать, что она «большая по объему и полная в управлении», с полным освещением. огневая мощь, но сюрпризов не так много.

Давайте сначала подведем итоги этой конференции, чтобы получить более подробный функциональный анализ.

Ключевые тезисы пресс-конференции:

Google Search AI: выпущены обзоры AI, расширенная версия функции сводки поиска AI и возможности многоэтапного рассуждения.
Большие модели Gemini: Gemini 1.5 Flash (1 миллион контекстов); Gemini Pro (2 миллиона контекстов);
Большая модель Gemma: выпущены мультимодальные большие модели с открытым исходным кодом Pali Gemma и Gemma2.
Искусственный интеллект в Google Workspace. Используйте возможности Gemini и форму боковой панели, чтобы объединить серию продуктов Google.
Приложение Gemini: мобильная версия приложения Gemini скоро будет поддерживать видеоразговоры с искусственным интеллектом и будет выпущена в последние недели.
Project Astra: новейший мультимодальный проект искусственного интеллекта, включая генеративный искусственный интеллект для изображений, музыки и видео, такой как Imagen3, Music AI Sandbox и Veo.

Начните с поиска, используйте Search King, чтобы взорваться.

Поиск Google — одна из крупнейших областей инвестиций и инноваций Google, а также ее основополагающий продукт.

25 лет назад Google запустил поиск, и сегодня Google снова расширяет границы поиска.

Проще говоря, с помощью поиска в Google AIGC вы можете сделать больше:

О чем бы вы ни думали, что бы вам ни нужно было сделать, просто спросите об этом, и Google Search найдет это.

Все изменения в Google Поиске основаны на адаптированной для него модели Gemini.

Google представил на пресс-конференции, что «другой» поиск Google имеет три уникальных преимущества:

Информация Google в режиме реального времени включает более триллиона фактов о людях, местах и вещах.
Продукт с самым высоким рейтингом и один из лучших онлайн-сервисов.
Сила Близнецов

Сочетание этих трех вещей открывает новые возможности Google в поиске.

Первая новая функция — AI Review. Пользователи могут получать сводные данные, созданные с помощью крупных моделей ИИ, в верхней части результатов поиска, тем самым упрощая весь процесс поиска и упрощая процесс поиска сложных проблем.

Google заявляет, что к концу этого года более одного миллиарда человек будут использовать функцию AI Review в поиске Google, и Google утверждает, что это будет одно из крупнейших обновлений ее поисковой системы за 25 лет.

Многоэтапное рассуждение — еще одна важная функция Google Поиска.

Благодаря новым многоэтапным рассуждениям нам станет очень просто строить планы на жизнь, работу и путешествия на будущее.

Например, вы можете использовать строку поиска, чтобы найти «лучшую студию йоги поблизости», и тогда вся важная информация, такая как оценки, рекомендации курсов, расстояния и т. д. о близлежащих студиях йоги, будет классифицирована по блокам и очень четко отображена в результаты поиска.

Опираясь на собственную огромную базу данных Google, ИИ может использовать самую свежую и полную высококачественную информацию в процессе поиска, что гарантирует точность и достоверность результатов поиска.

В настоящее время Google включает более 250 миллионов местоположений по всему миру, которые обновляются в режиме реального времени и включают важную информацию, такую как рейтинги, обзоры и часы работы.

«Планирование в поиске» — еще одно обновление, которое снижает вашу нагрузку.

Допустим, вы перестраиваете свое питание и планируете его с нуля и не хотите есть макароны с сыром на завтрак, обед и ужин.

Просто укажите свои требования в поле поиска, и Google Поиск предоставит вам новый еженедельный рецепт, соответствующий вашим требованиям и разумно организованный.

Более того, вы можете изменить условия и детали в любой момент, а результаты поиска будут обновляться в режиме реального времени на основе последних подсказок.

Если мы видели или даже использовали вышеперечисленные функции в продуктах других компаний, то Ask with Video обязательно преподнесет вам сюрпризы.

В жизни много объектов, и все со своими эксклюзивными названиями. Когда у какого-то оборудования возникают мелкие проблемы, тоже есть соответствующие методы ремонта. Но во многих случаях только профессионалы могут сказать это и только они могут «назначить правильное лекарство».

Теперь с помощью функции «Спросить с помощью видео» в поиске Google каждого можно назвать экспертом, что эквивалентно энциклопедии на вашем мобильном телефоне.

Части пластинки больше не работают, и я не знаю, с чего начать. Затвор камеры внезапно выходит из строя… Раньше вам, возможно, приходилось прилагать большие усилия, чтобы отправить ее обратно производителю. для послепродажного обслуживания, но теперь вы можете использовать объектив устройства Google, чтобы сфотографировать проблему, а поиск Google может помочь вам найти проблему. Предварительная диагностика проблем, с которыми вы столкнулись, и решение некоторых мелких неисправностей. быть предоставлены на месте.

Во время демонстрации в реальном времени на пресс-конференции ИИ также перечислял все этапы ремонта один за другим. Следуя инструкциям на экране, демонстратор мог быстро решить мелкие проблемы.

Эта функция использует искусственный интеллект для покадрового разложения видео, импорта ключевой информации каждого кадра в длинное окно контактов Gemini для анализа одного за другим, а также просмотра соответствующих статей, форумов, видео и т. д. в Интернете в поисках нужной информации, тем самым реализация умных предложений Ask with Video.

По сравнению с традиционным вводом текста самым большим преимуществом видео является то, что процесс взаимодействия между нами и ИИ становится более интуитивным. Использование расплывчатых слов, таких как «здесь» и «это», также может помочь большой модели понять, о чем мы говорим.

Google заявил, что эти новейшие функции искусственного интеллекта будут запущены в лабораторных условиях в ближайшие несколько недель, а это также означает, что более мощный поиск Google не за горами.

В последующих версиях он даже сможет находить ответы по автоматическим субтитрам видео на странице. Интересно, отнимет ли это работу у тех блоггеров, которые "посмотрели ХХ фильмов за 1 минуту".

Картинки, песни и фильмы, нацеленные на OpenAI

Если GPT-4o за последние два дня в очередной раз стал шоком для мира из-за ИИ, то проект Astra, официально анонсированный сегодня вечером Google, является продолжением шока.

Project Astra — это прототип GoogleMind — универсального помощника по искусственному интеллекту.

Как и в случае с GPT-4o, пользователи могут через него общаться в режиме реального времени с искусственным интеллектом и вести видеочат.

Демонстрация на пресс-конференции может очень хорошо продемонстрировать эту новую функцию. В демонстрационном видео сотрудники направили объектив мобильного телефона на окружающие их объекты и задали несколько вопросов Project Astra, и он смог точно ответить практически с нулевой задержкой. .

Например, Project Astra может определить, что верхняя половина динамика является твитером, и может легко определить его конкретную функцию по коду, отображаемому на экране компьютера.

Гугл говорит:

Наш новый проект направлен на создание футуристического помощника с искусственным интеллектом, который действительно может помочь в повседневной жизни.

Основываясь на более мощной производительности искусственного интеллекта, Google также анонсировал три другие практические функции на этапе ввода-вывода. Они относятся к области «изображений», «музыки» и «видео», отражая «будущее» передовых технологий.

Imagen 3 — новейшая модель генерации изображений, выпущенная Google.

Он может лучше понимать наши подсказки и использовать их для создания более реалистичных изображений.

Сгенерированная фотография «Волка», показанная на пресс-конференции, показывает, что Imagen 3 точно извлекла из повествования 8 подробных сведений, и все они отражены на снимке.

Нетрудно обнаружить, что сгенерированные картинки не только точны в деталях, но и очень реалистичны.

Imagen 3 также может создавать более абстрактные изображения, например креативные изображения, созданные на основе подсказок «цвет радуги», «свет перьев» и «черный фон».

Как будто он точно знает, чего вы хотите.

На пресс-конференции представитель даже в шутку продемонстрировал, что «с его помощью можно посчитать бороды на лицах других людей».

Google также добился новых прорывов в создании музыки.

Music AI Sandbox — новейшая модель создания музыки, на этот раз Google также пригласил Марка Ребилле поделиться ею на сайте I/O.

На основе короткой музыкальной демонстрации, созданной исполнителем, Music AI Sandbox может быть расширен и дополнен на этой основе. Он также может дополнительно создавать второе музыкальное произведение на основе подсказок, введенных пользователем, таких как стиль и тип музыки и т. д. .

Google заявил, что они и YouTube создали Music AI Sandbox:

Это набор профессиональных музыкальных инструментов искусственного интеллекта, которые могут создавать новые партии инструментов с нуля, преобразовывать стили между треками и т. д., чтобы помочь нам разработать и протестировать их.

Другая практическая модель под названием Veo ориентирована на создание видео.

Пользователям нужно только ввести соответствующий текст, изображение или видео-подсказки, и Veo может создавать высококачественные видеоролики 1080p продолжительностью до 60 секунд.

Он фиксирует детали инструкций в различных визуальных и кинематографических стилях.

Например, мы можем вводить в подсказки предметы, пейзажи или замедленные аэрофотоснимки и использовать другие подсказки для дальнейшего редактирования видео.

В течение долгого времени ИИ для генерации видео был «только теоретически установлен». На самом деле, было много препятствий, среди которых самым большим порогом «удобства использования» является то, что время генерации видео составляет всего несколько секунд, и, как правило, так оно и есть. может прыгать только несколько раз одним или двумя движениями.

Вот почему Sora вызвала много дискуссий, когда была выпущена сегодня вечером, Veo от Google также стал в центре внимания: от фотореализма до сюрреализма и анимации, он может охватывать большинство стилей кино и телевидения.

Помимо Project Astra, Google также предоставляет нам настраиваемый Gemini — Gems.

Google заявил, что он может выполнять задачи, сохраняя заданные характеристики, и стать личным помощником для тысяч людей. Пользователи могут настроить его позиционирование, чтобы стать другом по йоге, виртуальным популярным персонажем, партнером по фитнесу, тренером по творческому письму или даже микроблогером. Баллы репетиторов и т. д. — это вообще проблема.

Близнецы без ума от длинных сообщений, и в семье Близнецов пополнился новый участник.

Проект «Близнецы» привлек большое внимание с момента его разоблачения. Поначалу были некоторые разногласия, но позже он решил восстановить свою репутацию собственными силами, а теперь становится все более зрелым.

По словам Пичаи, в настоящее время модель Gemini используют более 1,5 миллиона разработчиков, а число пользователей достигло 2 миллиардов. Теперь Пичаи снова упоминает «Эру Gemini» с целью интегрировать ее во все продукты и внедрить новые. продукты для пользователей. Опыт также создает новые возможности для создателей, разработчиков и стартапов.

Последняя версия Gemini 1.5 Pro в настоящее время поддерживает 1 миллион текстовых томов токенов, а позже в этом году сообщается, что это число достигнет 2 миллионов, способных обрабатывать 2 часа видео, 22 часа аудио, более 60 000 строк кода или более. более 1,4 миллиона слов одновременно.

Кроме того, на конференции также был анонсирован Gemini Advanced на базе Gemini 1.5 Pro, который, как утверждается, способен обрабатывать «несколько больших документов общим объемом до 1500 страниц или агрегировать 100 электронных писем», а также поддерживает 35 языков. и более 150 стран/регионов.

Надо сказать, что с точки зрения объема текста Gemini действительно очень большой, «большой шаг к цели преобразования любого ввода в любой вывод».

Безопасность всегда является главным приоритетом

С первых дней существования ИИ идут постоянные дебаты о том, как идентифицировать контент, созданный ИИ. Контрмера Google заключается в добавлении невидимых водяных знаков к изображениям и аудио, созданным ИИ, через SynthID, чтобы их было легче отличить.

В будущем Google расширит эту сферу до текста и видео, и в ближайшие несколько месяцев, обновив текстовый водяной знак SynthID с открытым исходным кодом инструментария генеративного ИИ, он поможет большему количеству разработчиков создавать ИИ более легко и ответственно.

После интеграции Gemini в него Android выдаст предупреждение при обнаружении подозрительной активности во время звонка, например, когда вас попросят предоставить номер социального страхования и банковскую информацию. Это похоже на установку «центра по борьбе с мошенничеством» прямо на телефон. .

Функция специальных возможностей TalkBack также будет улучшена за счет Gemini Nano. Описания изображений станут более четкими и насыщенными, что поможет пользователям с плохим зрением лучше управлять своими телефонами с помощью голосовой обратной связи, что отражает последовательную гуманистическую заботу Google.

Что касается сегодняшней производительности Google, оценка менеджера по исследованиям NVIDIA Джима Фана очень уместна.

Недавно выпущенная модель Google, похоже, является мультимодальным вводом, но не мультимодальным выводом. Imagen3 и Music AI Sandbox по-прежнему отделены от Gemini как независимые компоненты. Нативное объединение всех модальных операций ввода-вывода — неизбежное будущее.

Он может выполнять такие задачи, как «использовать более роботизированный голос», «редактировать это изображение», «создавать последовательные комиксы».

И без потери информации на модальных границах, такой как эмоции и фоновые звуки, новая модель открывает новые контекстуальные возможности, и пользователи могут обучать модели на нескольких примерах и комбинировать различные значения новыми способами.

GPT-4o не идеален, но он имеет правильный форм-фактор, перефразируя метафору Андре «LLM как ОС»:

Нам нужно, чтобы модель изначально поддерживала как можно больше расширений файлов.

Google делает одну вещь правильно: они наконец-то предпринимают серьезные усилия по интеграции искусственного интеллекта в окно поиска.

Gemini не обязательно должен быть лучшим, но он может быть наиболее широко используемым.

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo