Будущее искусственного интеллекта iPhone стало намного интереснее
Не так давно Apple, по слухам, работала над чем-то под названием Apple GPT , чат-ботом, основанным на собственной модели искусственного интеллекта компании, с целью имитировать то, что делает OpenAI ChatGPT . В последующие месяцы мы видели, как продукты генеративного искусственного интеллекта появлялись повсюду: от Google Pixels и телефонов Samsung Galaxy S24 до выскочки вроде Nothing Phone 2a .
Между тем, все, что мы получили от Apple, — это расплывчатые, но смелые заявления. Генеральный директор Apple Тим Кук заявил инвесторам, что разработка Apple в области генеративного искусственного интеллекта «откроет новые горизонты», когда она появится в конце этого года. Однако похоже, что Google поможет Apple реализовать эти мечты. А может быть, на помощь придет даже OpenAI.
По данным Bloomberg , Apple ведет переговоры с Google о лицензировании моделей Gemini AI для iPhone. Это похоже на ту же стратегию, которую Samsung использовала для телефонов серии Galaxy S24 , которые могут запускать на устройстве модель Gemini Nano от Google, в то время как более мощные версии доступны в облаке.
Условия сделки еще не окончательно согласованы, поскольку переговоры, как говорят, находятся в постоянном движении. Однако, как сообщается, Apple также ведет переговоры с OpenAI. Напомним, что базовые технологии OpenAI, такие как модель GPT-4 и Dall-E, в настоящее время доступны во всем наборе продуктов Microsoft, а также в отдельных приложениях и сервисах, таких как ChatGPT Plus . Это интересное развитие амбиций Apple в области искусственного интеллекта, которое меня одинаково волнует и беспокоит.
Путешествие Apple в области искусственного интеллекта (на данный момент)
В последний месяц 2023 годаApple без особой помпы представила серию библиотек моделей и фреймворков группы MLX, предназначенных для работы на ее собственном процессоре. Этот шаг призван внедрить возможности генеративного искусственного интеллекта в серию Mac, аналогично усилиям Qualcomm с ее платформой Snapdragon X Elite.
В начале этого года исследовательское подразделение Apple представило документ об инструменте генеративного искусственного интеллекта под названием Keyframer , позволяющем пользователям создавать анимированный контент. В своей основе он основан на модели GPT-4 от OpenAI, но включает в себя векторную графику для обработки неподвижных изображений.
Кроме того, эксперты Apple также представили исследовательскую работу , описывающую инструмент искусственного интеллекта, который облегчает редактирование изображений с помощью простых устных инструкций. Эта функция имеет сходство с набором инструментов для голосового редактирования мультимедиа, рекламируемым новейшими чипами Snapdragon от Qualcomm.
В последующем отчете Bloomberg подчеркивалось, что Apple расширяет свою специальную команду, отвечающую за изучение функций генеративного искусственного интеллекта, с главной целью сделать эти инструменты доступными для разработчиков к 2024 году.
Ходят слухи, что первая партия функций генеративного искусственного интеллекта от Apple дебютирует с iOS 18, презентация которой намечена на июнь. Но, согласно последнему отчету Bloomberg, эти функции ориентированы на встроенные в устройства системы, а не на генеративные средства искусственного интеллекта, которые обычно подключены к облаку, например, предоставляемые ChatGPT, Gemini или Perplexity.
В сентябре The Information сообщила, что Apple разрабатывает «базовые модели», направленные на улучшение Siri. Эта инициатива предположительно похожа на то, как Gemini продвигает Google Assistant.
Что Gemini может делать на iPhone?
Теперь Gemini предоставляет на телефон массу возможностей как при локальной работе, так и при подключении к Интернету. При реализации на устройстве, как в случае с Google Pixel 8 Pro , он может суммировать разговоры в приложении Recorder, даже когда телефон находится в автономном режиме.
Для людей, использующих приложение для клавиатуры Gboard, Gemini Nano предлагает Smart Reply, начиная с таких приложений, как WhatsApp. Короче говоря, он читает ваш разговор и соответственно предлагает ответы в зависимости от контекста. Искусственный интеллект на устройстве также добавляет офлайн-переводы — функцию, которая уже доступна на телефонах серии Samsung Galaxy S24 с поддержкой Gemini.
Прямо сейчас, когда на телефоне установлено приложение Gemini, оно может выполнять следующие задачи.
- Как и в случае с Google Assistant или ChatGPT, вы можете общаться с Gemini на естественном языке и получать помощь в написании, придумывании идей и многом другом.
- Быстро суммируйте информацию в своих электронных письмах или файлах после активации расширения Workspace. Информацию можно обобщить в таких форматах, как списки, диаграммы и таблицы.
- Создавайте изображения с помощью текстовых подсказок в стиле движка OpenAI Dall-E.
- Получите помощь в использовании камеры по-новому. В приложении Gemini наведите камеру на сцену и запросите у ИИ информацию об объектах в кадре.
- Поймите, что у вас на экране. Вызовите Близнецов с помощью команды «Эй, Google», чтобы выполнить работу. Например, он может суммировать статью, которую вы сейчас читаете.
- Используйте Google Maps и Google Flights, чтобы планировать поездки и даже создавать индивидуальные программы.
Как может закончиться сделка Apple и Google в области искусственного интеллекта
Как упоминалось выше, Samsung тесно сотрудничала с Google, чтобы запустить модель Gemini Nano AI на своих флагманских телефонах. Но Gemini не ограничивается только флагманами. В феврале этого года MediaTek объявила, что ее процессор среднего класса Dimensity 8300 теперь оптимизирован для Google Gemini наряду с флагманским Dimensity 9300 .
Сделать что-то подобное для Apple не составит особых хлопот. Если сделка по лицензированию на устройстве не увенчалась успехом, всегда есть вариант применения. На данный момент неясно, какую стратегию реализует Apple, если предположить, что сделка вообще состоится.
Более серьезный вопрос заключается в том, изменит ли лицензионное соглашение Gemini существенно то, как пользователи взаимодействуют со своими iPhone. И что еще более важно, будут ли Близнецы способствовать каким-либо изменениям в Siri? Грубо говоря, Siri еще многое предстоит сделать, прежде чем она сможет догнать Google Assistant.
Но даже Google до сих пор не до конца разобрался, где существует Gemini или полностью заменяет Google Assistant. Прямо сейчас, когда вы устанавливаете Gemini на телефон Android , он заменяет Google Assistant. Или, по крайней мере, пытается.
Ваш телефон по-прежнему использует Google Assistant для выполнения широкого спектра повседневных, но значимых задач, таких как совершение звонка, установка будильника, отправка сообщения, управление устройствами умного дома и создание записей в календаре. Точно так же для навигации, голосового набора в Gboard и Android Auto надежным искусственным интеллектом по-прежнему остается Google Assistant, а не Gemini.
Более того, Google Assistant по-прежнему остается помощником искусственного интеллекта на умных дисплеях и умных часах Wear OS. Учитывая, насколько тесно Apple переплетает свое программное обеспечение с аппаратной экосистемой, особенно между iPhone и Apple Watch, поэтапный подход, при котором Gemini, Google Assistant и/или Siri берут на себя лишь часть обязанностей, создаст большую путаницу для компании. среднестатистический пользователь.
В качестве альтернативы Apple могла бы тесно сотрудничать с Google и создавать эксклюзивные интеграции, связывая Gemini с функциями экосистемы Apple, такими как Siri, Mail, Notes, Safari, Calendar, Health и другими. Однако, учитывая текущее состояние политики хранения данных Gemini, мы не затаили дыхание для такой тесной интеграции на системном уровне.
Риски Близнецов для Apple
Конечно, Apple пропустила первую волну генеративного искусственного интеллекта на смартфонах, и, если верить сообщениям, компания лихорадочно работает, чтобы наверстать упущенное. Но лицензионное соглашение Gemini также означает, что мы, возможно, никогда не увидим собственную работу Apple по разработке генеративного искусственного интеллекта в рамках проекта «Ajax». Или, может быть, мы увидим его только в разбавленной форме, пока Gemini будет выполнять тяжелую работу искусственного интеллекта на iPhone.
Но Близнецы не лишены недостатков. Напротив, он оказался более неудобным, чем любой другой основной инструмент генеративного ИИ. Несколько недель назад пользователи Gemini заметили, что он создает крайне неточные изображения, в частности, неправильно обрабатывает цвет кожи, этническую принадлежность и историческую точность.
Споры обострились до такой степени, что Google приостановил создание текста в изображение для Gemini. «Чтобы внести ясность, это совершенно неприемлемо, и мы поняли это неправильно», — написал генеральный директор Google Сундар Пичаи во внутренней записке, о которой сообщило NPR .
По ту сторону Атлантики компания Gemini увязла в очередном противоречии, когда ее высказывания в отношении премьер-министра Индии Нарендры были сочтены уничижительными и стали вирусными в социальных сетях. «Просто сказать потом: «… извините, это не проверялось» не соответствует нашим ожиданиям соблюдения закона», — предупредил (через NDTV ) профсоюзный министр Индии Раджив Чандрасекхар.
Споры снова выдвинули на обсуждение вопросы регулирования ИИ, и для крупных игроков в области ИИ также было выпущено предупреждение, требующее от них получения явного одобрения, прежде чем такие инструменты, как Gemini, будут выпущены публично.
Для компании, которая так же осторожно соблюдает правительственные постановления, как Apple, лицензирование Gemini для сотен миллионов устройств по всему миру — немалый риск. Особенно когда сам Google предупреждает , что «Близнецы будут ошибаться» и говорит, что всегда следует перепроверять на предмет неточностей.