Вот как Apple может навсегда изменить ваш iPhone
За последние несколько месяцев Apple регулярно выпускала исследовательские статьи, подробно описывающие свою работу с генеративным искусственным интеллектом. До сих пор Apple хранила молчание о том, что именно готовят в ее исследовательских лабораториях, хотя ходят слухи, что Apple ведет переговоры с Google о лицензировании Gemini AI для iPhone.
Но было несколько тизеров того, чего мы можем ожидать. В феврале в исследовательском документе Apple подробно описана модель с открытым исходным кодом под названием MLLM-Guided Image Editing (MGIE), которая позволяет редактировать мультимедиа, используя инструкции пользователей на естественном языке. Теперь еще одна исследовательская работа по пользовательскому интерфейсу Ferret привела в безумие сообщество ИИ.
Идея состоит в том, чтобы развернуть мультимодальный ИИ (тот, который понимает тексты, а также мультимедийные ресурсы), чтобы лучше понимать элементы мобильного пользовательского интерфейса. — и самое главное — давать действенные советы. Это важнейшая цель, поскольку инженеры стремятся сделать ИИ более полезным для обычного пользователя смартфона, чем нынешний статус «салонного трюка».
В этом направлении самым большим шагом станет отключение возможностей генеративного искусственного интеллекта от облака, устранение необходимости подключения к Интернету и развертывание каждой задачи на устройстве, чтобы это было быстрее и безопаснее. Возьмем, к примеру, Google Gemini, который работает локально на телефонах серии Google Pixel и Samsung Galaxy S24 – а вскоре и на телефонах OnePlus – и выполняет такие задачи, как обобщение и перевод.
Что такое пользовательский интерфейс Ferret от Apple?
С помощью Ferret-UI Apple, похоже, стремится объединить возможности мультимодальной модели искусственного интеллекта с iOS. Сейчас основное внимание уделяется более «элементарным» задачам, таким как «распознавание значков, поиск текста и список виджетов». Однако речь идет не только о понимании того, что отображается на экране iPhone, но и о его логическом понимании и ответах на контекстные запросы, заданные пользователями, с помощью его возможностей рассуждения.
Самый простой способ описать возможности Ferret UI — это интеллектуальная система оптического распознавания символов (OCR), работающая на базе искусственного интеллекта. «После обучения на тщательно подобранных наборах данных Ferret-UI демонстрирует выдающееся понимание экранов пользовательского интерфейса и способность выполнять открытые инструкции», — отмечается в исследовательской статье. Команда Ferret UI настроила его так, чтобы оно соответствовало «любому разрешению».
Вы можете задавать такие вопросы, как «Безопасно ли это приложение для моего 12-летнего ребенка?» во время серфинга в App Store. В таких ситуациях ИИ прочитает возрастной рейтинг приложения и соответственно предоставит ответ. Как будет предоставлен ответ – текст или аудио – не уточняется, поскольку в документе не упоминается Siri или какой-либо виртуальный помощник.
Apple не сильно отошла от дерева GPT
Но идеи гораздо более панорамные и умные. Спросите его: «Как я могу поделиться приложением с другом?» и ИИ выделит значок «Поделиться» на экране. Конечно, он даст вам представление о том, что мигает на экране, но в то же время он будет логически анализировать визуальные ресурсы на экране — такие как поля, кнопки, изображения, значки и многое другое. Это огромная победа в области доступности.
Если вы хотите услышать технические термины, то в статье эти возможности называются «разговор восприятия», «функциональный вывод» и «разговор взаимодействия». Одно из описаний исследовательской работы фактически идеально суммирует возможности пользовательского интерфейса Ferret, описывая его как «первый MLLM, предназначенный для выполнения точных задач по обращению и обоснованию, специфичных для экранов пользовательского интерфейса, при этом умело интерпретируя и действуя в соответствии с открытыми языковыми инструкциями».
В результате он может описывать снимки экрана, сообщать, что делает конкретный актив при касании, и определять, является ли что-то на экране интерактивным с помощью сенсорного ввода. Ferret UI — это не только собственный проект. Вместо этого, в части рассуждений и описаний, он опирается на технологию OpenAI GPT-4 , которая лежит в основе ChatGPT, а также целого ряда других диалоговых продуктов.
Примечательно, что конкретная версия, предложенная в статье, подходит для нескольких соотношений сторон. В дополнение к возможностям анализа и рассуждения на экране, в исследовательской работе также описаны несколько расширенных возможностей, которые просто удивительно представить. Например, на скриншоте ниже видно, что он способен не только анализировать рукописный текст, но и предсказывать правильную версию на основании написанных пользователем ошибок.
MIt также способен точно читать текст, который обрезан по верхнему или нижнему краю и в противном случае потребовал бы вертикальной прокрутки. Однако это не идеально. Иногда он ошибочно распознает кнопку как вкладку и неправильно считывает ресурсы, объединяющие изображения и текст в один блок.
В сравнении с моделью GPT-4V от OpenAI, пользовательский интерфейс Ferret обеспечивает впечатляющий уровень взаимодействия при общении, когда задаются вопросы, связанные с контентом на экране. Как видно на изображении ниже, пользовательский интерфейс Ferret предпочитает более краткие и простые ответы, а GPT-4V пишет более подробные ответы.
Выбор субъективен, но если бы я спросил ИИ: «Как мне купить тапочки, появляющиеся на экране», я бы предпочел, чтобы он просто указал мне правильные шаги в как можно меньшем количестве слов. Но пользовательский интерфейс Ferret превосходно показал себя не только в плане краткости, но и в точности. В вышеупомянутой задаче Ferret UI набрал 91,7% по результатам взаимодействия при разговоре, тогда как GPT-4V лишь немного опередил его с точностью 93,4%.
Вселенная интригующих возможностей
Пользовательский интерфейс Ferret знаменует собой впечатляющий дебют искусственного интеллекта, который может понимать действия на экране. Теперь, прежде чем мы будем слишком воодушевлены этими возможностями, мы не уверены, как именно Apple намерена интегрировать это с iOS, и будет ли это вообще реализовано по нескольким причинам. Bloomberg недавно сообщил, что Apple осознает, что отстает в гонке ИИ, и это совершенно очевидно по отсутствию собственных продуктов генеративного ИИ в экосистеме Apple.
Во-первых, слухи о том, что Apple даже рассматривает возможность заключения лицензионного соглашения Gemini с Google или OpenAI, являются признаком того, что собственная работа Apple не находится на том же уровне, что и у конкурентов. В таком случае использование работы, которую Google уже проделал с Gemini (которая сейчас пытается заменить Google Assistant на телефонах), было бы разумнее, чем продвигать недоделанный продукт искусственного интеллекта на iPhone и iPad.
У Apple явно есть амбициозные идеи, и она продолжает над ними работать, о чем свидетельствуют эксперименты, подробно описанные в многочисленных исследовательских работах. Однако даже если Apple удастся выполнить обещания Ferret UI в iOS, это все равно будет равносильно поверхностной реализации генеративного искусственного интеллекта на устройстве.
Однако функциональная интеграция, даже если она ограничивается только собственными предустановленными приложениями, может дать потрясающие результаты. Например, предположим, что вы читаете электронное письмо, в то время как ИИ уже оценил содержимое на экране в фоновом режиме. Читая сообщение в приложении «Почта», вы можете с помощью голосовой команды попросить ИИ сделать из него запись в календаре и сохранить ее в своем расписании.
Это не обязательно должна быть сверхсложная многоэтапная работа, включающая более одного приложения. Предположим, вы просматриваете страницу знаний Google Search о ресторане и, просто сказав «позвонить туда», ИИ считывает номер телефона на экране, копирует его в номеронабиратель и начинает вызов.
Или, предположим, вы читаете твит о фильме, который выйдет 6 апреля, и просите ИИ создать ярлык для приложения Fandango. Или сообщение о пляже во Вьетнаме вдохновит вас на следующую одиночную поездку, и простое «забронируйте мне билет на Кон-Дай» приведет вас в приложение Skyscanner со всеми уже заполненными записями.
Но все это легче сказать, чем сделать, и зависит от множества переменных, некоторые из которых могут быть вне контроля Apple. Например, веб-страницы, пронизанные всплывающими окнами и навязчивой рекламой, сделают практически невозможным выполнение пользовательским интерфейсом Ferret своей работы. Но есть и положительная сторона: разработчики iOS строго придерживаются принципов дизайна, установленных Apple, поэтому вполне вероятно, что пользовательский интерфейс Ferret будет более эффективно работать с приложениями для iPhone.
Это все равно будет впечатляющей победой. А поскольку мы говорим о реализации на устройстве, жестко закрепленной на уровне ОС, маловероятно, что Apple будет взимать плату за удобство, в отличие от основных продуктов генеративного искусственного интеллекта, таких как ChatGPT Plus или Microsoft Copilot Pro. Даст ли iOS 18 наконец-то представление об обновленной iOS, оснащенной искусственным интеллектом? Чтобы узнать это, нам придется дождаться Всемирной конференции разработчиков Apple 2024 года.