AI-версия Siri может завладеть вашим телефоном
Сири отстала.
Согласно New York Report, именно так подумали руководитель программного обеспечения Apple Крейг Федериги и исполнительный директор по машинному обучению Джон Джаннандреа, потратив несколько недель на тестирование ChatGPT в прошлом году, поэтому они решили кардинально переделать 13-летнего голосового помощника.
До конференции разработчиков WWDC осталось менее полумесяца, и технологический репортер Марк Гурман рассказал последние новости о AI-версии Siri. Похоже, что этот голосовой помощник, на которого всегда жалуются как на «искусственно отсталого», действительно откроется. большой прорыв.
Плохая новость: некоторые из его важнейших функций могут не появиться в этом году.
Несмотря на это, Марк Гурман заявил, что Apple по-прежнему считает iOS 18 самым важным обновлением в истории. Apple WWDC24 состоится в 1 час ночи 11 июня по пекинскому времени. APPSO предоставит вам последние отчеты в Apple Park, так что следите за обновлениями.
Долгожданная, но многообещающая функция «управления приложениями»
По имеющимся данным, при поддержке ИИ Siri сможет дополнительно «управлять приложениями» и достигать точного контроля над функциями приложений.
Например, попросите Siri переместить файлы из одной папки в другую, или попросите Siri открыть определенную новостную статью, или даже попросите Siri дать краткое изложение статьи.
Хотя теперь вы можете использовать Siri для отправки текстовых сообщений и даже WeChat, Siri, основанная на обновленном искусственном интеллекте, пойдет дальше и сможет анализировать, как люди используют свои устройства, и изучать все больше и больше автоматических операций. Apple планирует поддерживать «сотни» команд в разрабатываемых ею приложениях.
▲ Функция отправки Siri в WeChat реализована в iOS 10.
Звучит очень хорошо, но Гурман сказал, что эта функция изначально будет ограничена приложениями, разработанными Apple, и не будет запущена в этом году. Возможно, придется подождать не раньше следующего обновления iOS 18 в следующем году.
Также есть новости о том, что старые модели могут быть оснащены только iPhone 15 Pro A17 Pro, а компьютеры Mac выше M1 могут поддерживать больше локальных функций AI.
Новая Siri, возможно, сначала сможет понимать и выполнять только одну команду за раз, но ожидается, что в будущем она будет поддерживать ряд команд, таких как создание сводки записанной записи встречи (также ожидается, что эта функция будет реализована). запущен в iOS 18), а затем с помощью электронной почты. При отправке коллегам вы также можете напрямую добавить некоторые текстовые инструкции, а набор операций может быть выполнен Siri в одном предложении.
Ожидается, что новая Siri будет такой же, как и другие функции искусственного интеллекта в iOS 18. Будет система оценки, которая будет определять, можно ли выполнить задачу искусственного интеллекта локально на устройстве или ее необходимо запустить в облаке на основе необходимая вычислительная мощность.
Если мы хотим подвести итог развитию Siri за последние 13 лет, то «забота об учениках, а не их воспитание», вероятно, является наиболее подходящим вариантом.
На конференции по презентации iPhone 4s в 2011 году Siri появилась в последний раз, что шокировало публику и мир. Демонстрация Siri в то время была такой: вы можете спросить ее, какая погода в определенном городе или как ведут себя определенные акции, и вы можете установить напоминание, которое будет автоматически появляться, когда вы покидаете компанию через один В то время это была очень крутая и футуристическая особенность.
В результате, 13 лет спустя, вышеупомянутые функции по-прежнему остаются наиболее часто используемыми сценариями для Siri. Даже команды управления домом и ярлыки, которые были позже поддержаны, по-прежнему, как правило, включаются и выключаются. Фактически, Siri никогда не создавала качественных функций. прыгнуть.
Даже столкнувшись с проблемами других опоздавших голосовых помощников, таких как Google Assistant, Microsoft Cortana, Samsung Bixby и т. д., и даже отечественный Xiaomi «Xiao Ai Classmate» становится все более и более полезным, Apple все равно не хотела добиваться прогресса. до появления ChatGPT. Поймите, Siri отстала от времени.
▲ Сяо Ай уже пользовалась большой моделью в прошлом году.
Хотя Apple, кажется, время от времени представляет его на пресс-конференциях, Siri снова стала сильнее, может понимать больше инструкций и делать больше вещей. Но во многих случаях способность понимать не означает, что это можно сделать. способность сделать это не означает, что это можно сделать хорошо.
Например, скажите Siri, что я хочу сделать селфи, и Siri поможет вам открыть камеру и фронтальную камеру, не говоря ни слова, и дальше ничего не произойдет. Пользователю все равно нужно протянуть руку и нажать кнопку спуска затвора. Даже иногда Siri автоматически переходит к приложению камеры, а не к фронтальному режиму.
Если это помощник Bixby от Samsung, он автоматически введет обратный отсчет для селфи, и весь процесс не требует ручного управления пользователем.
Стандартное приложение камеры Apple имеет функцию обратного отсчета, поэтому реализация этого процесса не требует большого количества факторов искусственного интеллекта, но Apple просто не делает этот процесс приятным.
Конкурент Siri — ярлыки
Интересно, использовали ли вы когда-нибудь функцию «Команды быстрого доступа»?
После того, как Apple приобрела Workflow, ее продукт был интегрирован в iPhone как «команда быстрого доступа» в iOS 12, а также был запущен на платформе Mac в macOS 12.
▲ Команды быстрого доступа интегрированы в экологическую цепочку Apple.
Эта функция может реализовать множество расширенных функций iOS, таких как синхронизация в DingTalk одним щелчком мыши, создание LivePhotos и видео в формате GIF одним щелчком мыши и даже автоматическая работа для достижения «автоматического отключения будильника во время праздников».
Но эта функция неудобна для начинающих пользователей. Чтобы создать новую команду быстрого доступа, пользователю необходимо выбрать различные операционные модули в интерфейсе, аналогичном программированию сценариев, и связать их с различной логикой, такой как «если… тогда» и «до тех пор, пока… тогда», например как «праздничный будильник» «Такая команда быстрого доступа содержит множество логических суждений и автоматизированных операций. Даже если пользователи настроят ее в соответствии с руководством, легко допустить ошибку.
Хотя Apple предоставляет «Центр быстрого управления», где вы можете напрямую получить готовые сценарии, предоставляемые там быстрые команды просты и редко имеют функции, устраняющие болевые точки пользователей.
Эта функция аналогична модулю «Good Lock» мобильных телефонов Samsung Galaxy, который предоставляет очень мощные функции настройки, но порог не низкий.
Одной из наиболее важных способностей больших моделей ИИ является способность понимать естественный язык и логическое мышление. Другими словами, если пользователь скажет ИИ большой модели: «Я не на работе, помогите мне зарегистрироваться», ИИ будет знать, что вы имеете в виду выполнить операции «открыть DingTalk» и «зарегистрироваться». », вместо того, чтобы сказать, что вы «не слушали». Ясно».
Сегодняшняя Siri не полностью лишена этой способности. Попросить Siri напомнить вам купить праздничный торт для вашей семьи, когда вы покидаете компанию, — это функция, которая была продемонстрирована на конференции iPhone 4s. За ней также стоит процесс понимания языка пользователя и преобразования его в соответствующие операции.
▲ Многие функции, представленные на пресс-конференции Siri, до сих пор остаются основными возможностями Siri.
А Siri с поддержкой крупных моделей искусственного интеллекта сможет сделать гораздо больше. Пользователи описывают свои сложные потребности на естественном языке. После того, как Siri понимает их, она преобразует их в логику сценария и самостоятельно выполняет соответствующие шаги. Это настоящая «быстрая» команда, не требующая от пользователя сложного программирования.
▲ChatGPT научил меня использовать ярлыки iOS для установки праздничных будильников. Хотя логика понятна, она кажется не очень удобной.
Помимо того, что пользователи смогут более естественно настраивать операции, вы также можете ожидать, что Siri станет более «активным» помощником.
Если вы используете iPhone достаточно долго, вы обнаружите, что иногда на iPhone автоматически появляются всплывающие подсказки. Например, когда пользователь надевает гарнитуру Bluetooth, рекомендуется включить NetEase Cloud Music, поскольку это ваш режим использования, или при зарядке поздно ночью телефон автоматически снижает мощность зарядки для поддержания заряда аккумулятора; его все еще можно использовать перед тем, как проснуться. Это еще и потому, что я обнаружил, что у вас есть привычка долго заряжаться перед сном.
Это результаты машинного обучения, а также функции искусственного интеллекта, над которыми работает Apple. Современные люди ежедневно проводят много времени на своих мобильных телефонах. Очень часто они используют мобильные телефоны для покупок, еды и работы. Естественно, мобильные телефоны понимают ваше существование лучше, чем круглые черви в вашем желудке.
Представьте себе мощную ситуационную осведомленность Apple в сочетании с более мощными возможностями автоматического управления мобильными телефонами. AI-версия Siri действительно может превратиться в настоящего «личного помощника», предсказывающего события еще до того, как вы предоставите им все необходимое. вашим потребностям.
Например, с помощью забронированных вами авиабилетов он автоматически поможет вам проверить погоду по прибытии в пункт назначения, а также заранее установит будильник, исходя из ваших привычек в поездках и условий дорожного движения в реальном времени, он поможет вам позвонить в службу поддержки. такси заранее, когда вы приедете в аэропорт, в зависимости от предполагаемого времени в пути. Оно автоматически выводит на экран ваши билеты на самолет и использует приложение для регистрации. Когда вы приедете в район, вам откроются рекомендованные Дяньпином рестораны. личный помощник + гид.
Если мы хотим реализовать этот набор бесперебойных операций, мы, конечно, подумаем об этом, что требует, чтобы и разработчики, и Apple действовали в обоих направлениях. Однако скорость развития ИИ превзошла наше воображение. Возможно, в будущем ИИ сможет напрямую имитировать действия человека.
Пользовательский интерфейс, который мы можем понять, ИИ тоже учится
Хотя интеллектуальная работа новой Siri будет поддерживать собственные приложения Apple только на начальном этапе, я предпочитаю верить, что это только отправная точка или середина пути Apple AI Siri, а не конец.
Я считаю, что конечная цель ИИ Apple — реализовать этот сценарий: проснуться утром, разбудить Siri с помощью «Siri», а затем позволить ему открыть общедоступную учетную запись WeChat «Aifan'er» и прочитать вслух последнюю статью. без необходимости использовать руки. Затем послушайте утренний отчет Ай Фанер.
▲ Концептуальный чехол для телефона iPhone, созданный много лет назад. Идея состоит в том, чтобы олицетворить «Siri» и освободить руки с помощью голоса.
«Команды быстрого доступа» могут поддерживать работу сторонних приложений, главным образом потому, что Apple открыла API, а производители сторонних приложений также могут разделить операции в приложении на модули, которые можно выполнять с помощью команд быстрого доступа.
Но это зависит от того, готов ли производитель приложения предоставить соответствующие модули и операции. Например, если приложение Cainiao не откроет операцию отображения кода подхвата, какой бы умной ни была Siri, оно не сможет открыть. Приложение Cainiao для самостоятельного отображения кода получения.
Что, если мы пойдем еще дальше и позволим искусственному интеллекту напрямую понимать, что такое код получения и где он находится в приложении, и открыть его самостоятельно после получения инструкций?
Это может показаться слишком научной фантастикой, но отрасль уже предпринимает аналогичные попытки.
На конференции разработчиков Microsoft Build 2024 на прошлой неделе Microsoft провела живое мероприятие: Copliot, поддерживаемый GPT-4o, может просматривать контент на экране в режиме реального времени и помогать игрокам вместе играть в «Minecraft».
В демонстрации второй пилот использовал очень плавный и естественный язык, даже с оттенком эмоций, чтобы помочь игрокам сделать меч в игре. В этом процессе второй пилот может идентифицировать предметы в игровом рюкзаке и информировать игрока о недостающих материалах, подобно «мастеру», который ведет вас через игру.
Это показывает, что ИИ-помощник больше не является просто текстовым роботом, который «спрашивает и отвечает» или может только программировать и обрабатывать данные в фоновом режиме, но может по-настоящему начать понимать интерфейс пользовательского интерфейса, который мы, люди, видим, а также может знать, как мы его используем.
«Аппаратное обеспечение искусственного интеллекта» Rabbit R1, популярное в течение некоторого времени в этом году, по сути отказалось от рабочего интерфейса и полностью завершило использование различных сервисов через голосового помощника AI. Технология модели искусственного интеллекта «Large Action Model» (LAM) может имитировать действия человека на сервере после понимания инструкций пользователя и напрямую выполнять инструкции пользователя на соответствующих веб-страницах и в приложениях.
▲ Rabbit R1 утверждает, что использует голосовую связь для выполнения кросс-приложений и кросс-платформенных операций.
Хотя производительность Rabbit R1 далека от той сцены, которую они изобразили, само видение очень красивое. Превосходные характеристики визуальных представлений роботов, таких как GPT-4o, также заставляют людей чувствовать, что будущее искусственного интеллекта, заменяющего людей, действительно не за горами. .
Как компания, пользующаяся большой популярностью среди разработчиков, Apple не нужно имитировать полное использование «LAM» стартапом Rabbit. Она может открывать соответствующие интерфейсы и предоставлять SDK, чтобы позволить крупным сторонним разработчикам использовать его в своих приложениях. операции, обеспечивая более зрелый и стабильный опыт голосового управления.
Исследования, связанные с Apple, показывают, что у них есть эта идея. В сочетании со стандартами дизайна пользовательского интерфейса приложений Apple Siri может легче понимать все, что происходит на экране iPhone.
▲ Apple также изучает, как заставить большие модели понимать пользовательский интерфейс.
Хотя технологии уступают человеку, лидерство Apple по количеству пользователей и экологическому строительству может стать очень мощным преимуществом.
9to5Mac прогнозирует и комментирует предстоящие обновления Siri и AI от Apple:
на WWDC. Возможно, мы не видим ничего особенно революционного, но включение ИИ в системы и приложения, используемые миллионами людей каждый день, само по себе является революцией.
По сравнению с модным оборудованием, таким как Rabbit R1, смартфоны, которые есть у каждого, могут быть лучшим носителем для искусственного интеллекта.
Пользователю не обязательно знать, что он использует функцию ИИ, но когда он просит Siri помочь спланировать поездку и забронировать авиабилеты, ИИ уже начинает глубоко менять его жизнь.
# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo