Не волнуйтесь по поводу AI-функций Samsung Galaxy S24.
«Новая эра мобильного ИИ». Именно так Samsung раскручивает свою предстоящую линейку смартфонов серии Galaxy S24 . На мероприятии Unpacked, которое состоится позднее в этом месяце, компания обещает «совершенно новый мобильный опыт на базе искусственного интеллекта».
Samsung не будет первой компанией, которая окунается в шумиху вокруг искусственного интеллекта, поднятую такими компаниями, как ChatGPT и Midjourney . Два тяжеловеса смартфонов — Qualcomm и MediaTek — недавно устроили грандиозное шоу о возможностях генеративного искусственного интеллекта на устройствах своих новейших флагманских процессоров и процессоров среднего класса.
Сдвиг очевиден. Искусственный интеллект станет модным маркетинговым словом для телефонов. Но что именно нас ждет? Каким образом эти так называемые «достижения ИИ» принесут какую-либо значимую пользу, остается секретом. Или, может быть, это просто существующий трюк, ожидающий переупаковки под другим именем или собственным приложением.
Samsung может доставить товар или потерпеть неудачу
Начнем с телефонов серии Galaxy S24. Они будут поставляться с чипом Qualcomm Snapdragon 8 Gen 3 . Производитель чипов делает несколько смелых заявлений о генеративных возможностях искусственного интеллекта своего нового чипсета высшего уровня. Например, говорят, что изображение из текстовых подсказок создается за секунду с помощью технологии Stable Diffusion AI .
Компания Qualcomm предложила увлекательное техническое объяснение того, как она оптимизировала технологию Stable Diffusion для работы на устройстве. Конкурент MediaTek также утверждает, что искусственный интеллект на устройстве его флагманского Dimensity 9300 позволит генерировать текст в изображение менее чем за секунду благодаря Stable Diffusion.
Прямо сейчас у нас уже есть телефон на базе последнего флагмана Qualcomm. Речь идет об устройстве iQoo 12 , но интересно видеть, что в маркетинговых материалах телефона не упоминаются какие-либо трюки с генеративным искусственным интеллектом, особенно те, которые рекламируются Qualcomm и MediaTek.
Давайте предположим, что именно Samsung будет предлагать возможность преобразования текста в изображение. Чего это собирается достичь в конце дня? На данный момент мы не знаем, будет ли функция преобразования текста в изображение включена в стороннее приложение или Samsung интегрирует ее в одно из своих приложений.
Реальный вопрос заключается в том, какую пользу это добавит к нашим повседневным моделям использования смартфонов. Что среднестатистический покупатель Galaxy S24 собирается делать с изображениями, созданными с помощью одной строки текста? Возможно, они будут использовать эти изображения, сгенерированные искусственным интеллектом, чтобы добавить изюминку в чаты или вызвать ажиотаж в социальных сетях.
Но здесь все еще есть некоторые разногласия. Вам придется сгенерировать эти изображения из строки текста, сохранить их локально (или напрямую скопировать в буфер обмена), а затем вставить эти изображения AI в выбранное вами приложение чата. Самым оптимальным решением было бы, если бы Samsung каким-то образом интегрировала функцию преобразования изображения в текст прямо в клавиатуру.
Еще раз: зачем преодолевать все трудности, если смайлы, GIF-файлы и стикеры могут сделать всю работу? Кроме того, выходного разрешения 512 x 512 пикселей недостаточно для размещения этих изображений, созданных искусственным интеллектом, в задании колледжа или рабочей презентации.
Более того, система, скорее всего, не будет бесплатной. В демонстрационном видео MediaTek упоминается опция Premium. Покупатели Galaxy S24 могут просто столкнуться с лимитом на токены преобразования текста в изображение, когда они достигнут определенного количества выходов, после чего их либо переведут на более медленный уровень скорости создания изображений, либо попросят заплатить абонентскую плату.
Но если это реальность, то весь вопрос спорен, потому что у нас уже есть такие решения, как Dall-E от OpenAI . Вы можете получить его для создания изображений бесплатно или заплатить за ChatGPT Plus , чтобы насладиться преимуществами более быстрого и детального создания изображений с помощью последней модели Dall-E 3. Это всего лишь один из многих существующих генераторов текста в изображение.
Qualcomm заявляет, что Snapdragon 8 Gen 3 является «первым, поддерживающим мультимодальные модели Gen AI». Это означает, что чат-бот (основанный на модели Llama от Meta), работающий на телефоне, будет принимать входные данные в виде текста и изображений, а также голоса. Опять же, это не уникально, поскольку ChatGPT-4 уже предлагает такую возможность, хотя и за стеной подписки.
Действительно ли нам это нужно?
Одной из наиболее многообещающих функций, рекламируемых Qualcomm, является расширение изображений с помощью ИИ. По сути, вы можете расширить холст изображения в любом направлении, а генеративный искусственный интеллект на устройстве будет разумно генерировать пиксели на основе вашей текстовой подсказки и добавлять дополнительные объекты в исходный кадр.
Удивительно наблюдать за этим трюком — видеть, как изображение расширяется с добавлением большего количества объектов, а горизонт расширяется, как будто мастер-художник ретуширует свою работу. Но вы не хотите делать это с фотографиями, которые вы нажимаете на телефоне, чтобы сохранить их в памяти. Использовать для них генеративное расширение ИИ — все равно, что загрязнять ваши воспоминания фальшивыми визуальными эффектами и сценариями, с которыми вы на самом деле никогда не сталкивались.
Обобщение — еще одна важная ставка для развертывания генеративного искусственного интеллекта на телефонах. Это отличный способ читать новости и быть в курсе последних событий в различных областях. Однако этот трюк будет успешным только при минимальном трении. Например, если пользователи могут суммировать новостную статью на той же странице браузера вместо того, чтобы открывать другое приложение.
Если последнее так, почему бы просто не перейти на приложение, которое уже это делает? Например, Artifact — это потрясающе разработанное приложение от соучредителя Instagram Кевина Систрома , которое использует искусственный интеллект для обобщения статей.
Уже существуют приложения и веб-сайты, которые предоставляют новости в виде обобщенных фрагментов, например Inshorts. Shortwave — отличное приложение для вашего почтового ящика, которое может делать больше, чем просто суммировать цепочки электронных писем без каких-либо дополнительных затрат.
Генеративный искусственный интеллект на устройстве также обещает такие возможности, как голосовое редактирование фотографий. Звучит удивительно удобно, но трудно представить, сколько удобства это добавит в нашу жизнь, когда фильтры одним касанием и детальные ползунки предлагают столь же быстрый и более полезный процесс редактирования мультимедиа на телефонах.
Далее, давайте перейдем к обычной ситуации, связанной с использованием ИИ только для того, чтобы начать какие-то общие чаты или получить ответы, которые в противном случае потребовали бы исследований в Интернете. И снова мы столкнемся с качественными проблемами.
Генеративные модели искусственного интеллекта, изначально работающие на телефонах, такие как Llama от Meta, не являются самыми продвинутыми в своем роде из-за фундаментальной доступности ресурсов. Не ищите ничего, кроме Google. Pixel 8 Pro работает только с самой маленькой из крупных языковых моделей Google под названием Gemini Nano . Почему бы не перейти на что-то вроде ChatGPT или Pi через специальные мобильные приложения вместо того, чтобы довольствоваться менее функциональной языковой моделью?
Где действительно должен быть генеративный ИИ
Сейчас я вижу, что генеративный ИИ делает все возможное, чтобы отделить задачи смартфона от облака (и требования постоянно быть онлайн) и обеспечить дополнительную безопасность. Но для этого эти трюки искусственного интеллекта на устройстве должны выполнять функцию помощника, что-то вроде Google Assistant, Alexa или Siri.
Или, еще лучше, им нужно стать частью помощника. Попросите своего помощника по генеративному искусственному интеллекту взять все изображения кошек из вашей библиотеки, сплести их в коллаж и отправить отцу. Или попросите его спланировать лучший маршрут однодневной поездки в Диснейленд, найти для вас самый дешевый билет на следующие выходные и аккуратно разместить все эти детали в Календаре Google.
Более того, если инструмент генеративного искусственного интеллекта на устройстве больше не передает ваши данные на облачные серверы и сохраняет все операции локально на вашем смартфоне, о конфиденциальности данных можно не беспокоиться. По крайней мере теоретически, так оно и есть. На данный момент я не уверен в концепции Galaxy AI, которую продает Samsung, но было бы интересно посмотреть, сможет ли Samsung действительно предложить значимый опыт генеративного искусственного интеллекта или просто набор едва практичных, бесполезных трюков.