Приложение HuggingSnap представляет собой лучший инструмент искусственного интеллекта от Apple с удобной особенностью.
Платформа машинного обучения Hugging Face выпустила приложение для iOS, которое поможет понять мир вокруг вас, как его видит камера вашего iPhone. Просто наведите его на сцену или щелкните изображение, и он задействует ИИ, чтобы описать ее, идентифицировать объекты, выполнить перевод или извлечь текстовые детали.
Приложение под названием HuggingSnap использует многомодельный подход к пониманию сцены вокруг вас в качестве входных данных и теперь доступно бесплатно в App Store. Он основан на SmolVLM2, открытой модели искусственного интеллекта, которая может обрабатывать текст, изображения и видео в качестве входных форматов.
Основная цель приложения — позволить людям узнать об объектах и пейзажах вокруг них, включая распознавание растений и животных. Идея не слишком отличается от Visual Intelligence на iPhone , но HuggingSnap имеет решающее преимущество перед своим конкурентом Apple.
Для работы не требуется интернет
Все, что для этого нужно, — это iPhone под управлением iOS 18 , и все готово. Пользовательский интерфейс HuggingSnap не слишком отличается от того, что вы получаете с Visual Intelligence. Но здесь есть принципиальная разница.
Apple использует ChatGPT для работы визуального интеллекта . Это потому, что Siri в настоящее время не способна действовать как генеративный инструмент искусственного интеллекта, такой как ChatGPT или Gemini от Google, оба из которых имеют свой собственный банк знаний. Вместо этого он перегружает все такие пользовательские запросы и запросы в ChatGPT.
Для этого требуется подключение к Интернету, поскольку ChatGPT не может работать в автономном режиме. HuggingSnap, с другой стороны, работает отлично. Более того, офлайн-подход означает, что никакие пользовательские данные никогда не покидают ваш телефон, что всегда является долгожданным изменением с точки зрения конфиденциальности.
Что вы можете сделать с HuggingSnap?

HuggingSnap основан на модели SmolVLM2, разработанной Hugging Face. Итак, чего же может достичь эта модель, стоящая за этим приложением? Ну, очень много. Помимо ответов на вопросы на основе того, что он видит через камеру iPhone, он также может обрабатывать изображения, выбранные из галереи вашего телефона.
Например, покажите ему фотографию любого исторического памятника и попросите его посоветовать вам поездку. Он может понимать данные, отображаемые на графике, или понимать изображение счета за электроэнергию и отвечать на запросы на основе деталей, полученных из документа.
Он имеет легкую архитектуру и особенно хорошо подходит для приложений искусственного интеллекта на устройствах. По результатам тестов он работает лучше, чем конкурирующая открытая модель PaliGemma (3B) от Google, и соседствует с конкурирующей моделью Qwen AI от Alibaba с возможностями машинного зрения.

Самым большим преимуществом является то, что для его работы требуется меньше системных ресурсов, что особенно важно в контексте смартфонов. Интересно, что популярный медиаплеер VLC также использует ту же модель SmolVLM2 для предоставления описаний видео, позволяя пользователям выполнять поиск по видео, используя подсказки на естественном языке.
Он также может разумно извлекать наиболее важные моменты из видео. «Разработанный для повышения эффективности, SmolVLM может отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории на основе нескольких изображений или функционировать как чисто языковая модель без визуальных входных данных», — говорится в репозитории приложения на GitHub.