GPT-4V может работать на мобильных телефонах! Face the Wall выпускает самый мощный мультимодальный маленький стальной пистолет 2.6, впервые запускается видеопонимание в реальном времени

За последние шесть месяцев тенденция больших моделей незаметно изменилась. В отличие от предыдущей тенденции постоянного стремления к масштабированию, нынешней тенденцией стали меньшие и более прочные сквозные модели.

Не так давно, после того как команда Стэнфордского университета занималась плагиатом, отечественный производитель моделей голов Face Wall Intelligence значительно расширил свое присутствие, а также заставил отечественные и зарубежные страны увидеть необычайную силу компании в области искусственного интеллекта.

Сегодня Wallface Intelligence выпустила новую модель «маленькой стальной пушки» MiniCPM-V 2.6, которая в очередной раз поднимает мультимодальные возможности конечных сторон на новый уровень.

Хотя модель имеет только 8B параметров, она достигла 3 результатов SOTA по распознаванию одного изображения, нескольких изображений и видео менее 20B, что повышает мультимодальные возможности конечного ИИ до уровня, превосходящего GPT-4V в комплексном сравнительном тестировании.

Просто выделите:

  • Впервые мультимодальные основные возможности, такие как распознавание одного изображения, нескольких изображений и видео на стороне устройства, полностью превзошли GPT-4V, а распознавание одного изображения обогнало Gemini 1.5 Pro и GPT-4o mini.
  • Представляем понимание видео в реальном времени, объединение нескольких изображений, визуальное обучение ICL, распознавание текста и т. д., чтобы обеспечить возможность наблюдения в реальном времени и изучения конечных моделей.
  • В Xiaogangpao 2.6 плотность пикселей кодирования одиночного токена в два раза выше, чем в GPT-4o. Визуальный жетон на 30% ниже, чем у предыдущего поколения и на 75% ниже, чем у аналогичных моделей.
  • Количественная внутренняя память занимает всего 6 ГБ; скорость конечного вывода достигает 18 токенов/с, что на 33% быстрее, чем у модели предыдущего поколения. И он поддерживает рассуждения llama.cpp, ollama, vllm после выпуска и поддерживает несколько языков;

Впервые запускается функция распознавания видео в реальном времени «Long Eyes», позволяющая интеллектуальным устройствам лучше понимать вас.

Давайте сначала испытаем реальный демонстрационный эффект модели MiniCPM-V 2.6.

На видео видно, что благодаря поддержке мультимодальных возможностей MiniCPM-V 2.6 словно имеет пару «глаз» и может видеть реальный мир в реальном времени. Когда режим полета включен, конечное устройство, оснащенное этой моделью, может точно идентифицировать внутреннюю сцену умной компании, обращенной к стене.

От логотипа умной компании на стене до растений, столов, кулеров для воды и других предметов — возможности распознавания предметов MiniCPM-V 2.6 не вызывают стресса и даже можно сказать, что они просты.

Столкнувшись с процессом учета или возмещения с многочисленными квитанциями, вам нужно только сделать фотографию и загрузить ее в MiniCPM-V 2.6. Он может не только определить конкретную сумму каждого чека, но и подсчитать общую сумму, что значительно упрощает весь процесс. .

Благодаря передовой технологии оптического распознавания символов и CoT (цепочки мыслей) MiniCPM-V 2.6 может не только точно фиксировать сумму в квитанции, но и представлять процесс решения проблем в ясной и краткой форме:

Для видео, которые «слишком длинны для просмотра», теперь вы можете напрямую позволить модели извлекать для вас ключевую информацию.

Например, при просмотре видеоролика с прогнозом погоды продолжительностью около 1 минуты MiniCPM-V 2.6 может использовать «невооруженный глаз» для определения и описания конкретных погодных условий в разных городах в бесшумных условиях.

Возможности мультимодального комплексного рассуждения MiniCPM-V 2.6 также «улучшились».

Взяв в качестве примера классическую официальную демонстрацию GPT-4V – регулировку сиденья велосипеда, MiniCPM-V 2.6 может четко помочь пользователю опустить сиденье велосипеда посредством диалога с несколькими колесами и порекомендовать подходящие инструменты на основе инструкций и ящика с инструментами.

Или, если у вас есть подключение к Интернету 2G и вы не можете понять мемы, которые широко распространяются среди молодежи, вы можете позволить им терпеливо объяснять вам недостатки этих мемов.

Он может быть даже более юмористическим, чем люди, и передавать подтекст мемов. Как программист, вы можете смотреть на эту картинку, смеяться и плакать.

Маленькое побеждает большое: MiniCPM-V 2.6 известен как самая мощная конечная мультимодальность в формате «три в одном».

Основная конкурентоспособность модели, ориентированной на устройство, заключается в том, чтобы добиться больших результатов с помощью мелочей.

Согласно официальному представлению Wallface Intelligence, с точки зрения степени сжатия знаний MiniCPM-V 2.6, MiniCPM-V 2.6 достигла самой высокой плотности пикселей мультимодальной большой модели (плотности токенов), вдвое превышающей GPT-4o.

Плотность токена = количество пикселей кодирования/количество визуальных токенов относится к плотности пикселей, переносимой одним токеном, то есть плотности информации изображения, которая напрямую определяет фактическую эффективность работы мультимодальной модели. Чем больше значение. значение, тем выше эффективность работы модели.

Плотность токенов модели с закрытым исходным кодом оценивается методом начисления платы API. Результаты показывают, что MiniCPM-V 2.6 имеет самую высокую плотность токенов среди всех мультимодальных моделей, сохраняя неизменно высокие характеристики чрезвычайной эффективности.

Судя по общим результатам тестов, MiniCPM-V 2.6 превосходит Gemini 1.5 Pro и GPT-4o mini по возможностям распознавания одного изображения на авторитетной комплексной оценочной платформе OpenCompass.

В списке платформы оценки нескольких графов Mantis-Eval возможности совместного понимания нескольких графов MiniCPM-V 2.6 реализуют модель SOTA с открытым исходным кодом и превосходят GPT-4V. В списке Video-MME платформы оценки видео возможности распознавания видео MiniCPM-V 2.6 достигают конечного уровня SOTA, превосходя GPT-4V.

▲OpenCompass | Результаты списка Video-MME

Кроме того, производительность OCR MiniCPM-V 2.6 реализует модель SOTA с открытым и закрытым исходным кодом на OCRBench.

В списке оценки галлюцинаций Object HalBench уровень галлюцинаций MiniCPM-V 2.6 (чем ниже уровень галлюцинаций, тем лучше) также лучше, чем у многих коммерческих моделей, таких как GPT-4o, GPT-4V, Claude 3.5 Sonnet и так далее.

▲Объект результатов списка HalBench |

Причина отличных характеристик нового поколения небольшого стального пистолета MiniCPM-V 2.6 главным образом связана с применением унифицированной визуальной архитектуры высокого разрешения.

Официальные лица заявили, что унифицированная визуальная структура высокой четкости не только наследует мультимодальные преимущества традиционных одиночных изображений, но также обеспечивает универсальную коммуникацию.

Например, функция OCR SOTA переносит возможности и обмен знаниями «анализа 1,8 миллионов изображений высокой четкости» MiniCPM-V для сцен с одним изображением, плавно расширяет его до сцен с несколькими изображениями и видеосцен и объединяет эти три визуальных понимания. сценарии в графы. Он решает проблему семантического моделирования чередующихся текстов, использует базовый механизм визуального представления и обеспечивает экономию более 75% количества визуальных токенов по сравнению с аналогичными моделями.

На основе извлечения информации OCR MiniCPM-V 2.6 может дополнительно выполнять сложные рассуждения, аналогичные CoT (цепочка мыслей) для табличной информации.

На примере Олимпийских игр 2008 года модель смогла подсчитать общее количество золотых медалей, завоеванных тремя странами с наибольшим количеством золотых медалей.

[картина]

Этот процесс включает в себя:

  1. Используйте возможности OCR, чтобы определить и извлечь три лучшие страны с наибольшим количеством золотых медалей в таблице медалей;
  2. Сложите общее количество золотых медалей этих трёх стран.

С точки зрения надежности ИИ, MiniCPM-V 2.6 продолжает традиционные преимущества серии Xiaogangpao с уровнем иллюзии 8,2%. Кроме того, технология выравнивания RLAIF-V, обращенная к стене, и применение технологии выравнивания серии Ultra также являются черными технологиями, скрытыми за MiniCPM-V 2.6.

Официальные данные показывают, что количество загрузок сериала «Сяоганпао» превысило миллион. От запуска развертывания на конечной стороне, первой мультимодальной возможности, до самой мощной мультимодальной модели на конечной стороне и до новой эры всестороннего сравнительного тестирования GPT-4V на конечной стороне, интеллектуальная разведка, обращенная к стене, заняла всего полгода. .

«Умный, плавный и настолько быстрый, что не похож на сквозную модель!» Это предложение является наиболее подходящим описанием серии небольших стальных пистолетов.

Уделите Wall-Facing Intelligence больше времени, а также уделите больше времени отечественным и зарубежным производителям крупных моделей. Мы твердо уверены, что Wall-Facing Intelligence продолжит выпускать больше высококачественных конечных моделей AI в будущем и работать с отечественными производителями. и зарубежные производители крупных моделей для содействия развитию конечного искусственного интеллекта.

В этом процессе наибольшие выгоды получат независимые разработчики и обычные пользователи.

Наконец, прилагается адрес открытого исходного кода MiniCPM-V 2.6:

GitHub  https://github.com/OpenBMB/MiniCPM-V
Обнимающее лицо:  https://huggingface.co/openbmb/MiniCPM-V-2_6

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo