AGI приходит быстро! Мультимодальная модель Департамента Всекитайского собрания народных представителей впервые реализует независимое обновление, а генерация фото-видео превосходит Sora

AGI (искусственный общий интеллект) — это Святой Грааль всей индустрии искусственного интеллекта.

Бывший главный научный сотрудник OpenAI Илья Суцкеве в прошлом году высказал мнение: «Пока мы можем очень хорошо предсказывать следующий токен, мы можем помочь людям достичь AGI».

Лауреат премии Тьюринга Джеффри Хинтон, известный как отец глубокого обучения, и генеральный директор OpenAI Сэм Альтман считают, что AGI появится в течение десяти лет или даже раньше.

ОИИ – это не конец, а новая отправная точка в истории человеческого развития. На пути к AGI нужно учитывать множество факторов, и китайская индустрия искусственного интеллекта также является силой, которую нельзя игнорировать.

На общем параллельном форуме по искусственному интеллекту в Чжунгуаньцуне, состоявшемся 27 апреля, компания-стартап Sophon Engine, связанная с Китайским университетом Жэньминь, торжественно представила новую мультимодальную большую модель Awaker 1.0, сделав решающий шаг на пути к AGI.

По сравнению с моделью последовательности ChatImg предыдущего поколения движка Sophon, Awaker 1.0 использует новую архитектуру MOE и имеет возможности независимого обновления. Это первая в отрасли мультимодальная большая модель, обеспечивающая «настоящее» независимое обновление . Что касается визуальной генерации, Awaker 1.0 использует полностью самостоятельно разработанную базу генерации видео VDT, которая достигает лучших результатов, чем Sora, в создании фото-видео, преодолевая сложность «последней мили» при размещении больших моделей.

Awaker 1.0 — это большая мультимодальная модель, которая суперинтегрирует визуальное понимание и визуальное создание. С точки зрения понимания, Awaker 1.0 взаимодействует с цифровым и реальным миром и передает данные о поведении сцены обратно в модель во время выполнения задачи для обеспечения непрерывного обновления и обучения на стороне генерации. Awaker 1.0 может генерировать высококачественные мульти-данные; модальный контент, моделировать реальный мир и предоставлять больше обучающих данных для модели понимания. Что особенно важно, так это то, что благодаря своим «настоящим» возможностям автономного обновления Awaker 1.0 подходит для более широкого спектра отраслевых сценариев и может решать более сложные практические задачи, такие как AI Agent, встроенный интеллект, комплексное управление, проверки безопасности и т. д.

Базовая модель МЧС Awaker

С точки зрения понимания, базовая модель Awaker 1.0 в основном решает проблему серьезных конфликтов при мультимодальном и многозадачном предварительном обучении. Благодаря тщательно разработанной многозадачной архитектуре MOE базовая модель Awaker 1.0 может не только унаследовать основные возможности мультимодальной большой модели ChatImg предыдущего поколения Sophon Engine, но также изучить уникальные возможности, необходимые для каждой мультимодальной задачи. . По сравнению с мультимодальной большой моделью ChatImg предыдущего поколения возможности базовой модели Awaker 1.0 были значительно улучшены при выполнении множества задач.

Ввиду проблемы утечки оценочных данных в основных мультимодальных оценочных списках компания Sophon Engine разработала строгий стандарт для создания собственного оценочного набора, в котором большая часть тестовых изображений взята из личных альбомов мобильных телефонов. В этом мультимодальном оценочном наборе он проводит честную ручную оценку Awaker 1.0 и трех самых передовых мультимодальных больших моделей в стране и за рубежом. Подробные результаты оценки показаны в таблице ниже. Обратите внимание, что GPT-4V и Intern-VL напрямую не поддерживают задачи обнаружения. Их результаты обнаружения получены путем требования к модели использовать язык для описания ориентации объекта.

Мы обнаружили, что базовая модель Awaker 1.0 превзошла GPT-4V, Qwen-VL-Max и Intern-VL в задачах визуального ответа на вопросы и бизнес-приложениях, а также достигла второго лучшего результата в задачах описания, рассуждения и обнаружения. В целом средний балл Awaker 1.0 превосходит три самые передовые модели в стране и за рубежом, что подтверждает эффективность многозадачной архитектуры MOE. Ниже приведены несколько конкретных примеров сравнительного анализа.
Как видно из этих сравнительных примеров, Awaker 1.0 может давать правильные ответы на вопросы подсчета и распознавания текста, в то время как все остальные три модели отвечают неправильно (или частично неправильно). В задании на детальное описание Квен-ВЛ-Макс более склонен к галлюцинациям, а Интерн-ВЛ может точно описать содержание картинки, но недостаточно точен и конкретен в некоторых деталях. GPT-4V и Awaker 1.0 могут не только подробно описывать содержание изображения, но и точно идентифицировать детали изображения, например, Coca-Cola, показанную на картинке.

Воплощенный интеллект Awaker+: на пути к AGI

Сочетание мультимодальных больших моделей и встроенного интеллекта очень естественно, поскольку возможности визуального понимания мультимодальных больших моделей можно естественным образом сочетать с встроенными интеллектуальными камерами. В области искусственного интеллекта «мультимодальная большая модель + воплощенный интеллект» даже считается возможным путем достижения общего искусственного интеллекта (AGI).

С одной стороны, люди ожидают, что воплощенный интеллект будет адаптируемым, то есть агент сможет адаптироваться к изменяющимся средам приложения посредством непрерывного обучения. Он может не только лучше и лучше справляться с известными мультимодальными задачами, но и быстро адаптироваться к неизвестным мультимодальным задачам. -модальные задачи. С другой стороны, люди также ожидают, что воплощенный интеллект будет по-настоящему творческим, надеясь, что он сможет открывать новые стратегии и решения и исследовать границы возможностей искусственного интеллекта посредством автономного исследования окружающей среды. Используя большие мультимодальные модели в качестве «мозга» воплощенного интеллекта, можно значительно улучшить адаптивность и креативность воплощенного интеллекта, тем самым в конечном итоге приблизившись к порогу ОИИ (или даже достигнув ОИИ).

Однако существуют две очевидные проблемы с существующими большими мультимодальными моделями: во-первых, итеративный цикл обновления модели длительный, требующий больших человеческих и финансовых инвестиций, во-вторых, все данные обучения модели извлекаются из существующих данных; , и модель Невозможно постоянно приобретать большие объемы новых знаний. Хотя постоянные новые знания также могут вводиться через RAG и длинный контекст, сама мультимодальная большая модель не изучает эти новые знания, и эти два метода исправления также принесут дополнительные проблемы. Короче говоря, нынешние крупные мультимодальные модели не очень адаптируются к реальным сценариям применения, не говоря уже о творческих, что приводит к различным трудностям при внедрении в отрасли.

Awaker 1.0, выпущенный на этот раз компанией Sophon Engine, представляет собой первую в мире мультимодальную большую модель с автономным механизмом обновления, которую можно использовать в качестве «мозга» воплощенного интеллекта. Механизм автономного обновления Awaker 1.0 включает три ключевые технологии: активное генерирование данных, отражение и оценка модели, а также непрерывное обновление модели .

В отличие от всех других крупных мультимодальных моделей, Awaker 1.0 работает «вживую», и его параметры могут постоянно обновляться в режиме реального времени. Как видно из приведенной выше рамочной диаграммы, Awaker 1.0 можно комбинировать с различными интеллектуальными устройствами, наблюдать за миром через интеллектуальные устройства, генерировать намерения действий и автоматически создавать инструкции для управления интеллектуальными устройствами для выполнения различных действий. Интеллектуальные устройства автоматически генерируют различные отзывы после выполнения различных действий. Awaker 1.0 может получать эффективные обучающие данные на основе этих действий и отзывов для постоянного самообновления и постоянного улучшения различных возможностей модели.

Если взять в качестве примера внедрение новых знаний, Awaker 1.0 может постоянно узнавать самую свежую новостную информацию в Интернете и отвечать на различные сложные вопросы на основе недавно полученной новостной информации. В отличие от традиционных методов RAG и длинного контекста, Awaker 1.0 действительно может усваивать новые знания и «запоминать» их по параметрам модели.

Как видно из приведенного выше примера, в течение трех последовательных дней самообновления Awaker 1.0 смог каждый день узнавать новостную информацию дня и точно произносить соответствующую информацию при ответах на вопросы. В то же время Awaker 1.0 не забудет полученные знания в процессе непрерывного обучения. Например, знания Zhijie S7 все еще запоминаются или понимаются Awaker 1.0 через 2 дня.

Awaker 1.0 также можно комбинировать с различными интеллектуальными устройствами для обеспечения совместной работы в облаке. Awaker 1.0 развертывается в облаке в качестве «мозга» для управления различными периферийными интеллектуальными устройствами для выполнения различных задач. Обратная связь, полученная, когда периферийное интеллектуальное устройство выполняет различные задачи, будет постоянно передаваться обратно в Awaker 1.0, что позволит ему непрерывно получать данные обучения и постоянно обновляться.

Вышеупомянутый технический способ совместной работы на границе облака был применен в таких сценариях применения, как интеллектуальная проверка электросетей и умные города. Он достиг гораздо лучших результатов распознавания, чем традиционные небольшие модели, и получил высокую оценку отраслевых клиентов.

Симулятор реального мира: VDT

Сторона генерации Awaker 1.0 представляет собой базу VDT для генерации видео, подобную Sora, независимо разработанную Sophon Engine, которую можно использовать в качестве симулятора реального мира. Результаты исследования VDT были опубликованы на сайте arXiv в мае 2023 года, за 10 месяцев до того, как OpenAI выпустила Sora. Научная статья VDT была принята ICLR 2024, ведущей международной конференцией по искусственному интеллекту.

Новшества базы генерации видео VDT в основном включают в себя следующие аспекты:

  • Применение технологии Transformer для генерации видео на основе диффузии демонстрирует большой потенциал Transformer в области генерации видео. Преимуществом VDT является его превосходная возможность захвата в зависимости от времени, позволяющая генерировать согласованные во времени видеокадры, включая моделирование физической динамики трехмерных объектов с течением времени.
  • Предлагается единый механизм моделирования пространственно-временных масок, позволяющий VDT решать различные задачи генерации видео, реализуя широкое применение этой технологии. Гибкие методы условной обработки информации VDT, такие как простое объединение пространства токенов, эффективно унифицируют информацию различной длины и модальностей. В то же время, в сочетании с механизмом моделирования пространственно-временных масок, VDT стал универсальным инструментом распространения видео, который можно применять для безусловной генерации, предсказания последующих кадров видео, интерполяции кадров, создания видеоизображений и видеокадров без изменения Структура модели и другие задачи по созданию видео.

Команда разработчиков Sophon сосредоточилась на изучении моделирования простых физических законов с помощью VDT и обучила VDT работе с набором данных Physion. В следующем примере мы обнаружили, что VDT успешно моделирует физические процессы, такие как движение мяча по параболической траектории и мяч, катящийся по плоскости и сталкивающийся с другими объектами. В то же время из второго примера в строке 2 также видно, что ВДТ уловил скорость и импульс мяча, поскольку мяч в конечном итоге не сбил столб из-за недостаточной силы удара. Это доказывает, что архитектура Transformer может изучать определенные физические законы.

Они также провели углубленное исследование задачи создания фото-видео. Эта задача предъявляет очень высокие требования к качеству генерации видео, поскольку мы, естественно, более чувствительны к динамическим изменениям лиц и персонажей. Ввиду специфики этой задачи исследователям необходимо объединить VDT (или Sora) и управляемую генерацию, чтобы справиться с проблемами генерации фото-видео. В настоящее время движок Sophon преодолел большинство ключевых технологий создания фото-видео и достиг лучшего качества создания фото-видео, чем Sora. Движок Sophon продолжит оптимизировать алгоритм управляемой генерации портретов, а также активно изучает коммерциализацию. В настоящее время найден подтвержденный сценарий коммерческой посадки, и ожидается, что в ближайшем будущем он позволит преодолеть сложность «последней мили» при посадке крупных моделей.

В будущем более универсальный VDT станет мощным инструментом для решения проблемы мультимодальных источников данных больших моделей. Используя генерацию видео, VDT сможет моделировать реальный мир, дополнительно повышать эффективность производства визуальных данных и оказывать помощь в независимом обновлении мультимодальной большой модели Awaker.

Заключение

Awaker 1.0 — это ключевой шаг для команды разработчиков Sophon на пути к конечной цели — «реализации AGI». В Sophon Engine сообщили APPSO, что команда считает, что самоисследование, самоанализ и другие возможности автономного обучения ИИ являются важными критериями оценки уровня интеллекта и столь же важны, как и постоянное увеличение шкалы параметров (Закон масштабирования).

В Awaker 1.0 реализованы ключевые технические механизмы, такие как «активное генерирование данных, отражение и оценка модели, а также непрерывное обновление модели», что позволило добиться прорыва как на стороне понимания, так и на стороне генерации. Ожидается, что это ускорит развитие мультимодальных проектов. смоделировать индустрию и в конечном итоге позволить людям реализовать AGI.

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo