Nvidia только что выпустила LLM с открытым исходным кодом, чтобы конкурировать с GPT-4

2 октября, 2024 Дядя Влад

Генеральный директор Nvidia Дженсен на заднем плане. — Нвидиа

Nvidia, которая производит одни из самых востребованных графических процессоров в индустрии искусственного интеллекта, объявила о выпуске модели большого языка с открытым исходным кодом, которая, как сообщается, работает на одном уровне с ведущими проприетарными моделями от OpenAI , Anthropic , Meta и Google .

Компания представила свое новое семейство NVLM 1.0 в недавно выпущенном официальном документе , и во главе его стоит модель NVLM-D-72B с 72 миллиардами параметров. «Мы представляем NVLM 1.0, семейство мультимодальных больших языковых моделей передового класса, которые достигают самых современных результатов в задачах визуального языка, конкурируя с ведущими проприетарными моделями (например, GPT-4o) и моделями с открытым доступом. » – написали исследователи.

Представляем NVLM 1.0, семейство мультимодальных LLM передового класса, которые достигают самых современных результатов в задачах визуального языка, конкурируя с ведущими проприетарными моделями (например, GPT-4o) и моделями с открытым доступом (например, InternVL 2). ).
Примечательно, что NVLM 1.0 показывает улучшенную работу только с текстом… pic.twitter.com/yKGyOqHnsp
— Вэй Пин (@_weiping) 18 сентября 2024 г.

Сообщается, что новое семейство моделей уже способно к «мультимодальности производственного уровня» с исключительной производительностью при выполнении различных задач по зрению и языку, а также улучшенным текстовым ответам по сравнению с базовым LLM, на котором основано семейство NVLM. «Для достижения этой цели мы создаем и интегрируем высококачественный текстовый набор данных в мультимодальное обучение вместе со значительным объемом мультимодальных математических и логических данных, что приводит к расширению математических возможностей и возможностей кодирования во всех модальностях», — объяснили исследователи.

В результате получился LLM, который может так же легко объяснить, почему мем смешной, как и шаг за шагом решать сложные математические уравнения. Nvidia также удалось повысить точность модели только для текста в среднем на 4,3 балла по общим отраслевым тестам благодаря мультимодальному стилю обучения.

скриншот официального документа NVLM, объясняющий процесс объяснения того, почему мем смешной — Нвидиа

Nvidia, похоже, серьезно относится к обеспечению того, чтобы эта модель соответствовала новейшему определению «открытого исходного кода» Open Source Initiative, не только делая свои обучающие веса доступными для публичного рассмотрения, но и обещая выпустить исходный код модели в ближайшем будущем. Это заметное отклонение от действий таких конкурентов, как OpenAI и Google, которые ревностно охраняют данные о весах и исходном коде своих LLM. При этом Nvidia позиционирует семейство NVLM не обязательно напрямую конкурировать с ChatGPT-4o и Gemini 1.5 Pro , а скорее служить основой для сторонних разработчиков для создания собственных чат-ботов и приложений искусственного интеллекта.