Meta представляет Llama 3.1, свою самую большую и лучшую модель с открытым исходным кодом

24 июля, 2024 Дядя Влад

Материнская компания Facebook Meta объявила во вторник о выпуске своей модели большого языка с открытым исходным кодом Llama 3.1 . Новый LLM будет доступен в трех размерах — с параметрами 8B, 70B и 405B — последний из них является крупнейшим на сегодняшний день ИИ с открытым исходным кодом, который генеральный директор Meta Марк Цукерберг описывает как «первую модель ИИ с открытым исходным кодом передового уровня».

«В прошлом году Llama 2 можно было сравнить только с моделями старшего поколения за рубежом», — написал Цукерберг в своем блоге во вторник . «В этом году Llama 3 конкурирует с самыми продвинутыми моделями и лидирует в некоторых областях. Мы ожидаем, что начиная со следующего года будущие модели Llama станут самыми передовыми в отрасли».

Meta утверждает, что модель 405B, обученная на 15 триллионах токенов с использованием 16 000 графических процессоров H100 , значительно больше, чем ее предшественница Llama 3. Сообщается, что он конкурирует с лучшими современными моделями с закрытым исходным кодом, такими как GPT-4o от OpenAI, Gemini 1.5 от Google или Claude 3.5 от Anthropic в «общих знаниях, математике, использовании инструментов и многоязычном переводе». Во вторник Цукерберг предсказал в Instagram, что к концу года Meta AI превзойдет ChatGPT как наиболее широко используемый помощник по искусственному интеллекту.

Компания отмечает, что все три версии Llama 3.1 будут иметь увеличенную длину подсказок до 128 тыс. токенов, что позволит пользователям предоставлять дополнительный контекст и сопроводительную документацию объемом до целой книги. При запуске они также будут поддерживать восемь языков. Более того, Meta внесла поправки в свое лицензионное соглашение, позволяющие разработчикам использовать результаты Llama 3.1 для обучения других моделей.

Meta также объявила, что сотрудничает с более чем дюжиной других компаний отрасли для дальнейшего развития экосистемы Llama. Amazon, Databricks и Nvidia запустят комплексные программные пакеты, которые помогут разработчикам точно настроить свои собственные модели на основе Llama, а стартап Groq «создал недорогую службу вывода с малой задержкой» для нового семейства моделей 3.1. », — написал Цукерберг.

Будучи открытым исходным кодом, Llama 3.1 будет доступна во всех основных облачных сервисах, включая AWS, Google Cloud и Azure.