DeepSeek: все, что вам нужно знать об искусственном интеллекте, свергшем ChatGPT

27 января, 2025 Дядя Влад

Стартап из Китая, созданный год назад, взял штурмом индустрию искусственного интеллекта после выпуска чат-бота, который по производительности конкурирует с ChatGPT, но при этом использует лишь часть затрат на электроэнергию, охлаждение и обучение по сравнению с тем, что требуют системы OpenAI, Google и Anthropic. Вот все, что вам нужно знать о моделях Deepseek V3 и R1 и о том, почему компания может фундаментально разрушить амбиции Америки в области искусственного интеллекта.

Что такое ДипСик?

DeepSeek (технически «Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.») — китайский стартап в области искусственного интеллекта, который изначально был основан как лаборатория искусственного интеллекта для своей материнской компании High-Flyer в апреле 2023 года. В мае того же года DeepSeek была выделена в собственную компанию (при этом High-Flyer осталась инвестором), а также выпустила модель DeepSeek-V2. V2 предлагал производительность на уровне других ведущих китайских компаний в области искусственного интеллекта, таких как ByteDance, Tencent и Baidu, но при гораздо меньших эксплуатационных расходах.

Компания выпустила версию V3 в декабре 2024 года. V3 представляет собой модель с 671 миллиардом параметров, на обучение которой, как сообщается, ушло менее 2 месяцев . Более того, согласно недавнему анализу Джеффриса, «стоимость обучения» DeepSeek составляет всего 5,6 млн долларов США (при условии стоимости аренды 2 часа H800). Это меньше 10% стоимости Ламы Меты». Это лишь малая часть от сотен миллионов до миллиардов долларов, которые такие американские компании, как Google, Microsoft, xAI и OpenAI, потратили на обучение своих моделей.

Представляем DeepSeek-V3!
Самый большой шаг вперед:
⚡ 60 токенов в секунду (в 3 раза быстрее, чем V2!)
Расширенные возможности
Совместимость с API сохранена
Модели с полностью открытым исходным кодом & документы
1/н pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) 26 декабря 2024 г.

Тестовые тесты поставили производительность V3 на один уровень с GPT-4o и Claude 3.5 Sonnet. В статье в журнале The Hill за декабрь 2024 года успех DeepSeek был назван американским «моментом спутника».

DeepSeek выпустила свою модель R1-Lite-Preview в ноябре 2024 года, заявив, что новая модель может превзойти по производительности семейство моделей рассуждения OpenAI o1 (и сделать это за небольшую часть цены). По оценкам компании, запуск модели R1 в 20–50 раз дешевле, в зависимости от задачи, чем модель o1 OpenAI. Впоследствии DeepSeek выпустила DeepSeek-R1 и DeepSeek-R1-Zero в январе 2025 года. Модель R1, в отличие от своего конкурента o1, имеет открытый исходный код, что означает, что ее может использовать любой разработчик.

Таким образом, популярность V3 и R1 резко возросла с момента их выпуска: AI Assistant от DeepSeek на базе V3 вытеснил ChatGPT в топе магазинов приложений . Венчурный капиталист Марк Андрисен в недавнем сообщении в социальной сети назвал чат-бота DeepSeek «одним из самых удивительных и впечатляющих прорывов, которые я когда-либо видел» и «глубоким подарком миру».

Что может DeepSeek?

Будучи моделью большого языка с открытым исходным кодом, чат-боты DeepSeek могут делать практически все, что могут ChatGPT, Gemini и Claude. Это включает в себя генерацию текста, аудио, изображений и видео. Более того, недавно выпущенное семейство мультимодальных моделей DeepSeek, получившее название Janus Pro , по сообщениям, превосходит DALL-E 3, а также PixArt-alpha, Emu3-Gen и Stable Diffusion XL по паре отраслевых тестов. DeepSeek-R1, конкурирующий с o1, специально разработан для выполнения сложных задач рассуждения, одновременно генерируя пошаговые решения проблем и создавая «логические цепочки мышления», где он шаг за шагом объясняет процесс рассуждения при решении проблемы. .

о боже #deepseek
— Алексиос Манцарлис (@mantzarlis.com) 2025-01-27T16:50:40.640Z

Чего не могут сделать продукты DeepSeek, так это рассказать о площади Тяньаньмэнь. Или протесты «Желтого зонтика». Или сходство президента Си Цзиньпина с Винни-Пухом. По сути, если Коммунистическая партия Китая считает эту тему запретной, чат-боты DeepSeek не будут ее рассматривать или каким-либо значимым образом участвовать.

Кто может использовать DeepSeek?

Временный запрет на регистрацию в DeepSeek — Эндрю Тарантола / DeepSeek / Digital Trends

Модель DeepSeek, являющаяся программой LLM с открытым исходным кодом, может быть использована любым разработчиком бесплатно. OpenAI взимает 200 долларов в месяц за подписку Pro, необходимую для доступа к o1. Модели DeepSeek доступны в Интернете, через API компании и через мобильные приложения. Чтобы использовать его, вам необходимо будет зарегистрировать бесплатную учетную запись на веб-сайте DeepSeek , однако компания временно приостановила регистрацию новых пользователей в ответ на «крупномасштабные вредоносные атаки на сервисы DeepSeek». Существующие пользователи могут войти в систему и использовать платформу в обычном режиме, но пока неизвестно, когда новые пользователи смогут опробовать DeepSeek самостоятельно.

Почему DeepSeek вдруг стал таким важным?

С момента выпуска ChatGPT в ноябре 2023 года американские компании, занимающиеся искусственным интеллектом, сосредоточили внимание на создании более крупных, более мощных, более обширных, более мощных и ресурсоемких моделей больших языков. Вместо того, чтобы стремиться создавать более экономичные и энергоэффективные LLM, такие компании, как OpenAI, Microsoft, Anthropic и Google, вместо этого сочли целесообразным просто грубо форсировать развитие технологий, в соответствии с американской традицией, просто выбрасывая абсурдные суммы денег и ресурсов. у проблемы. Ожидалось, что только в 2024 году генеральный директор xAI Илон Маск лично потратит более 10 миллиардов долларов на инициативы в области искусственного интеллекта. OpenAI и ее партнеры только что объявили об инициативе Project Stargate стоимостью 500 миллиардов долларов, которая радикально ускорит строительство предприятий по производству экологически чистой энергии и центров обработки данных искусственного интеллекта по всей территории США. По словам генерального директора Сундара Пичаи, Google планирует уделить приоритетное внимание масштабированию платформы Gemini в течение 2025 года и, как ожидается, в этом году потратит миллиарды долларов на достижение этой цели. В середине января Meta объявила, что в этом году потратит на разработку искусственного интеллекта целых 65 миллиардов долларов.

DeepSeek только что показал миру, что ничего из этого на самом деле не нужно — что «бум искусственного интеллекта», который помог стимулировать американскую экономику в последние месяцы и который сделал компании, занимающиеся графическими процессорами, такие как Nvidia, экспоненциально более богатыми, чем они были в октябре 2023 года, может быть не более чем притворство. Это также ставит под вопрос, насколько на самом деле лидируют США в области искусственного интеллекта, несмотря на неоднократное запрещение поставок передовых графических процессоров в Китай в течение прошлого года.

«Суть в том, что превосходство США обусловлено технологиями и лидерством американских компаний в области искусственного интеллекта», — сказал CNN Кит Лернер, аналитик Truist. «Внедрение модели DeepSeek заставляет инвесторов усомниться в лидерстве американских компаний, а также в том, сколько они тратят и приведут ли эти расходы к прибыли (или перерасходу)».

Короче говоря, DeepSeek только что обыграла американскую индустрию искусственного интеллекта в ее собственной игре, показав, что нынешняя мантра «рост любой ценой» больше не актуальна. «DeepSeek явно не имеет доступа к такому количеству вычислительных ресурсов, как американские гиперскейлеры, и каким-то образом сумел разработать модель, которая выглядит весьма конкурентоспособной», — сказал CNBC Срини Паджьюри, аналитик по полупроводникам в Raymond James. Если китайский стартап сможет создать модель ИИ, которая будет работать так же хорошо, как новейшая и лучшая модель OpenAI, и сделает это менее чем за два месяца и менее чем за 6 миллионов долларов, то какая польза от Сэма Альтмана?

«Время покажет, реальна ли угроза DeepSeek — идет гонка относительно того, какие технологии работают и как крупные западные игроки будут реагировать и развиваться», — сказал CNN Майкл Блок, рыночный стратег Third Seven Capital. «Рынки стали слишком самодовольными в начале эры Трампа 2.0 и, возможно, искали предлог, чтобы отступить — и здесь они нашли отличный повод».