DeepSeek готовит следующий прорыв в области искусственного интеллекта с помощью самосовершенствующихся моделей

Всего несколько месяцев назад большая ставка Уолл-стрит на генеративный искусственный интеллект пришла к моменту расплаты , когда на сцену вышла компания DeepSeek . Несмотря на жесткую цензуру , DeepSeek с открытым исходным кодом доказал, что передовая модель искусственного интеллекта не обязательно требует миллиардов долларов и может быть реализована при скромных ресурсах.

Он быстро нашел коммерческое применение у таких гигантов, как Huawei, Oppo и Vivo, а такие компании, как Microsoft, Alibaba и Tencent, быстро предоставили ему место на своих платформах. Теперь следующей целью шумной китайской компании являются самоусовершенствующиеся модели искусственного интеллекта, которые используют циклический подход «судья-вознаграждение» для самосовершенствования.

В предварительной статье (через Bloomberg ) исследователи из DeepSeek и китайского университета Цинхуа описывают новый подход, который может сделать модели ИИ более интеллектуальными и эффективными путем самосовершенствования. Базовая технология называется самокритичной настройкой (SPCT), а этот подход технически известен как генеративное моделирование вознаграждения (GRM).

Проще говоря, это похоже на создание цикла обратной связи в реальном времени. Модель ИИ существенно улучшается за счет увеличения размера модели во время обучения. Это требует большого количества человеческого труда и вычислительных ресурсов. DeepSeek предлагает систему, в которой базовый «судья» предоставляет свой собственный набор критических замечаний и принципов для модели ИИ, готовя ответы на запросы пользователей.

Этот набор критических замечаний и принципов затем сравнивается со статическими правилами, лежащими в основе модели ИИ и желаемого результата. Если степень совпадения высокая, генерируется сигнал вознаграждения, который эффективно помогает ИИ работать еще лучше в следующем цикле.

Эксперты, стоящие за статьей, называют следующее поколение самоусовершенствующихся моделей ИИ DeepSeek-GRM. Тесты, перечисленные в документе, показывают, что эти модели работают лучше, чем модели Google Gemini, Meta Llama и OpenAI GPT-4o. DeepSeek заявляет, что эти модели искусственного интеллекта следующего поколения будут выпущены через канал с открытым исходным кодом.

Самосовершенствующийся ИИ?

Тема искусственного интеллекта, который может самосовершенствоваться, вызвала несколько амбициозных и противоречивых замечаний. Бывший генеральный директор Google Эрик Шмидт утверждал, что нам может понадобиться аварийный выключатель для таких систем. «Когда система сможет самосовершенствоваться, нам нужно серьезно подумать о том, чтобы отключить ее», — цитирует Шмидта Fortune .

Концепция рекурсивно самосовершенствующегося ИИ не совсем нова. Идея сверхразумной машины, которая впоследствии способна создавать еще более совершенные машины, на самом деле восходит к математику И. Дж. Гуду еще в 1965 году. В 2007 году эксперт по искусственному интеллекту Элиэзер Юдковский выдвинул гипотезу о Seed AI , искусственном интеллекте, «предназначенном для самопонимания, самомодификации и рекурсивного самосовершенствования».

В 2024 году японская компания Sakana AI подробно описала концепцию «ученого по искусственному интеллекту» — системы, способной пройти весь этап исследовательской работы от начала до конца. В исследовательской работе, опубликованной в марте этого года, эксперты Meta раскрыли самовознаграждаемые языковые модели, в которых ИИ сам выступает в качестве судьи, предоставляя вознаграждение во время обучения.

Внутренние испытания Meta модели Llama 2 AI с использованием новой техники самовознаграждения показали, что она превзошла таких конкурентов, как Claude 2 от Anthropic, Gemini Pro от Google и модели GPT-4 от OpenAI. Компания Anthropic, поддерживаемая Amazon, подробно описала то, что они назвали подделкой вознаграждений, неожиданным процессом, «когда модель напрямую изменяет свой собственный механизм вознаграждения».

Google не сильно отстает в этой идее. В исследовании, опубликованном в журнале Nature ранее в этом месяце, эксперты Google DeepMind продемонстрировали алгоритм искусственного интеллекта под названием Dreamer, который может самосовершенствоваться, используя игру Minecraft в качестве примера упражнения.

Эксперты IBM работают над собственным подходом, называемым обучением дедуктивному замыканию, при котором модель ИИ использует свои собственные ответы и сравнивает их с данными обучения для самосовершенствования. Однако в целом идея состоит не только в солнечном свете и радуге.

Исследования показывают, что когда модели ИИ пытаются обучаться на самостоятельно сгенерированных синтетических данных, это приводит к дефектам, в просторечии известным как «коллапс модели». Было бы интересно посмотреть, как DeepSeek реализует эту идею и сможет ли она сделать это более экономно, чем ее конкуренты с Запада.