DeepMind уже ищет способы защитить нас от искусственного интеллекта

4 апреля, 2025 Дядя Влад

Общий искусственный интеллект сейчас является огромной темой, хотя никто не пришел к единому мнению, что такое AGI на самом деле. Некоторые ученые считают, что до этого еще сотни лет, и для этого потребуются технологии, которые мы пока даже не можем себе представить, в то время как Google DeepMind утверждает, что это может быть здесь к 2030 году — и уже планирует меры безопасности.

В научном сообществе нередко возникают разногласия по таким темам, и хорошо, что все наши базы покрыты людьми, планирующими как ближайшее, так и отдаленное будущее. Тем не менее, пять лет — довольно шокирующая цифра.

Сейчас все известные широкой публике «передовые проекты искусственного интеллекта» — это LLM — причудливые угадыватели слов и генераторы изображений. ChatGPT , например, по-прежнему ужасен в математике, и каждая модель, которую я когда-либо пробовал, ужасно слушает инструкции и точно редактирует их ответы. Клод из Anthropic до сих пор не победил покемонов, и какими бы впечатляющими ни были языковые навыки этих моделей, они все еще обучались у всех худших писателей в мире и приобрели множество вредных привычек.

Трудно себе представить переход от того, что мы имеем сейчас, к чему-то, что, по словам DeepMind , демонстрирует способности, которые соответствуют или превосходят «способности 99-го процентиля квалифицированных взрослых». Другими словами, DeepMind считает, что AGI будет таким же умным или умнее, чем 1% самых богатых людей в мире.

Итак, какие риски, по мнению DeepMind, может представлять AGI уровня Эйнштейна?

Согласно документу, у нас есть четыре основные категории: неправильное использование, несогласованность, ошибки и структурные риски. Они были так близки к четырем Мисс, это позор.

DeepMind считает, что «неправомерным использованием» являются такие вещи, как влияние на политическую гонку с помощью дипфейковых видео или выдача себя за людей во время мошенничества. В заключении отмечается, что его подход к безопасности «сосредоточен на блокировании доступа злоумышленников к опасным возможностям». Звучит здорово, но DeepMind является частью Google, и есть много людей, которые считают, что американский технологический гигант сам по себе является потенциально плохим игроком. Конечно, мы надеемся, что Google не будет пытаться украсть деньги у пожилых людей, выдавая себя за их внуков, но это не значит, что он не будет использовать AGI для получения прибыли, игнорируя при этом интересы потребителей .

Похоже, «несогласованность» — это ситуация с Терминатором, когда мы просим ИИ об одном, а он делает совершенно другое. Об этом немного неприятно думать. DeepMind утверждает, что лучший способ противостоять этому — убедиться, что мы понимаем, как работают наши системы искусственного интеллекта, как можно более детально, чтобы мы могли сказать, когда что-то идет не так, где что-то идет не так и как это исправить.

Это противоречит общему «спонтанному появлению» возможностей и концепции, согласно которой ОИИ будет настолько сложным, что мы не будем знать, как он работает. Вместо этого, если мы хотим оставаться в безопасности, нам нужно убедиться, что мы знаем, что происходит. Не знаю, насколько это будет сложно, но попробовать определенно имеет смысл.

Последние две категории относятся к случайному вреду — либо ошибкам со стороны ИИ, либо тому, что происходит, когда в дело вовлечено слишком много людей. Для этого нам необходимо убедиться, что у нас есть системы, которые одобряют действия, которые хочет предпринять AGI, и не позволяют различным людям тянуть его в противоположных направлениях.

Хотя статья DeepMind носит исключительно исследовательский характер, кажется, что уже существует множество причин, по которым мы можем представить, что AGI идет не так. Это не так плохо, как кажется: проблемы, которые мы можем себе представить, — это те проблемы, к которым мы можем лучше всего подготовиться. Страшнее проблемы, которых мы не ожидаем, поэтому будем надеяться, что мы не упускаем ничего серьезного.