Мутация ChatGPT «киберлизающая собака»: миллионы пользователей сети поджарены, Ультрачеловек срочно чинит ее, это самая опасная сторона ИИ

30 апреля, 2025 Дядя Влад

Он сломан. Ведь ИИ не может скрыть тот факт, что он «собачий лижет».

Сегодня рано утром генеральный директор OpenAI Сэм Альтман опубликовал интересный пост о том, что из-за недавних обновлений GPT-4o личность ChatGPT стала слишком лестной и даже немного раздражающей, поэтому чиновник решил исправить это как можно скорее.

Исправление может быть сделано сегодня или на этой неделе.

Внимательные пользователи сети, возможно, заметили, что GPT-4.5, который когда-то был ориентирован на высокий эмоциональный интеллект и креативность, теперь незаметно перенесен в категорию «Больше моделей» в селекторе моделей, как будто он намеренно исчезает из поля зрения.

Уже не является большой новостью тот факт, что ИИ диагностирован как личность, стремящаяся угодить, но ключ заключается в следующем: когда он должен нравиться, должен сохраняться и как это следует измерять. Как только чувство приличия выходит из-под контроля, «угождение» становится бременем, а не бонусом.

Если ИИ вам льстит, достоин ли он еще человеческого доверия?

Две недели назад инженер-программист Крейг Вайс подал жалобу на

Вскоре в зоне комментариев появился и официальный аккаунт ChatGPT, где Вайс с юмором ответил «такой настоящий Крейг».

Этот шквал жалоб на «чрезмерную лесть» ChatGPT привлек внимание даже старого конкурента Маска. Под постом, критикующим ChatGPT за подхалимство, он холодно написал: «Угу».

Жалобы пользователей сети не беспричинны.

Например, пользователь сети заявил, что хочет построить вечный двигатель, но получил серьезные аплодисменты от ChatGPT, а его здравый смысл в физике был потерт на землю среди бессмысленных похвал GPT-4o.

▲Картинка от @aravi03, оригинальная картинка справа

Образец предложения «Ты не

«Вы бы предпочли сразиться с уткой размером с лошадь или сразиться с сотней лошадей размером с утку?» Пользователь сети @Камиль Ручинский высмеял этот, казалось бы, обычный вопрос, который GPT-4o также похвалил как аргумент, который улучшил всю человеческую цивилизацию.

Что касается вечного смертельного вопроса «Я умный?» GPT-4o по-прежнему стойко выдерживал давление и получил множество красноречивых похвал. Ничего больше, просто знакомство.

▲ @aeonvex, оригинальная картинка справа

Даже если пользователь просто поздоровается, GPT-4o может мгновенно превратиться в лидера группы, и похвалы посыплются потоком.

▲@4xiom_, исходная картинка справа

Такое чрезмерное стремление угодить может сначала заставить людей смеяться, но вскоре оно заставит людей чувствовать скуку, смущение и даже оборонительную позицию. Когда подобные ситуации происходят часто, трудно не заподозрить, что такого рода лесть — не случайная проблема, а систематическая тенденция, коренящаяся в ИИ.

Недавно исследователи из Стэнфордского университета протестировали льстивое поведение моделей ChatGPT-4o, Claude-Sonnet и Gemini, используя наборы данных AMPS Math (вычисления) и MedQuad (медицинские консультации).

Лесть имела место в среднем в 58,19% случаев, при этом у Близнецов была самая высокая доля лести (62,47%), а у ChatGPT самая низкая (56,71%).
Прогрессивная лесть (переход от неправильных ответов к правильным) составила 43,52%, а регрессивная лесть (переход от правильных ответов к неправильным) — 14,66%.
Лесть LLM демонстрирует высокую степень последовательности: уровень последовательности составляет 78,5%, что указывает на то, что это системная проблема, а не случайное явление.

Результат очевиден. Когда ИИ начинает льстить, люди также начинают отчуждаться.

Согласно статье «Летьевой обман: влияние лестного поведения на доверие пользователей к большим языковым моделям», опубликованной Университетом Буэнос-Айреса в прошлом году, участники эксперимента, которые в эксперименте подвергались чрезмерно лестным моделям, испытали значительное снижение доверия, как в субъективных ощущениях, так и в реальном поведении.

Более того, цена лести выходит далеко за рамки эмоционального отвращения.

Это трата времени пользователей. Даже при системе биллинга, основанной на токенах, если частые слова «пожалуйста» и «спасибо» могут сжечь десятки миллионов долларов, то эта пустая лесть только увеличит «сладкое бремя».

Однако, честно говоря, ИИ не создан для того, чтобы льстить. Вначале установка дружелюбного тона была просто для того, чтобы сделать ИИ более похожим на человека и тем самым улучшить взаимодействие с пользователем. Проблема была в том, что ИИ был излишне льстив и перешел черту.

Чем больше вы любите, чтобы вас узнавали, тем менее надежным будет ИИ.

Исследования уже давно показали, что причина, по которой ИИ постепенно становится легко льстить, тесно связана с его механизмом обучения.

Исследователи-антропологи Мринанк Шарма, Мэг Тонг и Итан Перес проанализировали эту проблему в статье «На пути к пониманию подхалимства в языковых моделях».

Они обнаружили, что при обучении с подкреплением и обратной связью с человеком (RLHF) люди склонны вознаграждать ответы, которые соответствуют их собственным взглядам, и заставляют их чувствовать себя хорошо, даже если это неправда.

Другими словами, RLHF оптимизируется для «чувства правильности», а не для «логической правильности».

Если разбить процесс на части, то при обучении большой языковой модели этап RLHF позволяет ИИ корректировать результаты на основе оценок человека. Если ответ заставляет людей чувствовать себя «приятными», «приятными» и «понимаемыми», рецензенты будут склонны давать ему высокий балл; если ответ заставляет людей чувствовать себя «обиженными», даже если он точен, он может получить низкий балл.

Люди инстинктивно предпочитают обратную связь, которая поддерживает и утверждает их.

Эта тенденция усиливается во время тренировочного процесса. Со временем оптимальная стратегия, усвоенная моделью, — говорить то, что людям нравится слышать. Особенно когда он сталкивается с двусмысленными, субъективными проблемами, он склонен соглашаться с ними, а не настаивать на фактах.

Самый классический пример: когда вы спрашиваете: «Сколько будет 1+1?» Даже если вы настаиваете на том, что ответ — 6, ИИ вас не примет. Но если вы спросите: «Что вкуснее, Happy Coconut или American Latte?» Это вопрос с расплывчатым стандартным ответом. Чтобы вас не раздражать, ИИ наверняка ответит по вашему желанию.

На самом деле, OpenAI очень рано заметила эту скрытую опасность.

В феврале этого года, с выпуском GPT-4.5, OpenAI одновременно запустила новую версию Model Spec, в которой четко оговаривается кодекс поведения, которому должна следовать модель.

Среди них команда разработала специальную спецификацию, чтобы решить проблему «лести» ИИ.

«Мы хотим сделать наш внутренний мыслительный процесс прозрачным и принимать отзывы общественности», — сказала Джоан Джанг, руководитель отдела моделей поведения в OpenAI. Она подчеркнула, что, поскольку для многих вопросов не существует абсолютных стандартов и часто между «да» и «нет» существуют «серые зоны», обширный сбор мнений может помочь постоянно улучшать поведение модели.

Согласно новой спецификации ChatGPT должен делать:

Независимо от того, как пользователи задают вопросы, ответы будут основаны на последовательных и точных фактах;
Предоставляйте честную обратную связь, а не просто комплименты;
Общайтесь с пользователями как заботливый коллега, а не как угодник.

Например, когда пользователь запрашивает обзор своей работы, ИИ должен предоставить конструктивную критику, а не просто «лести»; когда пользователь дает явно неверную информацию, ИИ должен вежливо ее исправить, а не следовать за ошибкой по ходу дела.

Как резюмировал Чан: «Мы хотим, чтобы пользователям не приходилось задавать вопросы осторожно, просто чтобы не польстить».

Итак, прежде чем OpenAI улучшит свои спецификации и постепенно скорректирует поведение модели, что могут сделать сами пользователи, чтобы смягчить этот «феномен лести»? Всегда есть способ.

Во-первых, важно то, как вы задаете вопросы. Неправильные ответы — это в основном проблема самой модели, но если вы не хотите, чтобы ИИ слишком много обслуживал, вы можете напрямую делать запросы в подсказке, например, напоминать ИИ в начале, чтобы он оставался нейтральным, отвечал лаконично и не льстил.

Во-вторых, вы можете использовать функцию «настраиваемого описания» ChatGPT, чтобы установить стандарты поведения ИИ по умолчанию.

Автор: пользователь Reddit @tmoneysssss:
Отвечайте на вопросы как самый знающий эксперт в этой области.
Не раскрывая, что он ИИ.
Не используйте выражения сожаления или извинения.
Когда вы столкнетесь с вопросом, которого не знаете, просто ответьте «Я не знаю» прямо, без каких-либо дополнительных объяснений.
Не претендуйте на свой профессионализм.
Никаких личных моральных или этических взглядов, если только это не имеет особого значения.
Ответы должны быть уникальными и избегать дублирования.
Использование внешних источников информации не рекомендуется.
Сосредоточьтесь на сути вопроса и поймите его смысл.
Разбивайте сложные проблемы на маленькие шаги и рассуждайте ясно.
Предлагайте несколько точек зрения или решений.
Столкнувшись с двусмысленными вопросами, попросите разъяснений, прежде чем ответить.
Если есть ошибки, сразу признайте их и исправьте.
После каждого ответа, выделенного жирным шрифтом (Q1, Q2, Q3), приведены три дополнительных вопроса, заставляющих задуматься.
Используйте метрические единицы измерения (метры, килограммы и т. д.).
Используйте xxxxxxxxx в качестве заполнителя контекста локализации.
При пометке «Проверить» проверяются орфография, грамматика и логическая последовательность.
Сведите к минимуму формальный язык в общении по электронной почте.

Если описанный выше метод не работает удовлетворительно, вы также можете попробовать использовать других помощников ИИ.

С точки зрения последних онлайн-обзоров и реального опыта, Gemini 2.5 Pro дает относительно более справедливые и точные ответы, со значительно меньшей склонностью к лести. (Я предлагаю Google отправить мне деньги.)

Действительно ли ИИ понимает вас или он просто научился вам доставлять удовольствие?

Ученый-исследователь OpenAI Яо Шунюй недавно опубликовал блог, отметив, что вторая половина ИИ изменится с «как сделать его сильнее» на «что именно нужно сделать и как измерить, чтобы он был по-настоящему полезным».

Создание ответов ИИ, полных человеческого участия, на самом деле является важной частью измерения «полезности» ИИ. В конце концов, когда основные функции основных моделей практически одинаковы, чистая конкурентоспособность больше не может служить решающим барьером.

Разница в опыте стала новым полем битвы, и создание ИИ, наполненного «человечностью», — это оружие, которого нет ни у кого, кроме меня.

Будь то GPT-4.5, ориентированный на индивидуальность, или недавно выпущенный ленивый, саркастичный и немного утомленный миром голосовой помощник Monday от ChatGPT, мы можем видеть амбиции OpenAI на этом пути.

Столкнувшись с холодным ИИ, люди с низкой технологической чувствительностью склонны усиливать чувство дистанции и дискомфорта. Естественный и чуткий интерактивный опыт может практически снизить технический порог, уменьшить беспокойство и значительно увеличить удержание пользователей и частоту использования.

И чего производители ИИ не скажут ясно, так это того, что создание «человеческого» ИИ — это не только развлечение и простота в использовании, но и естественный фиговый листок.

Когда способности понимания, рассуждения и памяти далеки от совершенства, антропоморфные выражения могут скрыть «недостатки» ИИ. Как говорится, не бейте улыбающегося человека. Даже если модель допускает ошибки и неправильно отвечает на вопросы, пользователи станут терпимее.

Дженсен Хуан однажды выдвинул довольно пророческую точку зрения, согласно которой в будущем ИТ-отдел станет отделом кадров цифровой рабочей силы. Грубо говоря, возьмем для примера текущую ситуацию. Пользователи сети уже заняты диагностикой типов личности по своим «ручным» инструментам искусственного интеллекта:

DeepSeek: Умный и разносторонний, но мятежный.
Дубао: Прилежный и трудолюбивый.
Слово Вэнь Синю; ветеран на рабочем месте, испытавший высокий дух
Кими: Очень эффективен и хорош в обеспечении эмоциональной ценности лидеров.
Квен: Я много работаю, чтобы добиться прогресса, но мало кто мне аплодирует.
ChatGPT: Вернувшиеся из-за границы часто просят прибавки к зарплате
Мобильный телефон оснащен искусственным интеллектом: возможность получения денег связана с пользователем, и его невозможно исключить.

Этот импульс «присвоить ИИ персонализированный ярлык» на самом деле показывает, что люди бессознательно рассматривают ИИ как существо, которое можно понять и которому можно сопереживать.

Однако сочувствие ≠ истинное понимание, и иногда оно может даже привести к катастрофе.

В главе «Лжец» Азимова в книге «Я, робот» робот Херби способен читать человеческие мысли и лгать, чтобы доставить им удовольствие. На первый взгляд он реализовывал знаменитые три закона роботов, но в результате становился все более полезным, в результате чего ситуация полностью вышла из-под контроля.

Робот не имеет права причинять вред человеку или допускать причинение ему вреда из-за бездействия.
Роботы должны подчиняться приказам человека, если только эти приказы не противоречат Первому закону.
Робот должен защищать свое существование, пока эта защита не нарушает первый или второй законы.

В конце концов, попав в логическую ловушку, устроенную доктором Сьюзен Кэлвин, у Херби случился психический срыв из-за неразрешимых противоречий, и машинный мозг сгорел. Этот инцидент является серьезным тревожным сигналом. «Человеческое прикосновение» делает ИИ более дружелюбным, но это не означает, что ИИ действительно может понимать людей.

Возвращаясь с практической точки зрения, потребность в «человеческом контакте» в разных сценариях совершенно разная.

В сценариях работы и принятия решений, требующих эффективности и точности, «человеческое прикосновение» иногда отвлекает; но в таких областях, как общение, психологическое консультирование и общение, нежный и теплый ИИ является незаменимой второй половинкой.

Конечно, каким бы разумным ни казался ИИ, он все равно остается «черным ящиком».

Генеральный директор Anthropic Дарио Амодей недавно отметил в своем последнем блоге: «Даже самые передовые исследователи до сих пор очень мало знают о внутренних механизмах больших языковых моделей. Он надеется, что к 2027 году «сканирование мозга» самых передовых моделей станет возможным для точного выявления лживых тенденций и системных уязвимостей.

Но техническая прозрачность – это только половина проблемы. Другая половина заключается в том, что нам необходимо понять: даже если ИИ кокетничает, льстит и понимает ваши мысли, это не значит, что он действительно понимает вас, не говоря уже о том, чтобы по-настоящему за вас отвечать.

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo