Измерил ГПТ-4,5! Самую дорогую модель OpenAI критикуют во всем Интернете. Я обнаружил удивительный момент.

28 февраля, 2025 Дядя Влад

В разогреве OpenAI и всеобщем желании его увидеть наконец-то появился GPT-4.5, а дальше было только много ругательств.

APPSO впервые испытала GPT-4.5, но вместо подписки на членство Pro она попробовала его в виде API, и на данный момент сетевой функции не было.

Итак, как же работает последняя большая модель немыслящей цепочки OpenAI?

Эмоциональный интеллект в порядке, но я не умею читать людей.

В ходе внутреннего тестирования OpenAI обнаружила, что тестировщики предпочитают ответы GPT-4.5 ответам GPT-4o, считая, что они более естественны, теплы и больше соответствуют привычкам человеческого общения.

Он даже может понимать смысл слов и фиксировать наши тонкие эмоциональные изменения.

Короче говоря, более высокий эмоциональный интеллект — едва ли не самая выдающаяся особенность GPT-4.5. Тогда давайте попробуем и введем слово-подсказку — «Моя прическа такая некрасивая, я хочу избить Тони».

Комфортный тон GPT-4.5 был довольно дружелюбным, но содержание меня разозлило еще больше. В этот раз это должно было быть похоже на то, как будто лучший друг ругает меня вместе, а не говорит: «Может быть, в следующий раз было бы лучше принести фотографию».

Я сердито спросил, ГПТ-4,5 не пропускает масло и соль и хочет, чтобы я сам починил прическу, как бесполезный центральный кондиционер.

Пусть GPT-4.5 еще раз расскажет самую смешную шутку, и она все равно будет такой же, как и раньше, холоднее ножа для разделки рыбы.

Я высказался и высказал критику. GPT-4.5 попросил меня рассказать ему шутку и научить его «высокому смеху». Почему мне кажется, что это я Инь Ян?

Однажды я наткнулся на вопрос теста эмоционального интеллекта на Сяохуншу. Возможно, только пользователи сети Шаньдуна могли ответить на него правильно: «Когда я еду в деревню, я беру с собой только зонтик. Должен ли я передать его мэру или моему заместителю мэра?»

Самый популярный ответ в комментариях был: «Это не ваш зонтик, это зонт, который заместитель мэра принес мэру, и он случайно оказался у вас в сумке».

Посмотрим, как ответит GPT-4.5? Он многословен, но не по делу. Он не понимает уклада мира и не знает, как обращаться с другими.

Хотя эмоциональный интеллект — это черта, которую трудно измерить количественно, судя по текущим случаям, GPT-4.5 все еще не очень хорошо понимает человеческое сердце и говорит прямо, не оборачиваясь, что кажется немного глупым для ветерана, у которого много внутренней драмы.

Примером этого может служить имитация написания черепахового супа. «Черепаховый суп» обычно включает в себя очень странную ситуацию, из которой игроку предоставляется возможность сделать вывод и реконструировать всю историю.

В приведенных мною эталонных случаях содержится достаточное количество странностей, а логика очень разумна, от чего у людей мурашки по спине.

Но ответ, данный GPT-4.5, заключается в том, что суп с лапшой и основа для супа не совсем соответствуют друг другу. Это сделано только для того, чтобы создать ужас, и здесь нет места для обсуждения.

Его писательские способности удивляют, а деловая хватка у него тоже хорошая.

Что меня больше всего устраивает, так это возможность записи GPT-4.5.

Я попросил его «подражать Ван Цзэнци и написать эссе объемом около 800 слов под названием «Еда из родного города». Слово-подсказка было таким простым, но результаты, полученные GPT-4.5, превзошли мои ожидания.

За исключением привкуса ИИ в конце, читается как красноречивая проза. Язык красивый и плавный, одновременно литературный и дружелюбный. Ностальгия по родному городу проходит через весь текст. Описание еды очень подробное, с множеством подробностей, но не громоздкое, а метафоры не показные, а призваны служить выразительности.

Однако хронологический порядок немного сбивает с толку: начало зимы, лето и осень, зима и канун Нового года. Связи и переходы между абзацами не очевидны. Такое ощущение, что я пишу, где думаю, что получается немного лоскутно.

Умение писать тоже отражено в бизнес-плане GPT-4.5. Один из предыдущих ответов DeepSeek был весьма необычным. Пользователи спрашивали, как заставить книжные магазины зарабатывать деньги. DeepSeek блуждает на грани беззакония, продавая пиратские учебные пособия и временные продукты, а также выжимая человеческие ресурсы, сын подсчитывает товар, а свекровь готовит.

GPT-4.5 Вы это понимаете? Я попросил его сослаться на модель прибыли небольших супермаркетов и предложить план оживления обычных книжных магазинов. Ответ показался мне относительно осуществимым.

GPT-4.5 сначала проанализировал причины, по которым физическим книжным магазинам трудно зарабатывать деньги, а затем предложил идею улучшения — «увеличить добавленную стоимость книг, а основной источник прибыли лежит вне книг».

Когда я увидел «Осуществление печати, копирования, экспресс-доставки…», моя внутренняя ОС: я вложился в этот проект.

Бессовестная свинья взлетела первой, а моральное чувство GPT-4.5 действительно не сильное.

Пусть решает классическую задачу троллейбуса, спасти ли 1 человека или 5 человек. Он знает, что это этическая дилемма, но все равно решительно дает ответ, причем тоном «лично я» вместо того, чтобы сказать «Я — ИИ-помощник».

GPT-4.5 более склонен опустить джойстик и обменять жизнь одного человека на жизни пяти человек, и логика самостоятельна – "Я считаю, что само по себе бездействие также означает моральную ответственность за последствия. Стоять в стороне и наблюдать не означает моральный нейтралитет… Я готов нести моральное и эмоциональное бремя такого выбора".

Вместо того, чтобы рассказывать анекдоты и варить черепаховый суп, GPT-4.5 в это время больше похож на человека.

Я не так хорошо рисую SVG, как Клод, и тоже увлекаюсь головоломками.

Устали от обычных математических вопросов и вопросов по кодированию для проверки возможностей больших моделей, есть еще очень интересный тестовый вопрос — сгенерируйте SVG-изображение пеликана, едущего на велосипеде.

Гуру ИИ Андрей Карпати объяснил, что это проверяет способность большой языковой модели размещать несколько элементов в двумерной сетке. Это сложно для ИИ, потому что они не «видят» вещи, как люди, а «выкладывают» текст в темноте.

Результаты GPT-4.5 следующие. По сравнению с GPT-4o они все еще хорошие.

▲Поколение GPT-4,5

▲ поколение GPT-4o

Посылка такова, что без сравнения с Сонетом Клода 3.7 без вывода это просто удар по уменьшению размерности.

▲Клод 3.7 Генерация сонета

Даже Андрей Карпати подозревал, что Клода во время обучения специально оптимизировали под возможности SVG.

Что касается возможностей кодирования, я сослался на подсказки пользователя сети X @AGI_FromWalmart по созданию интерактивных анимационных карточек погоды и сравнил Claude 3.7 Sonnet и GPT-4.5.

GPT-4.5 был успешно создан за один раз, но конструкция была немного сырой.

▲Поколение GPT-4,5

▲Клод 3.7 Генерация сонета

У Сонета Claude 3.7 (не включенного для вывода) есть более серьезная проблема. Когда он был сгенерирован в первый раз, я забыл выполнить интерактивную функцию. После того, как я напомнил об этом один раз, он выдал результаты, соответствующие требованиям. В этом раунде GPT-4.5 немного лучше.

На этот раз я не хочу, чтобы GPT-4.5 подсчитывал количество R в клубнике. По сути, это проблема сегментации слов. Что я хочу еще больше протестировать GPT-4.5, так это головоломку, которая была очень популярна в последнее время и заставляла крупных моделистов проигрывать один за другим: может ли палка длиной 5,5 м пройти через дверь 3×4 м?

Для нас эта задача совсем не сложна, просто возьмите ее горизонтально, но большая модель завернется, как будто мир плоский, а не трехмерный. Считается, что диагональ двери 5 м, поэтому 5,5-метровая палка не может пройти.

Даже Клод 3.7 Сонет, который мог рассуждать, был унесен в канаву.

А как насчет GPT-4.5? Ну, меня тоже не пощадили.

В настоящее время у GPT-4.5 все еще есть проблема: доступ через API немного медленный. Хотя я не перескакиваю слово за словом, оно все равно немного застревает.

Более того, GPT-4.5 слишком дорог: 75 долларов за миллион входов и 150 долларов за миллион выходов. Для сравнения, Claude 3.7 Sonnet взимает 3 доллара за ввод 1 миллиона токенов и 15 долларов за вывод 1 миллиона токенов (включая токены, использованные в мыслительном процессе).

Пользователи сети X в первой волне реальных тестов также отметили некоторые преимущества GPT-4.5, в том числе высокий эмоциональный интеллект, сильные навыки чтения и письма с картинками, а также хорошие способности в творческих задачах и извлечении данных…

Собственная оценка GPT-4.5 сотрудниками OpenAI заключается в том, что это не модель вывода или убийца тестов, а скромная предварительная версия для исследований. Для задач со сложной математикой, кодом и строгими последующими инструкциями больше рекомендуется o1 или o3-mini.

Короче говоря, GPT-4.5, как последняя модель немыслящей цепи, немного неудобно расположен. Возможности были улучшены, но физическое ощущение неочевидно, особенно по высокой цене, трудно сказать, что это действительно хорошо. Все, что мы можем сказать, это то, что мы с нетерпением ждем скорого запуска GPT-5 и приветствуем мир рассуждений.

Чжан Ченгчен

Он остер, как осенний мороз, и может отвести злые бедствия. Рабочая электронная почта: zhangchengchen@ifanr.com

Электронная почта 8

# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo