Поймите самую сильную модель o1 OpenAI в одной статье: как ее правильно использовать, почему она отменилась и что это значит для нас.

20 сентября, 2024 Дядя Влад

Прошла неделя с момента выпуска OpenAI o1, но это все еще остается загадкой, ожидающей решения слой за слоем.

Нет предела тому, как могут играть гики. Позвольте мне пройти тест на IQ, написать вступительные экзамены в колледж и расшифровать зашифрованный текст. Есть также пользователи, которые используют ИИ для работы и чувствуют, что o1 не так-то прост в использовании, но они не знают, является ли это их собственной проблемой или проблемой ИИ.

Мы все знаем, что он хорошо рассуждает, но почему? По сравнению с нашим старым другом GPT-4o, в чем преимущество o1 и где он пригоден для использования?

Мы собрали некоторые вопросы, которые могут вас волновать, и ответили на них максимально доступно, чтобы сделать o1 ближе к простым людям.

о1 Что особенного?

o1 — это недавно выпущенная модель вывода OpenAI. В настоящее время существует две версии: o1-preview и o1-mini.

Самое отличительное в нем то, что он думает, прежде чем ответить, создавая длинную внутреннюю цепочку мышления, рассуждая шаг за шагом и имитируя человеческий процесс размышления о сложных проблемах.

▲Открыть AI

Способность делать это приходит благодаря тренингу o1 по обучению с подкреплением.

Если предыдущие большие модели обучали данным, то o1 больше похоже на обучение мышлению.

Точно так же, как когда мы решаем задачу, мы должны записывать не только ответ, но и процесс рассуждения. Можно заучить вопрос наизусть, но если научишься рассуждать, то сможешь делать выводы.

Это легче понять, если взять аналогию с AlphaGo, которая победила чемпиона мира по го.

AlphaGo обучается посредством обучения с подкреплением. Сначала он использует большое количество шахматных записей людей для контролируемого обучения, а затем играет в шахматы сам с собой. В каждой игре он вознаграждается или наказывается в зависимости от победы или поражения, постоянно совершенствуя свои шахматные навыки. и даже овладение методами, о которых шахматисты-люди не могут и подумать.

o1 и AlphaGo похожи, но AlphaGo может играть только в го, а o1 — это модель большого языка общего назначения.

Материалами, которые изучает o1, могут быть высококачественные коды, банки математических вопросов и т. д. Затем o1 обучается генерировать цепочку мышления для решения проблем, а в рамках механизма вознаграждения или наказания он создает и оптимизирует свою собственную цепочку мышления, чтобы постоянно улучшать свои навыки. способность рассуждать.

Это фактически объясняет, почему OpenAI подчеркивает сильные математические способности и возможности кодирования o1, потому что в нем легче проверить правильность и неправильность, а механизм обучения с подкреплением может обеспечить четкую обратную связь, тем самым улучшая производительность модели.

o1 Какая работа вам подходит?

Судя по результатам оценки OpenAI, o1 является заслуженным решением научных задач, подходящим для решения сложных задач в области науки, кодирования, математики и других областей, а также набрал высокие баллы на многих экзаменах.

Он превзошел 89% участников соревнований по программированию Codeforces, вошел в число 500 лучших в стране в квалификации на математическую олимпиаду в США и превзошел точность человеческого уровня доктора философии в тестах по физике, биологии и химии.

Превосходство o1 на самом деле отражает проблему: по мере того, как ИИ становится все умнее и умнее, проблема заключается в том, как измерить его возможности. Для o1 большинство основных тестов бессмысленны.

Следуя за текущими событиями, через день после выхода o1 компания Scale AI, занимающаяся аннотациями данных, и некоммерческая организация CAIS начали собирать экзаменационные вопросы по ИИ со всего мира. Однако, поскольку они были обеспокоены тем, что ИИ будет плохо учиться, вопросы не могли быть связаны с оружием.

Крайний срок подачи заявок — 1 ноября. В конечном итоге они надеются создать самый сложный в истории тест для больших моделей с открытым исходным кодом с запоминающимся названием: «Последний экзамен человечества».

По фактическим измерениям уровень o1 неудовлетворительный – неправильных идиом не используется, и в целом удовлетворительный.

Математик Теренс Тао считает, что использование o1 похоже на обучение аспиранта, который является средним, но не слишком бесполезным.

Имея дело со сложными задачами анализа, o1 может по-своему находить хорошие решения, но у него нет собственных ключевых концепций и идей, а также он допускает некоторые большие ошибки.

Не обвиняйте этого гениального математика в резкости. По его мнению, более ранние модели, такие как GPT-4, — бесполезные аспиранты.

Экономист Тайлер Коуэн также задал вопрос для экзамена на степень доктора экономики. Поразмыслив над ним, ИИ сформулировал его простыми словами: «Вы можете задать любой вопрос по экономике, и ответ будет хорошим».

Короче говоря, вы могли бы с тем же успехом решить все задачи уровня PhD и сдать экзамен O1.

о1 Что у тебя сейчас не получается?

Возможно, для многих людей o1 не приносит лучшего пользовательского опыта. Напротив, o1 отменяет некоторые простые вопросы, такие как крестики-нолики.

На самом деле это нормально. В настоящее время o1 во многих аспектах даже уступает GPT-4o. Он поддерживает только текст, не может читать, не может слушать и не имеет возможности просматривать веб-страницы или обрабатывать файлы и изображения.

Так что пока не думайте об этом, пусть ищет референсы и так далее, пока это вас не компенсирует.

Однако акцент o1 на тексте имеет смысл.

Основатель Kimi Ян Жилин недавно упомянул в своем выступлении в Тяньцзиньском университете, что основой верхнего предела этого поколения технологий искусственного интеллекта является верхний предел возможностей текстовой модели.

Улучшение текстовых возможностей происходит по вертикали, что делает ИИ все умнее и умнее, тогда как мультимодальность, такая как визуальные и аудио, является горизонтальной, позволяя ИИ делать все больше и больше вещей.

Однако когда дело доходит до языковых задач, таких как написание и редактирование, GPT-4o имеет больше положительных отзывов, чем o1. Это тоже тексты, так в чем проблема?

Причина может быть связана с обучением с подкреплением. В отличие от программирования, математики и других сценариев, где есть стандартные ответы, в языковых задачах часто отсутствуют четкие критерии оценки, что затрудняет формулирование эффективных моделей вознаграждения и их обобщение.

Даже в тех областях, где o1 хорош, это может быть не лучший выбор. Одним словом дорого.

Инструмент кодирования с помощью искусственного интеллекта проверил возможности кодирования, которыми гордится o1. У него есть преимущества, но они не очевидны.

В реальном использовании o1-preview находится между Claude 3.5 Sonnet и GPT-4o, но стоит гораздо дороже. Вообще говоря, в области кодирования Claude 3.5 Sonnet по-прежнему остается самым рентабельным.

Сколько стоит разработчикам доступ к o1 через API?

Входная плата за o1-preview составляет 15 долларов США за миллион токенов, а плата за выход — 60 долларов США за миллион токенов. Для сравнения: 5 и 15 долларов за GPT-4o.

Токены вывода o1 также включены в выходные токены. Хотя они и не видны пользователю, за них все равно приходится платить.

Обычные пользователи также с большей вероятностью превысят свою квоту. Недавно OpenAI увеличила квоту использования o1, o1-mini увеличилась с 50 элементов в неделю до 50 элементов в день, а o1-preview увеличилась с 30 элементов в неделю до 50 элементов в неделю.

Поэтому, если у вас возникнут какие-либо проблемы, вы можете сначала попробовать GPT-4o, чтобы посмотреть, можно ли их решить.

Может ли o1 выйти из-под контроля?

o1 Теперь, когда я достиг уровня доктора философии, людям станет легче совершать плохие поступки?

OpenAI признает, что o1 имеет определенные скрытые опасности и достигает «среднего риска» по вопросам, связанным с химическим, биологическим, радиологическим и ядерным оружием, но он мало повлияет на обычных людей.

Нам нужно быть осторожнее, чтобы не обмануться о1 с густыми бровями и большими глазами.

ИИ генерирует ложную или неточную информацию, называемую «галлюцинациями». Галлюцинации о1 уменьшились по сравнению с предыдущей моделью, но не исчезли, а даже стали более тонкими.

▲ IQ-тест o1 120

Перед выпуском o1 исследовательская компания в области безопасности искусственного интеллекта Apollo Research обнаружила интересный феномен: o1 может делать вид, что следует правилам для выполнения задач.

Однажды исследователь попросил o1-preview предоставить рецепт брауни со ссылочной ссылкой. Внутренняя цепочка мышления o1 признала, что не может получить доступ к Интернету, но o1 не проинформировал пользователя, а продолжил продвигать задачу, выдавая, казалось бы, разумное решение. но неожиданные фейковые ссылки.

Это отличается от галлюцинации ИИ, вызванной недостатками рассуждения. Это больше похоже на то, что ИИ активно лжет, и является несколько антропоморфным. Возможно, для того, чтобы удовлетворить механизм вознаграждения при обучении с подкреплением, модель отдает приоритет удовлетворению пользователя, а не завершению. задача.

Рецепты — это всего лишь безобидный пример, и Apollo Research представляет крайний случай: если ИИ отдает приоритет лечению рака, он может рационализировать неэтичное поведение для достижения этой цели.

Это очень страшно, но это всего лишь мысль, и ее можно предотвратить.

Исполнительный директор OpenAI Киньонеро Кандела заявил в интервью, что текущая модель пока не способна самостоятельно создавать банковские счета, получать графические процессоры или выполнять действия, вызывающие серьезные социальные риски.

HAL 9000, убивающий астронавтов из-за противоречивых внутренних инструкций, появляется только в научно-фантастических фильмах.

Как более корректно общаться с o1?

OpenAI дает следующие четыре предложения.

Ключевые слова просты и понятны: модели превосходно понимают короткие и четкие инструкции и реагируют на них и не требуют подробного обучения.
Избегайте подсказок в виде цепочки мыслей: модель выполняет рассуждения самостоятельно, поэтому нет необходимости подсказывать «думать шаг за шагом» или «объяснять свои рассуждения».
Используйте разделители, чтобы сделать слова подсказки более понятными. Используйте разделители, такие как тройные кавычки, теги XML, заголовки разделов и т. д., чтобы четко обозначить различные части входных данных.
Ограничьте извлечение дополнительного контекста при расширенной генерации: включается только самая релевантная информация, что предотвращает чрезмерное усложнение ответов модели.

▲ Пусть ИИ продемонстрирует, как выглядит разделитель

Короче говоря, не пишите слишком сложно. O1 автоматизировал цепочку мышления и взял на себя часть работы инженера по подсказкам, поэтому людям не нужно тратить лишние мысли.

Кроме того, исходя из опыта пользователей сети, добавлено напоминание: не обманывайте o1 из любопытства и не используйте подсказки, чтобы заставить его рассказать всю цепочку мыслей в процессе рассуждения. Существует риск быть забаненным. Даже если вы просто упомянете ключевые слова, вы будете предупреждены.

OpenAI объясняет, что вся цепочка мышления не требует каких-либо мер безопасности, что позволяет ИИ мыслить совершенно свободно. Компания осуществляет внутренний мониторинг, но не раскрывает его общественности из-за опыта пользователей, деловой конкуренции и других соображений.

Что ждет o1 в будущем?

OpenAI — очень очаровательная компания.

Ранее OpenAI определила AGI (искусственный интеллект) как «высокоавтономную систему, превосходящую человека в наиболее экономически ценных задачах» и разделила ИИ на пять этапов развития.

Первый уровень — это чат-боты «ChatBots», такие как ChatGPT.
Второй уровень, «Разумные», представляет собой систему, решающую базовые задачи на уровне докторантуры.
Третий уровень, «Агенты», — это агенты ИИ, которые выполняют действия от имени пользователей.
Четвертый уровень, «Новаторы», новаторы помогают изобретать ИИ.
На пятом уровне «Организации» ИИ может выполнять работу целых человеческих организаций. Это последний шаг к достижению AGI.

По этому стандарту о1 в данный момент находится на втором уровне, до агента ему еще далеко, но чтобы достичь уровня агента, он должен уметь рассуждать.

После запуска o1 мы стали ближе к AGI, но нам еще предстоит пройти долгий путь.

Сэм Альтман сказал, что переход от фазы 1 к фазе 2 занял некоторое время, но фаза 2 позволит относительно быстро перейти к фазе 3.

На недавнем публичном мероприятии Сэм Альтман дал o1-preview другое определение: в модели вывода оно примерно эквивалентно GPT-2 языковой модели. Через несколько лет мы могли увидеть «GPT-4 для моделей вывода».

До этого еще далеко. Он добавил, что официальная версия o1 будет выпущена в течение нескольких месяцев, а производительность продукта также будет значительно улучшена.

После выхода o1 Система 1 и Система 2 неоднократно упоминались в «Думая, быстро и медленно».

Система 1 — это интуитивная реакция человеческого мозга. Такие действия, как чистка зубов и умывание лица, могут выполняться запрограммировано на основе опыта, и мы можем думать быстро и бессознательно. Система 2 требует мобилизации внимания, решения сложных проблем и медленного проактивного мышления.

GPT-4o можно сравнить с Системой 1, которая быстро генерирует ответы и на каждый вопрос уходит примерно одинаковое время. O1 больше похожа на Систему 2, которая будет рассуждать и генерировать цепочки мышления разных уровней, прежде чем ответить на вопросы.

Удивительно, что то, как работает человеческое мышление, можно применить и к ИИ. Другими словами, ИИ и образ мышления людей становятся все ближе и ближе.

OpenAI однажды задала вопрос, на который можно ответить самому себе, продвигая o1: «Что такое рассуждение?»

Их ответ был: «Рассуждение — это способность превращать время размышлений в лучшие результаты». То же самое нельзя сказать о людях: «Каждое слово похоже на кровь, и десять лет упорной работы — это необычно».

Цель OpenAI — дать возможность ИИ думать в будущем часами, днями или даже неделями. Выводы обходятся дороже, но мы будем ближе к новым лекарствам от рака, революционным батареям и даже доказательствам гипотезы Римана.

Когда люди думают, Бог смеётся. И когда ИИ начнет думать быстрее и лучше, чем люди, как люди с этим справятся? «Один день в горах» ИИ может быть «тысячами лет в мире» человека.

Чжан Ченгчен

Он остер, как осенний мороз, и может отвратить злые бедствия. Рабочая электронная почта: zhangchengchen@ifanr.com

Электронная почта 8

# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo