Нового короля искусственного интеллекта с открытым исходным кодом, который утверждает, что победил GPT-4o, обвиняют в мошенничестве. Не будьте суеверны в отношении списка крупных моделей.
Вы когда-нибудь задумывались над вопросом: как модель ИИ ранжируется в зависимости от стажа?
Как и вступительные экзамены в колледжи, у них тоже есть свой экзамен — Benchmark.
Однако вступительные экзамены в колледж включают всего несколько предметов, и существует множество различных контрольных тестов. Некоторые проверяют общие знания, а некоторые специализируются на определенных способностях, включая математику, программирование и понимание прочитанного.
▲ Сравнительный рейтинг на момент выпуска Google Gemini
Преимущество эталонного тестирования заключается в том, что оно интуитивно понятно. Если открыть список, результаты становятся понятны с первого взгляда, что более эффективно для привлечения пользователей, чем длинные абзацы текста.
Однако неясно, является ли тест точным или нет. Из-за недавнего случая предполагаемого мошенничества доверие к эталонному тестированию упало на новый уровень.
Новый король моделей с открытым исходным кодом был «расправлен» в мгновение ока
6 сентября появление Reflection 70B казалось чудом. Он создан малоизвестным нью-йоркским стартапом HyperWrite, но называет себя «лучшей в мире моделью с открытым исходным кодом».
Как разработчик Мэтт Шумер доказывает это? Используйте данные.
В многочисленных тестах производительности, имея всего 70B параметров, он победил GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B и других крупных игроков. Это более экономично, чем топовые модели с закрытым исходным кодом, и мгновенно всех поражает.
Reflection 70B не возник из камня. Он называет себя Llama 3.1 70B на основе Meta. На его обучение ушло 3 недели, и использовалась новая технология Reflection-Tuning, которая позволяет ИИ обнаруживать ошибки в собственных рассуждениях и исправлять их. прежде чем ответить.
Если использовать аналогию с человеческим мышлением, это немного похоже на переход от Системы 1 к Системе 2 в «Думай, быстро и медленно», напоминая ИИ, чтобы он успокоился и не ляпнул, а замедлил скорость рассуждения. , уменьшать галлюцинации и давать более разумные ответы.
Однако вскоре появились сомнения.
8 сентября стороннее оценочное агентство Artificial Analysis заявило, что им не удалось воспроизвести результаты эталонного теста.
Например, показатель MMLU одного из тестов Reflection 70B такой же, как у Llama 3 70B, но значительно ниже, чем у Llama 3.1 70B, не говоря уже о GPT-4o.
Мэтт Шумер ответил на вопрос, объяснив, что сторонние результаты были хуже, потому что при загрузке в Hugging Face возникла проблема с весом Reflection 70B, в результате чего производительность модели была не такой хорошей, как у внутренней версии API.
Причина была немного неубедительной, и между ними были обмены мнениями. Позже Искусственный анализ сообщил, что они получили разрешение частного API, и производительность действительно была хорошей, но она все еще не достигла уровня, первоначально заявленного. чиновник.
Сразу после этого пользователи сети X и Reddit также присоединились к команде по борьбе с подделками, задаваясь вопросом, что Reflection 70B обучен LoRA непосредственно на базовом тестовом наборе. Базовая модель — Llama 3, поэтому она может набирать очки в списке, но на самом деле она может набрать очки. оно не способно.
Некоторые люди даже обвинили Reflection 70B в том, что они поймали Клода в ловушку, и что это была ложь от начала до конца.
11 сентября, несмотря на общественное мнение, команда Мэтта Шумера выступила с заявлением, в котором отрицает факт обстрела Клода. Непонятно, почему не могут быть воспроизведены контрольные показатели.
Оценки ложно высокие, что может быть связано с ошибками с самого начала, загрязнением данных или ошибками конфигурации. Пожалуйста, дайте им еще немного времени.
Окончательного вывода по этому инциденту пока нет, но он, по крайней мере, иллюстрирует одну проблему. Достоверность рейтингов ИИ должна быть поставлена под сомнение. правда.
Различные крупные модельные экзамены, беспокойство по поводу человеческого рейтинга
Вернемся к самому основному вопросу: как оценить производительность большой модели?
Относительно простой и грубый способ — посмотреть на количество параметров. Например, Llama 3.1 имеет несколько версий, 8B подходит для развертывания и разработки на графических процессорах потребительского уровня, а 70B подходит для крупномасштабных собственных приложений искусственного интеллекта.
Если количество параметров является «заводской настройкой», которая представляет собой верхний предел возможностей модели, то бенчмарк-тест — это «проверка» для оценки реальной производительности модели в конкретных задачах. Их как минимум десятки. с разными акцентами, и оценки несовместимы друг с другом.
MMLU, также известный как крупномасштабное многозадачное понимание языка, выпущенный в 2020 году, в настоящее время является наиболее распространенным набором данных для оценки английского языка.
Он содержит около 16 000 вопросов с несколькими вариантами ответов, охватывающих 57 предметов, таких как математика, физика, история, право и медицина. Уровень сложности варьируется от средней школы до эксперта. Чем на большее количество вопросов модель ответит правильно, тем выше уровень.
В декабре прошлого года Google заявил, что Gemini Ultra набрал 90,0% по MMLU, что выше, чем у GPT-4.
Однако они этого не скрывали, предполагая, что методы Gemini и GPT-4 разные. Первый — CoT (пошаговое рассуждение), а второй — 5-шаговый, поэтому данная оценка может быть недостаточно объективной.
Конечно, существуют также тесты производительности, проверяющие возможности разделения больших моделей, и их слишком много, чтобы перечислять.
GSM8K в основном тестирует математику в начальной школе, MATH также тестирует математику, но более конкурентоспособен, включая алгебру, геометрию и исчисление, а HumanEval тестирует программирование на Python.
Помимо математики и физики, ИИ также выполняет «понимание прочитанного». DROP позволяет модели выполнять сложные рассуждения, читая абзацы и комбинируя информацию. HellaSwag, напротив, фокусируется на рассуждениях, основанных на здравом смысле, и объединяет их с жизненными сценариями.
▲ Тестовые вопросы для теста HellaSwag
Хотя большинство из них написаны на английском языке, крупные китайские модели также имеют свои собственные тесты, такие как C-Eval, который был разработан совместно Шанхайским университетом Цзяо Тун, Университетом Цинхуа и Эдинбургским университетом и охватывает почти 14 000 вопросов по 52 дисциплинам. например исчисление.
▲ Китайский эталонный тест SuperCLUE проверяет логику и рассуждения.
Так кто же такой «оценщик»? Существует примерно три типа: один — это автоматизированные процедуры, такие как тесты программирования. Правильность кода, сгенерированного моделью, проверяется посредством автоматического выполнения. Другой — использование более мощных моделей, таких как GPT-4, в качестве референта. руководство.
Смешанный бокс гораздо более всеобъемлющий, чем «Четыре книги», «Пять классических занятий» и «Шесть искусств». Но бенчмаркинг также имеет серьезные подводные камни. Компания, стоящая за этим, «действует и как судья, и как спортсмен», что очень похоже на ситуацию, когда учителя боятся списывания учеников.
Одна из скрытых опасностей заключается в том, что вопросы легко ускользнуть, в результате чего модель «копирует ответы».
Если набор тестов эталонного теста является общедоступным, модель могла «видеть» эти вопросы или ответы во время процесса обучения, в результате чего результаты производительности модели будут нереалистичными, поскольку модель может не отвечать на вопросы посредством рассуждений, но запоминать ответы. .
Это связано с утечкой данных и проблемами переобучения, что приводит к переоценке возможностей модели.
▲ Исследования Университета Жэньминь и других университетов показали, что данные, относящиеся к оценочному набору, иногда используются для обучения моделей.
Еще одна скрытая опасность — это мошенничество, где есть много возможностей для человеческих манипуляций.
Размышления 70B Когда X обсуждался в самом разгаре, старший научный сотрудник NVIDIA Джим Фан заметил: «Манипулировать тестами несложно.
Например, начните с «банка вопросов» и обучите модель на основе переписанных примеров набора тестов. Переписывание вопросов в тестовом наборе в разных форматах, формулировках и языках может позволить модели 13B победить GPT-4 в таких тестах производительности, как MMLU, GSM8K и HumanEval, что является противоположностью Tiangang.
В то же время вы также можете изменить «метод решения вопросов», чтобы увеличить вычислительную мощность рассуждений. Благодаря саморефлексии, древу мыслей и т. д. модель может замедлять рассуждения и делать множественные выводы, тем самым повышая точность. .
Позиция Джима Фана ясна:
Удивительно, что в сентябре 2024 года люди все еще с нетерпением ждут результатов MMLU или HumanEval. Эти критерии настолько нарушены, что манипулирование ими может стать заданием для студентов.
Кроме того, сложность эталонных тестов может не соответствовать скорости разработки ИИ, поскольку они обычно статичны и одиночны, а ИИ стремительно разрастается.
Дэн Хендрикс, исследователь безопасности искусственного интеллекта, принимавший участие в разработке MMLU, рассказал Nytimes в апреле этого года, что срок годности MMLU может составлять один или два года и вскоре будет заменен другими, более сложными тестами.
В войне сотен моделей рейтинговая тревога человеческого общества перешла к ИИ. В ходе различных операций «черного ящика» рейтинги ИИ стали маркетинговым инструментом, но они неоднозначны и не очень заслуживают доверия.
Какая модель ИИ сильнее, проголосуют пользователи
Но во многих случаях с ситуацией легче справиться, если есть данные и стандарты.
Бенчмаркинг — это структурированная система оценки, которая может использоваться в качестве фактора при выборе моделей пользователями, а также может помочь улучшить модели. Компания C-Eval, которая проводит тестирование производительности в Китае, даже прямо заявила: «Наша самая важная цель — помочь в разработке моделей».
Бенчмарк-тестирование имеет свою ценность, ключ к успеху заключается в том, как стать более авторитетным и заслуживающим доверия.
Мы уже знаем, что если набор тестов используется для обучения модели, это может привести к «обману» модели в тесте производительности. Некоторые сторонние оценки начинаются с этого пробела.
Исследовательская лаборатория SEAL компании Scale AI, занимающейся аннотированием данных, уделяет особое внимание конфиденциальности своих собственных наборов данных. Это легко понять. Только посредством «закрытого рассмотрения книги» можно увидеть настоящую главу.
В настоящее время SEAL может тестировать кодирование модели, отслеживание инструкций, математические функции и многоязычные возможности, а в будущем будут добавлены дополнительные параметры оценки.
▲ Рейтинг способностей SEAL к кодированию в августе этого года
В дополнение к режимам ответов на вопросы и подсчета очков, есть еще более простой тест: Arena.
Представитель среди них — Chatbot Arena, запущенный LMSYS, некоммерческой организацией исследователей из Университета Карнеги-Меллона, Калифорнийского университета в Беркли и других.
Он сравнивает анонимные случайные модели ИИ друг с другом, при этом пользователи голосуют за лучшую модель, которая затем оценивается с использованием системы подсчета очков Эло, обычно используемой в соревновательных играх, таких как шахматы.
В частности, мы можем задать онлайн два случайно выбранных анонимных вопроса о моделях A и B, а затем проголосовать за два ответа: предпочитаем ли мы A, предпочитаем B, ничью или ни одного. Только тогда мы сможем увидеть истинные цвета A и B. модели.
Вопрос, который я задал, был «9,9 или 9,11 больше», который раньше ставил в тупик многих ИИ. Обе модели дали неправильный ответ. Я нажал на него и обнаружил, что одним из счастливчиков был GPT-4o, а другим — французский Mixtral.
Преимущества Chatbot Arena очевидны. Вопросы, задаваемые большим количеством пользователей, определенно гораздо сложнее и гибче, чем тестовые наборы, созданные в лаборатории. Как только каждый сможет увидеть, потрогать и использовать его, рейтинг станет ближе к потребностям реального мира.
В отличие от некоторых эталонных тестов, которые проверяют сложную математику и проверяют, безопасен ли результат, на самом деле он ближе к исследованиям и далек от потребностей большинства пользователей.
На данный момент Chatbot Arena собрала более 1 миллиона голосов. xAI Маска также использовал поддержку рейтинга Chatbot Arena.
Однако некоторые люди возражают и считают, что на Chatbot Arena будут влиять предубеждения небольшого числа пользователей. У каждого свои предпочтения. Некоторым пользователям нравятся более длинные ответы, а другим нравятся краткие и полные ответы. Как это можно сравнить?
Поэтому Chatbot Arena недавно внесла коррективы, чтобы различать два показателя «стиль» и «содержание». Что означает «контент» и что означает «стиль». Рейтинги были изменены за счет контроля влияния продолжительности и формата разговора.
Короче говоря, независимо от того, как вы измеряете, контрольные тесты не могут быть гарантированы и на них нельзя полагаться. Они являются всего лишь справочным материалом, точно так же, как вступительные экзамены в колледж могут отражать только часть способностей студента.
Конечно, самое неудовлетворительное поведение — это субъективно оценивать себя в тестах производительности, хвалить себя и просто гоняться за яркими рейтингами.
Возвращаясь к первоначальному замыслу, мы все хотим использовать ИИ для решения реальных проблем, разработки продуктов, написания кода, создания изображений и получения некоторой эмоциональной ценности посредством психологических консультаций… Сравнительные тесты не могут помочь вам ответить, какой ИИ говорит лучше.
То, что является фейком, не может быть правдой. Голосование ногами – это самая простая истина. Эти более субъективные и личные чувства и переживания еще предстоит обменять на нашу практику.
# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo