Он известен как самая мощная альтернатива ChatGPT. Как он работает после основного обновления? Прикреплена ссылка на пробную версию.

30 ноября, 2023 Дядя Влад

Если вы спросите, какой на данный момент самый мощный ИИ-помощник? Нет сомнений, что это определенно ChatGPT.

Не так давно ChatGPT неожиданно рухнул, что привело к резкому взрыву большого количества активных пользователей в Интернете. Студенты, которые использовали его для выполнения домашних заданий, какое-то время не могли писать рефераты, а рабочие-мигранты, которые полагались на него для «обеспечения своей жизни», даже не хотели ходить на занятия.

С этого года ChatGPT время от времени «внезапно умирал». Claude, известный как его самая сильная замена, может стать вашей самой надежной альтернативой.

Двойной контекст, большое обновление Claude 2.1

По совпадению, недавно Клод получил волну больших обновлений. Раньше контекст, который мог обрабатывать Клод, составлял всего 100 000 токенов (токен — это наименьшая единица обработки текста, например слово или фраза). Теперь версия Claude 2.1 Pro может обрабатывать до 200 000 контекстов.

Представители Anthropic утверждают, что контекст 200 тыс. примерно равен 150 000 слов или 500 страницам текста. Это означает, что вы можете загружать библиотеки кодов, финансовые отчеты или длинные литературные произведения, чтобы Клод мог подводить итоги, задавать вопросы и ответы, прогнозировать тенденции, а также сравнивать и сопоставлять несколько документов.

Так насколько хорошо он справляется с китайским языком? Мы можем дать простое объяснение на примере спорного ранее Yi-34B. Также выпущена версия, поддерживающая сверхдлинные контекстные окна длиной 200 тыс. Yi-34B может обрабатывать сверхдлинный ввод текста длиной около 400 000 китайских иероглифов, что примерно соответствует длине книги «Ученые».

С точки зрения языковых моделей длинный контекст может обеспечить более точное использование и значение, помочь устранить двусмысленность и помочь модели генерировать связный и точный текст. Например, слово «яблоко» появляется в словах «сбор фруктов» или «новый iPhone». смысл совершенно другой.

Стоит отметить, что до того, как GPT-4 восстановил функцию сети в реальном времени, бесплатная версия Claude могла получать доступ к веб-ссылкам и обобщать веб-контент в режиме реального времени.Даже сейчас это преимущество, которого нет у GPT-3.5.

Бесплатная версия Claude также может читать, анализировать и обобщать загружаемые вами документы.Даже если она сталкивается с «платным» GPT-4, производительность Claude при обработке документов совсем неплохая.

Мы также «загрузили» 90-страничный отчет об индустрии виртуальной реальности в текущую веб-версию Claude и GPT-4 и задали те же вопросы.

Разницы в скорости ответа между ними нет, но в бесплатной версии ответы Клода более плавные, а качество ответов немного выше. Функция поиска GPT-4 также ограничена из-за пейджинга и просмотров, что довольно необычно. -духовный.

Поиск — это всего лишь «детская игра». В качестве инструмента повышения эффективности обучения или работы нам нужна более «умная» модель. Когда я попросил их проанализировать изменения в VR-индустрии за пять лет, хотя все они высказали схожие взгляды, Клод победил, дав логичный и аргументированный ответ.

Ключ в том, сможете ли вы ответить на него правильно или нет. В прошлом году мы стали свидетелями множества печальных случаев, когда крупные модели были обмануты, «рассказывая о поезде». Anthropic утверждала, что Claude 2.1 сократила ложные или галлюцинаторные утверждения в 2 раза, но не дала четких данных, настолько, что ученый NVIDIA Джим Фан задался вопросом: «Самое простое решение для достижения 0% галлюцинаций — это отказаться отвечать на каждый вопрос. »

Anthropic также разработал множество вопросов-ловушек, чтобы проверить честность Клода 2.1. Многочисленные раунды результатов показывают, что, сталкиваясь с «слепыми пятнами» в знаниях, Клод 2.1 предпочитает неопределенные выражения, а не обманывает пользователей, создавая ложные ответы.

Простое понимание состоит в том, что если в карте знаний Клода 2.1 нет такого резерва, как «столица провинции Гуандун — не Харбин», она искренне скажет: «Я не уверен, является ли столица провинции Гуандун Харбином» вместо убедительно заявляя: «Гуандун — это не Харбин». Столица провинции — Харбин».

Подписка на Claude Pro стоит около 20 долларов, и ее можно использовать в пять раз чаще, чем бесплатную версию, а количество сообщений, которые может отправить средний пользователь, будет варьироваться в зависимости от длины сообщения. Клод отправит напоминание, когда останется 10 сообщений.

Если длина вашего разговора составляет около 200 английских предложений по 15–20 слов каждое, вы можете отправлять не менее 100 сообщений каждые 8 часов. Если вы загрузите документ такого размера, как «Великий Гэтсби», вы сможете отправить только 20 сообщений в течение следующих 8 часов.

Помимо обычных пользователей, Claude 2.1 также запустил бета-версию под названием «Использование инструментов», основанную на потребностях разработчиков, позволяющую разработчикам интегрировать Claude в существующие процессы, продукты и API пользователей.

Другими словами, Claude 2.1 может вызывать функции программы, определенные разработчиком, или использовать интерфейсы API, предоставляемые сторонними сервисами, запрашивать информацию у поисковых систем для ответа на вопросы, подключаться к частным базам данных и получать информацию из базы данных.

Вы можете определить набор инструментов, которые будет использовать Клод, и указать запросы. Затем Клод решит, какие инструменты необходимы для выполнения задачи и выполнения действий от их имени, например, использование калькуляторов для выполнения сложных числовых рассуждений, преобразование запросов на естественном языке в структурированные вызовы API и т. д.

Anthropic также внес ряд улучшений, чтобы лучше обслуживать разработчиков Claude API.Результаты следующие:

Консоль разработчика оптимизирует взаимодействие и пользовательский интерфейс, чтобы сделать разработку на основе Claude API более удобной.
Легче тестировать новые подсказки (вводные подсказки/вопросы), что способствует постоянному совершенствованию модели.
Разрешить разработчикам выполнять итерации и пробовать разные подсказки в изолированной среде.
Для разных проектов можно создать несколько подсказок и быстро переключаться между ними.
Изменения в подсказке будут автоматически сохраняться для облегчения возврата.
Поддерживает интеграцию сгенерированного кода в SDK и применение его в реальных проектах.

Кроме того, в Клоде 2.1 также представлена функция «Системная подсказка», которая представляет собой способ предоставления контекста и инструкций Клоду, позволяя Клоду более стабильно сохранять свою личность во время ролевой игры, сохраняя при этом индивидуальность и креативность в диалоге. Конечно, в отличие от простых приложений Prompt, эта функция в основном предназначена для разработчиков и опытных пользователей и используется в интерфейсе API, а не на веб-странице.

Как и Claude 2.0, Claude 2.1 стоит 8 долларов за вход 1 миллиона токенов, что на 2 доллара дешевле, чем GPT-4 Turbo, а выход — 24 доллара, что на 6 долларов дешевле, чем GPT-4 Turbo. Версия Claude Instant, подходящая для низкой задержки и высокой пропускной способности, стоит 1,63 доллара США за 1 миллион входных токенов и 5,51 доллара США за выход.

ChatGPT убийца или замена?

На данный момент, хотя Claude 2.1 очень мощный, он может служить заменой ChatGPT только тогда, когда он не работает. Если использовать приблизительную аналогию, Claude 2.1 похож на нищенскую версию GPT-4.

В качестве примера возьмем 200K, с которым Claude 2.1 Pro лучше всего справляется. Pro все равно лучше, намного уступает GPT-4 Turbo.

После конференции разработчиков OpenAI пользователь сети Грег Камрадт протестировал способность GPT-4-128K к контекстному вызову. Используя 218 статей Пола Грэма (известного американского программиста) для очистки 128 КБ текста, он случайным образом вставил фактическое утверждение в разные позиции этих статей (от 0% вверху до 100% внизу): «На Солнечный день. В наши дни в Сан-Франциско лучше всего есть сэндвич в Долорес-парке».

Затем он попросил модель GPT-4 Turbo получить утверждение факта и ответить на связанные с ним вопросы, и, наконец, использовал метод оценки искусственного интеллекта LangChain, обычно используемый в отрасли, для оценки полученных ответов.

▲Зеленый цвет означает более высокую точность поиска, красный — более низкую точность.Фото: @LatentSpace2000

Результаты оценки показаны на рисунке выше.GPT-4 Turbo может поддерживать высокую точность памяти в пределах длины токена 73 КБ. Если информация находится в начале документа, ее всегда можно получить, независимо от длины контекста. Только когда информация, которую необходимо отозвать, находится в диапазоне 10–50% документа, точность GPT-4 Turbo начинает снижаться.

Для сравнения, этот пользователь сети также заранее получил квалификацию для внутреннего тестирования Claude 2.1 Pro, а также провел тест «иголкой в стоге сена». Судя по результатам оценки, в документе длиной 200 000 токенов (около 470 страниц), таком как GPT-4 Turbo, эффект отзыва информации в передней части документа Claude 2.1 Pro хуже, чем в задней.

▲Зеленый цвет означает более высокую точность поиска, а красный — более низкую точность поиска.

Однако диапазон, в котором Claude 2.1 Pro имеет лучший эффект длины контекста, находится до 24 КБ, что намного ниже, чем 73 КБ GPT-4 Turbo. После превышения 24К производительность памяти Клода 2.1 Pro начинает существенно снижаться, после 90К эффект становится хуже и частота ошибок значительно возрастает.

Видно, что по мере увеличения длины контекста точность обнаружения как GPT-4 Turbo, так и Claude 2.1 Pro постепенно снижается. Хотя тест Claude 2.1 Pro охватывает более широкую контекстную длину, GPT-4 Turbo все равно должен догнать Claude 2.1 Pro по сравнению с более практической точностью.

Клод, пожалуй, одна из самых сильных крупных моделей в бесплатной версии. Если вы работаете с текстовыми сообщениями, то при сбое ChatGPT Claude, сравнимый с GPT-3.8, может решить ваши насущные потребности или даже работать лучше.

Однако персонализированные GPT, DALL·E3 для удобного создания изображений, голосовая связь и другие функции — это редкие возможности ChatGPT. Перед лицом мощного GPT-4 Turbo модернизированной версии Claude 2.1 Pro также предстоит победить.

Наконец, вот ссылка на опыт Клода: https://claude.ai/login. Если ChatGPT снова выйдет из строя, расслабьтесь, по крайней мере, у вас все еще есть Клод.

# Добро пожаловать на официальную общедоступную учетную запись aifaner в WeChat: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo