170 000 пиратских книг — секрет того, как «ChatGPT» становятся умными

«Настоящий Молот» наконец-то здесь.

В июле этого года на OpenAI и Meta подали в суд три американских писателя Сара Сильверман, Кристофер Голден и Ричард Кадри, утверждая, что обе компании использовали их книги в качестве материалов для обучения больших моделей без согласия автора.

▲ Актриса, автор Сара Сильверман и ее автобиография, картинка из Vulture

доказательство?

В деле OpenAI после того, как истцы ввели подсказки, ChatGPT смог обобщить содержание их книг.

В случае с Meta в статье о большой модели Meta LLaMA написано, что ее обучающие данные включают в себя материал под названием «ThePile», организованный EleutherAI.

«ThePile» также включает в себя набор данных под названием «Books3», содержимое которого в точности соответствует данным Bibliotik, онлайн-библиотеки ресурсов пиратских книг.

Видно, что доказательства, представленные истцом на тот момент, были относительно «косвенными».

На данный момент автор и программист Алекс Рейснер официально раскрыл, книги каких авторов были украдены для большой модели Meta.

Удивительно то, что эти «улики» все время выходили на поверхность, но не обнаруживались.Почему?

Даже создатели материалов, нарушающих авторские права, всегда утверждали, что это «справедливо».

170 000 пиратских книг

«Большой проект» Алекса Рейснера родился из любопытства:

Мне, как писателю и программисту, всегда было любопытно, по каким книгам обучают генеративным системам искусственного интеллекта.

Этим летом Райснер начал искать ответы в таких сообществах, как GitHub и Hugging Face, и наконец нашел набор данных с открытым исходным кодом «ThePile», о котором мы упоминали выше.

Однако загрузка в «ThePile» не означает, что вы можете знать, какие книги есть в «Books3».

Прежде всего, поскольку «ThePile» имеет размер 800 ГБ, он слишком велик для чтения обычными текстовыми редакторами. Рейснер написал серию программ, позволяющих извлекать информацию из «Книг3».

▲ Изображение с сайта Unsplash

Неожиданно в извлеченной информации нет данных с такими тегами, как «название книги» и «имя автора», а все просто «текст».

Итак, Рейснер написал еще одну программу для извлечения номера ISBN (международного стандартного номера книги) из данных и сравнил данные с другими онлайн-книжными базами данных, чтобы определить конкретные книги, включенные в «Books3».

В итоге на этом этапе было найдено 190 000 кодов ISBN, идентифицировано 170 000 соответствующих названий книг (фактическое количество книг может быть немного меньше этого числа, поскольку существуют разные издания одной и той же книги), а еще 20 000 кодов были не найдены. соответствующее название книги.

Около 1/3 этих книг — художественная литература, а 2/3 — научно-популярная литература от больших и малых издателей.

Да, эти идентифицированные книги также включают книги трех авторов, которые подали в суд на OpenAI и Meta в начале статьи, поэтому можно сказать, что LLaMA Меты использовала пиратские книги в качестве учебных материалов, что является прямым доказательством.

Кроме того, мы также можем увидеть Елену Ферранте, автора «Моей гениальной подруги», Маргарет Этвуд, автора «Рассказа служанки», Стивена Кинга, Харуки Мураками, знаменитую еду и напитки. Многочисленные работы автора Майкла Поллана, автора триллеров Джеймса Паттерсона. , и другие.

▲ Маргарет Этвуд и более 8000 писателей также написали совместное письмо, требующее от компаний, занимающихся искусственным интеллектом, получить разрешение от писателей, прежде чем они смогут использовать книги в качестве учебных материалов.

Помимо книг известных авторов, Райснер также нашел 102 бульварных романа Рона Хаббарда, основателя саентологии, и 90 книг Джона Ф. Артура, а также несколько работ Эриха фон Дэникена, сторонника «теории создания инопланетян». ".

Рейснер отметил в статье «Atlantic Monthly» , что, хотя набор данных «Books3» малоизвестен за пределами AI-сообщества, он довольно популярен в этом кругу: «Его можно скачать, но найти немного сложно». … Если вы хотите просматривать и анализировать, это одинаково сложно».

Впервые Рейснер потратил столько времени на написание программы для анализа сравнения, а также тщательно написал статью и опубликовал ее в средствах массовой информации.

В то же время круг ИИ также негласно поддерживает «Книги3», поскольку, по словам создателя «Книг3» — это важный ресурс, гарантирующий, что развитие генеративного ИИ не будет монополизировано. крупными компаниями.

«Огненный вор» или «Вор»?

▲Фото взято из «The Atlantic Monthly».

Действительно, было бы лучше, если бы нам не требовалось что-то вроде Books3.

Но дело в том, что без Books3 только OpenAI может делать то, что они делают.

Инди-разработчик Шон Прессер, создатель «Books3», рассказал Рейснеру.

Прессер начал создавать Books3, чтобы предоставить всем разработчикам «данные обучения на уровне OpenAI».

В 2020 году Прессер скачал копию Bibliotik и переписал программу, написанную хакером Аароном Шварцем более десяти лет назад, для преобразования всех книг в формате ePub в обычный текст — формат, более подходящий для больших моделей.

Что касается отсутствия информации об авторских правах для некоторых книг в наборе данных, Прессер заявил, что это был неожиданный результат конвертации, а не преднамеренный.

Название «Books3» также перекликается с «Books1» и «Books2», упомянутыми OpenAI.

В 2020 году в документе OpenAI указывалось, что данные обучения GPT-3 включают две коллекции данных из интернет-книг.

Судя по размеру, люди предполагают, что данные OpenAI «Books1» поступают из «Project Gutenberg» — проекта, который специализируется на сборе книжных ресурсов, авторские права на которые истекли.

Каково содержание «Книги2», неизвестно, и по размеру некоторые догадались, что оно похоже на данные Bibliotik или пиратской онлайн-библиотеки Либгена.

Конечно, помимо данных книги, GPT-3 в то время использовал и другие данные, такие как Википедия и другая текстовая информация, взятая из Интернета.

Вот почему «ThePile», интегрированный EleutherAI, также содержит множество других данных, таких как Википедия, субтитры к видеороликам YouTube, документы и стенограммы Европейского парламента и так далее.

Несмотря на это, высококачественный текст книг все еще кажется важным по сравнению с ним.

Мета заявила , что оригинальная крупномасштабная модель LlaMA-65B не показала хороших результатов, главным образом потому, что в ней «использовалось ограниченное количество книг и научных статей».

В документе MIT-Cornell также отмечается, что книги «оказывают сильнейшее положительное влияние на производительность последующих этапов» в данных обучения больших моделей.

Итак, мы увидим «ThePile» и «Books3» в обучающих данных LlaMA 2, позже запущенных Meta.

▲ Изображение из CNN

Вот почему Прессер был возмущен, когда Books3 был недавно закрыт после жалобы датской антипиратской группы Rights Alliance .

По его мнению, все крупные коммерческие компании используют контент, нарушающий авторские права, для частного обучения своих крупных моделей, но поскольку они не раскрывают свои данные обучения, никто не может подать на них в суд.

Однако Books3 сняли с прилавков именно потому, что он хотел сделать большую модель более открытой и прозрачной и активно раскрывал источник данных.

Прессер подчеркивает, что мы не можем позволить крупным компаниям с глубокими карманами монополизировать эту важную технологию, которая меняет нашу культуру, но позвольте каждому иметь ресурсы для создания своих собственных больших моделей :

Моя цель — сделать (создать эти большие модели) доступными для всех.

Если у автора книги нет способа отключить ChatGPT или подать на него в суд с требованием закрыть его, очень важно, чтобы мы с вами могли создать свой собственный ChatGPT.

Как и в 90-х, важно сделать так, чтобы каждый мог создать свой собственный веб-сайт.

Что касается подачи в суд на ChatGPT в автономном режиме, это возможно.

Все судятся с ИИ-гигантами

▲ OpenAI больше не является «открытым» и непрозрачным.Картинка предоставлена ​​Politico .

Иск, инициированный звездным писателем, может привлечь больше внимания, но именно традиционные средства массовой информации могут подать в суд на ChatGPT за «переделку».

На прошлой неделе NPR сообщило , что The New York Times рассматривает возможность подать в суд на OpenAI, ссылаясь на людей, знакомых с этим вопросом.

Последние несколько недель The New York Times вела переговоры о лицензионном соглашении с OpenAI. Однако переговоры, похоже, шли не очень хорошо, поэтому New York Times начала рассматривать возможность подать в суд на OpenAI за нарушение авторских прав.

Согласно докладу, федеральный закон об авторском праве предусматривает, что нарушители могут быть оштрафованы на сумму до $150 000 за каждое «намеренное» нарушение. В сочетании с количеством статей в New York Times эта сумма «может оказаться фатальной для компании».

Кроме того, если судья решит, что OpenAI незаконно воспользовалась статьей New York Times для обучения большой модели, суд также может обязать OpenAI уничтожить набор данных ChatGPT, заставив его переобучиться и создавать ChatGPT только с авторизованными произведениями.

▲ Изображение из BrookField

Независимо от того, является ли истцом The New York Times или писатель книг, успех этих исков (или потенциальных исков) будет зависеть от того, смогут ли гиганты ИИ охарактеризовать использование этой информации как «добросовестное использование», то есть при определенных условиях. При определенных обстоятельствах может быть разрешено несанкционированное использование определенных произведений, например, для преподавания, комментариев, исследований и репортажей.

Есть два аргумента в пользу «добросовестного использования»:

  • Генеративные ИИ не воспроизводят сами книги, по которым они обучались, а создают новый контент;
  • Этот новый контент не повредит рынку оригинальных работ.

Джейсон Шульц, директор Клиники технологического права и политики Нью-Йоркского университета, говорит, что аргументы веские, когда речь идет о краже книг.

Но юристы New York Times настаивали на том, что использование газетной статьи OpenAI не квалифицируется как «добросовестное использование».

Если пользователи смогут получать описания новостных событий, упомянутых в статьях, через чат-ботов с искусственным интеллектом, пользователи могут больше не читать статьи, поэтому это может стать заменой новостных статей и повлиять на исходный рынок.

Юридический блоггер Фан Бэйл отметил , что закон об интеллектуальной собственности не статичен, но его суть неизменна – процветание креативного рынка.

Если даже компания, занимающаяся искусственным интеллектом, стоимостью в десятки миллиардов долларов, сможет бесплатно использовать произведения, на создание которых писатели потратили годы, не платя ни единой платы за авторские права, и даже украсть эти книги для обучения инструментам, которые намерены заменить писателей, это было бы большим достижением. Это, несомненно, смертельный удар для создателей.

Проблема «несправедливости данных», о которой говорил Прессер, не должна служить оправданием нарушения прав создателей.

Вопросы авторского права в конечном итоге станут одним из ключевых факторов, определяющих, насколько далеко сможет зайти ИИ.

По словам Дэниела Жерве, содиректора Программы интеллектуальной собственности Университета Вандербильта:

Закон об авторском праве — это меч, который висит над компаниями, занимающимися искусственным интеллектом, и если они не придумают, как договориться о решении, этот меч будет висеть над ними долгие годы.

Все это только начало нового этапа.

✍ ✍ ✍

Наконец, для справки мы разобрались с некоторыми из текущих исков о нарушении прав компаний, занимающихся ИИ.

#Добро пожаловать в официальный публичный аккаунт Айфанер в WeChat: Айфанер (идентификатор WeChat: ifanr), в ближайшее время вам будет представлен более интересный контент.

Ай Фанер | Оригинальная ссылка · Просмотреть комментарии · Sina Weibo