Apple опровергает сообщения о том, что ее ИИ обучался на видео на YouTube

18 июля, 2024 Дядя Влад

Обновление : Apple с тех пор подтвердила 9to5Mac , что языковая модель OpenELM , обученная на субтитрах YouTube, не использовалась для работы какой-либо из ее программ искусственного интеллекта или машинного обучения, включая Apple Intelligence. Apple заявляет, что OpenELM был создан исключительно для исследовательских целей и не получит будущих версий. Оригинальная история, опубликованная 16 июля 2024 года, приведена ниже:

Apple — последняя из длинной череды разработчиков генеративного искусственного интеллекта (список почти так же стар, как сама отрасль), которых поймали на сборе контента, защищенного авторским правом, из социальных сетей с целью обучения своих систем искусственного интеллекта .

Согласно новому отчету Proof News, Apple использовала набор данных, содержащий субтитры 173 536 видеороликов YouTube, для обучения своего ИИ. Однако Apple не одинока в этом нарушении, несмотря на особые правила YouTube, запрещающие использование таких данных без разрешения. Другие тяжеловесы в области искусственного интеллекта также были уличены в его использовании, в том числе Anthropic , Nvidia и Salesforce .

Набор данных, известный как субтитры YouTube, содержит расшифровки видео с более чем 48 000 каналов YouTube, от Академии Хана, Массачусетского технологического института и Гарварда до The Wall Street Journal, NPR и BBC. Даже стенограммы ночных развлекательных шоу, таких как «Позднее шоу со Стивеном Колбертом», «Сегодня вечером на прошлой неделе с Джоном Оливером» и «Джимми Киммел в прямом эфире», являются частью базы данных субтитров YouTube. Видео влиятельных лиц YouTube, таких как Маркес Браунли и MrBeast, а также ряда сторонников теории заговора, также были удалены без разрешения.

Сам набор данных, составленный стартапом EleutherAI, не содержит видеофайлов, однако включает ряд переводов на другие языки, включая японский, немецкий и арабский. Сообщается, что EleutherAI получил свои данные из более крупного набора данных, получившего название Pile, который сам был создан некоммерческой организацией, которая извлекла свои данные не только из YouTube, но также из записей Европейского парламента и Википедии.

Bloomberg , Anthropic и Databricks также обучали модели на Pile, свидетельствуют соответствующие публикации компаний. «The Pile включает в себя очень небольшую часть субтитров YouTube», — сказала Дженнифер Мартинес, представитель Anthropic, в заявлении для Proof News. «Условия YouTube распространяются на прямое использование его платформы, что отличается от использования набора данных The Pile. Что касается потенциальных нарушений условий обслуживания YouTube, нам придется направить вас к авторам The Pile».

Если оставить в стороне технические аспекты, то стартапы в области искусственного интеллекта, использующие содержимое открытого Интернета, стали проблемой с момента дебюта ChatGPT . Stability AI и Midjourney в настоящее время сталкиваются с иском со стороны создателей контента по поводу обвинений в том, что они без разрешения удалили свои работы, защищенные авторским правом. Сама компания Google, управляющая YouTube, в июле прошлого года подверглась коллективному иску, а затем еще одному в сентябре , который, как утверждает компания, «нанесет удар не только по сервисам Google, но и по самой идее генеративного искусственного интеллекта».

Я: Какие данные использовались для обучения Соры? YouTube видео?
Технический директор OpenAI: На самом деле я в этом не уверен…
(Я действительно советую вам посмотреть полное интервью @WSJ , где Мурати ответил на многие самые важные вопросы о Соре. Полное интервью, по иронии судьбы, на YouTube:… pic.twitter.com/51O8Wyt53c
— Джоанна Стерн (@JoannaStern) 14 марта 2024 г.

Более того, те же самые компании, занимающиеся искусственным интеллектом, испытывают серьезные трудности с указанием того, откуда они получают данные для обучения. В интервью Джоанне Стерн из The Wall Street Journal в марте 2024 года технический директор OpenAI Мира Мурати неоднократно запиналась, когда ее спрашивали, использует ли ее компания видео с YouTube, Facebook и других социальных сетей для обучения своих моделей. «Я просто не буду вдаваться в подробности использованных данных», — сказал Мурати.

А в июле этого года генеральный директор Microsoft AI Мустафа Сулейман заявил, что эфирный «социальный контракт» означает, что все, что найдено в сети, является честной добычей.

«Я думаю, что что касается контента, который уже находится в открытой сети, общественный договор этого контента с 90-х годов заключался в том, что его использование является добросовестным», — сказал Сулейман CNBC . «Любой может скопировать его, воссоздать с его помощью, воспроизвести с его помощью. Если хотите, это было бесплатное программное обеспечение, таково было понимание».