Сообщается, что Nvidia поймала на сборе данных искусственного интеллекта с Netflix и YouTube (снова)

6 августа, 2024 Дядя Влад

Генеральный директор Nvidia Дженсен на заднем плане. — Нвидиа

Согласно разоблачительному отчету 404 Media , подкрепленному внутренними чатами Slack, электронными письмами и документами, полученными изданием, Nvidia помогла себе «визуальный опыт всей жизни человека, стоящий обучающих данных в день», — Минг-Ю Лю, вице-президент компании Исследования в Nvidia и руководитель проекта Cosmos, признались в майском электронном письме.

Бывшие сотрудники Nvidia, имена которых не названы, рассказали 404, что их попросили извлечь видеоконтент из Netflix, YouTube и других онлайн-источников, чтобы получить данные обучения для использования с различными продуктами компании на базе искусственного интеллекта. К ним относятся генератор трехмерного мира Omniverse от Nvidia, беспилотные автомобильные системы и «цифровой человек».

Когда эти сотрудники спросили о законности проекта, получившего внутреннее название Cosmos, руководство заверило их, что высшие уровни компании дали им разрешение на использование этого контента.

Проект стремился создать базовую модель, подобную Gemini 1.5 , GPT-4 или Llama 3.1 , «которая объединяет моделирование переноса света, физику и интеллект в одном месте, чтобы разблокировать различные последующие приложения, критически важные для Nvidia».

Для этого проект Cosmos якобы использовал загрузчик видео с открытым исходным кодом и применил машинное обучение для перехода по IP, тем самым избежав попыток YouTube заблокировать его. Согласно электронным письмам, просмотренным 404, менеджеры проектов обсуждали возможность использования до 30 виртуальных машин, работающих на Amazon Web Services, для ежедневной загрузки полнометражных и клиповых видеороликов за 80 лет.

Со своей стороны, Nvidia не заявляет о каких-либо нарушениях. «Мы уважаем права всех создателей контента и уверены, что наши модели и наши исследовательские усилия полностью соответствуют букве и духу закона об авторском праве», — сообщил 404 Media по электронной почте представитель Nvidia. «Закон об авторском праве защищает конкретные выражения, но не факты, идеи, данные или информацию. Любой человек волен изучать факты, идеи, данные или информацию из других источников и использовать их для выражения собственных мыслей. Добросовестное использование также защищает возможность использовать произведение в преобразующих целях, например, для обучения моделей».

Это далеко не первый случай, когда Nvidia (не говоря уже о подавляющем большинстве остальных представителей области ИИ) применяет подход «сначала поцарапать, а потом, возможно, попросить прощения» в своих усилиях по обучению ИИ. В июле компания Nvidia была упомянута в другом отчете о незаконном извлечении видео, защищенных авторским правом, наряду с Anthropic и Salesforce.

На выставке CES 2024 компания вызвала бурю интернет-штормов своими неоднозначными ответами о том , как обучался ее новый генеративный ИИ для игрового движка . В ответ Nvidia подтвердила, что ее инструменты « коммерчески безопасны ».