57% Интернета, возможно, уже представляет собой отстой искусственного интеллекта

пузырь слов cgi
Google Deepmind/Пексели

Это касается не только вас — результаты поиска действительно становятся хуже. Исследователи Amazon Web Services (AWS) провели исследование , согласно которому сегодня 57% контента в Интернете либо создается искусственным интеллектом, либо переводится с использованием алгоритма искусственного интеллекта.

В исследовании, озаглавленном « Шокирующее количество Интернета переводится машинно: выводы из многостороннего параллелизма », утверждается, что недорогой машинный перевод (MT), который берет определенный фрагмент контента и воспроизводит его на нескольких языках, является главный виновник. «Машинно-генерируемые многосторонние параллельные переводы не только доминируют в общем объеме переведенного контента в сети на языки с меньшими ресурсами, где доступен машинный перевод; он также составляет значительную часть общего веб-контента на этих языках», — пишут исследователи в исследовании.

Они также обнаружили доказательства предвзятости выбора в том, какой контент переводится автоматически на несколько языков по сравнению с контентом, опубликованным на одном языке. «Этот контент короче, более предсказуем и имеет иное тематическое распределение по сравнению с контентом, переведенным на один язык», — пишут исследователи.

Более того, растущее количество контента, создаваемого ИИ в Интернете, в сочетании с растущей зависимостью от инструментов ИИ для редактирования и манипулирования этим контентом может привести к явлению, известному как коллапс модели, и уже снижает качество результатов поиска в сети. Учитывая, что передовые модели искусственного интеллекта, такие как ChatGPT , Gemini и Claude, полагаются на огромные объемы обучающих данных, которые можно получить только путем очистки общедоступной сети (независимо от того, нарушает ли это авторские права или нет), наполнение общедоступной сети созданными искусственным интеллектом и часто неточный контент может серьезно ухудшить их производительность.

«Удивительно, как быстро наступает коллапс модели и насколько неуловимым он может быть», — сказал Windows Central доктор Илья Шумайлов из Оксфордского университета. «Во-первых, это влияет на данные меньшинства — данные, которые плохо представлены. Затем это влияет на разнообразие выходных данных, и дисперсия уменьшается. Иногда вы наблюдаете небольшое улучшение для большинства данных, которое скрывает снижение производительности для данных меньшинства. Крах модели может иметь серьезные последствия».

Исследователи продемонстрировали эти последствия, попросив профессиональных лингвистов классифицировать 10 000 случайно выбранных английских предложений по одной из 20 категорий. Исследователи наблюдали «резкий сдвиг в распределении тем при сравнении двух- и восьми+ параллельных данных (т.е. количества языковых переводов), причем доля тем «разговоров и мнений» увеличилась с 22,5% до 40,1%» от опубликованных. .

Это указывает на предвзятость выбора типа данных, которые переводятся на несколько языков, что «значительно более вероятно» относится к теме «разговор и мнение».

Кроме того, исследователи обнаружили, что «параллельные переводы с большим количеством процессов имеют значительно более низкое качество (на 6,2 балла хуже по шкале Comet Quality Estimation ), чем двусторонние параллельные переводы». Когда исследователи проверили 100 многовариантных параллельных предложений (переведенных более чем на восемь языков), они обнаружили, что «подавляющее большинство» поступило из контент-ферм со статьями, «которые мы охарактеризовали как низкокачественные, не требующие или практически не требующие специальных знаний». или продвигать усилия по созданию».

Это, безусловно, помогает объяснить, почему генеральный директор OpenAI Сэм Альтман продолжает говорить о том, что «невозможно» создавать такие инструменты, как ChatGPT, без свободного доступа к произведениям, защищенным авторским правом.