Meta хочет дополнить Википедию обновлением искусственного интеллекта

В Википедии есть проблема. И у Meta, недавно переименованной в Facebook, может быть ответ.

Давайте резервную копию. Википедия — один изкрупнейших совместных проектов в истории человечества, в котором более 100 000 редакторов-добровольцев участвуют в создании и поддержании невероятно большой многоязычной энциклопедии, состоящей из миллионов статей. Ежемесячно в Википедию добавляется более 17 000 новых статей, а в существующий корпус статей постоянно вносятся исправления и модификации. Самые популярные статьи Вики были отредактированы тысячи раз, отражая самые последние исследования, идеи и самую последнюю информацию.

Проблема, конечно, в точности. Само существование Википедии является убедительным доказательством того, что большое количество людей могут объединиться, чтобы создать что-то позитивное. Но чтобы быть действительно полезными, а не расползающейся стеной граффити бездоказательных утверждений, статьи в Википедии должны быть подкреплены фактами. Вот тут-то и появляются цитаты. Идея — и по большей части это работает очень хорошо — заключается в том, что пользователи и редакторы Википедии могут подтверждать факты, добавляя или щелкая гиперссылки, которые отслеживают утверждения до их источника.

Нужна цитата

Скажем, например, я хочу подтвердить запись в статье президента Барака Обамы в Википедии , в которой говорится, что Обама путешествовал в Европу, а затем в Кению в 1988 году, где он впервые встретил многих своих родственников по отцовской линии. Все, что мне нужно сделать, это просмотреть цитаты для этого предложения, и, конечно же, есть три отдельные ссылки на книги, которые, по-видимому, подтверждают, что этот факт подтверждается.

Напротив, фраза «необходима цитата», вероятно, является двумя самыми убийственными во всей Википедии, именно потому, что они предполагают, что нет никаких доказательств того, что автор не выдумал слова из цифрового эфира. Слова «необходима цитата», добавленные к утверждению Википедии, эквивалентны рассказу кому-то факта, когда он цитирует пальцем в воздухе.

логотип википедии на розовом фоне

Цитаты, однако, не говорят нам всего. Если бы я сказал вам, что в прошлом году я был 23-м самым высокооплачиваемым техническим журналистом в мире и что однажды я отказался от прибыльной модельной карьеры , чтобы писать статьи для Digital Trends, это выглядело бы правдоподобно, потому что есть гиперссылки в поддержку мои заблуждения.

Тот факт, что гиперссылки вообще не подтверждают мои альтернативные факты, а скорее ведут на несвязанные страницы в Digital Trends, раскрывается только тогда, когда вы нажимаете на них. У 99,9 % читателей, которые никогда со мной не встречались, эта статья может оставить массу ложных впечатлений, не последним из которых является удивительно низкий барьер для входа в модельный мир. В гиперссылочном мире информационной перегрузки, в котором мы все чаще плескаемся в том, что Николас Карр называет « Отмели », само существование цитат кажется фактическим подтверждением.

Мета пробирается в

Но что, если цитаты добавляются редакторами Википедии, даже если они не ссылаются на страницы, которые на самом деле подтверждают утверждения? В качестве иллюстрации недавняя статья в Википедии о члене племени черноногих Джо Хиппе описала, как Хипп был первым индейским боксером, который боролся за титул чемпиона мира по версии WBA в супертяжелом весе, и дал ссылку на подходящую веб-страницу. Однако на рассматриваемой веб-странице не упоминались ни бокс, ни Джо Хипп.

В случае утверждения Джо Хиппа фактоид Википедии был точным, даже если цитата была неуместной. Тем не менее, легко понять, как это можно использовать, преднамеренно или иным образом, для распространения дезинформации.

Марк Цукурбург представляет новое имя Facebook — Meta.

Именно здесь Мета думает, что придумала способ помочь. Работая с Фондом Викимедиа, Meta AI (это научно-исследовательская лаборатория искусственного интеллекта для гиганта социальных сетей) разработала то, что, как она утверждает, является первой моделью машинного обучения, способной автоматически сканировать сотни тысяч ссылок одновременно, чтобы проверить, поддерживают ли они соответствующие претензии. Хотя это далеко не первый бот, который использует Википедия , он может быть одним из самых впечатляющих.

«Я думаю, что в конце концов нами руководило любопытство», — сказал Digital Trends Фабио Петрони , ведущий технический менеджер FAIR (фундаментальные исследования ИИ) команды Meta AI. «Мы хотели увидеть, каков предел этой технологии. Мы были абсолютно не уверены, сможет ли [этот ИИ] сделать что-нибудь значимое в этом контексте. Никто никогда не пытался сделать что-то подобное [раньше]».

Понимание смысла

Новый инструмент Meta, обученный с использованием набора данных, состоящего из 4 миллионов цитат из Википедии, способен эффективно анализировать информацию, связанную с цитатой, а затем сопоставлять ее с подтверждающими доказательствами. И это не просто сравнение текстовых строк.

«Есть такой компонент, [смотрящий] на лексическое сходство между утверждением и источником, но это простой случай», — сказал Петрони. «С помощью этих моделей мы построили индекс всех этих веб-страниц, разбив их на отрывки и предоставив точное представление для каждого отрывка… Это не дословное представление отрывка, а смысл отрывка. . Это означает, что два куска текста со схожим значением будут представлены в очень близком положении в результирующем n-мерном пространстве, где хранятся все эти отрывки».

однопанельный комикс от xkcd о цитатах из Википедии
хккд

Однако не менее впечатляющим, чем способность обнаруживать мошеннические цитаты, является потенциал инструмента для предложения лучших ссылок. Развернутый в качестве производственной модели, этот инструмент может помочь предложить ссылки, которые лучше всего иллюстрируют определенный момент. В то время как Petroni возражает против того, чтобы его уподобляли фактической проверке орфографии, помечая ошибки и предлагая улучшения, это простой способ подумать о том, что он может сделать.

Но, как объясняет Петрони, предстоит еще много работы, прежде чем он достигнет этой точки. «То, что мы построили, — это доказательство концепции», — сказал он. «На данный момент это не очень удобно. Чтобы это можно было использовать, вам нужен новый индекс, который индексирует гораздо больше данных, чем у нас есть в настоящее время. Он должен постоянно обновляться, и каждый день поступать новая информация».

Это может, по крайней мере теоретически, включать не только текст, но и мультимедиа. Возможно, на YouTube есть отличный авторитетный документальный фильм, к которому система могла бы направить пользователей. Возможно, ответ на конкретное утверждение скрыт в изображении где-то в Интернете.

Вопрос качества

Есть и другие проблемы. Примечательным отсутствием, по крайней мере в настоящее время, является любая попытка независимой оценки качества цитируемых источников. Это тернистая область сама по себе. В качестве простой иллюстрации, будет ли краткая, мимолетная ссылка на тему, скажем, в « Нью-Йорк Таймс» , более подходящей и качественной цитатой, чем более полный, но менее известный источник? Должна ли мейнстримная публикация иметь более высокий рейтинг, чем не мейнстримная?

Алгоритм Google PageRank стоимостью в триллион долларов — безусловно, самый известный алгоритм, когда-либо построенный на основе цитирований, — включил это в свою модель, по сути, приравнивая высококачественный источник к источнику с большим количеством входящих ссылок. В настоящее время в ИИ Меты нет ничего подобного.

Если этот ИИ должен был работать как эффективный инструмент, он должен был иметь что-то подобное. В качестве очень очевидного примера того, почему, представьте, что кто-то должен был «доказать» самое вопиющее и предосудительное мнение для включения на страницу Википедии. Если единственным доказательством, необходимым для подтверждения того, что что-то является правдой, является то, можно ли найти подобные высказывания в других местах в Интернете, то практически любое утверждение может быть технически верным, каким бы ошибочным оно ни было.

«[Одна область, которая нас интересует] — это попытка явно смоделировать надежность источника, надежность домена», — сказал Петрони. «Я думаю, что в Википедии уже есть список доменов, которые считаются заслуживающими доверия, и доменов, которые считаются нет. Но вместо того, чтобы иметь фиксированный список, было бы неплохо, если бы мы могли найти способ продвигать их алгоритмически».