Новый искусственный интеллект Facebook переводит на 100 языков

Facebook представила новую модель искусственного интеллекта с открытым исходным кодом, которая может переводить на 100 разных языков. Его модели искусственного интеллекта даже не требуется преобразовывать существующий текст на английский язык, что обеспечивает более эффективный и точный перевод.

Представляем новый способ перевода текста

В сообщении блога About Facebook платформа подробно описала свою новую модель многоязычного машинного перевода (MMT), также известную как M2M-100. Достаточно впечатляюще, что эта модель машинного обучения с открытым исходным кодом «может переводить между любой парой из 100 языков, не полагаясь на данные на английском».

Хотя это все еще исследовательский проект, он многообещающий. Анджела Фан, научный сотрудник Facebook, отметила, что «типичные» модели машинного перевода используют разные модели для каждого языка, что делает их невероятно неэффективными для больших платформ, таких как Facebook.

Даже продвинутые модели не годятся, поскольку они используют английский как посредник между языками. Это означает, что система должна сначала перевести исходный текст на английский, а затем перевести его на целевой язык.

Модели, основанные на английском, не дают лучших переводов. Поклонник отмечает, что, убрав английский язык со сцены, система MMT Facebook может производить более точные переводы, заявляя:

При переводе, скажем, с китайского на французский, большинство многоязычных моделей, ориентированных на английский, обучаются с китайского на английский и с английского на французский, потому что данные обучения английскому языку являются наиболее доступными. Наша модель напрямую тренирует данные с китайского на французский, чтобы лучше сохранить смысл.

Таким образом, вместо использования английского в качестве связующего звена, модель MMT от Facebook может переводить туда и обратно между 100 различными языками. По словам Фана, Facebook создал «самый разнообразный на сегодняшний день набор данных MMT« многие ко многим »», который состоит из 7,5 миллиардов пар предложений для 100 языков.

Чтобы добиться этого, исследовательская группа собрала данные о языковых переводах в Интернете, сосредоточив внимание в первую очередь на языках, «с которыми работает больше всего запросов на перевод». Затем исследователи классифицировали эти языки на 14 групп на основе общих характеристик.

Отсюда исследователи установили языки-мосты для каждой группы и собрали обучающие данные для всех возможных комбинаций. Это привело к 7,5 миллиардам параллельных предложений по 2200 направлениям.

Что касается языков, которые не так широко распространены, Facebook использовал так называемый обратный перевод для создания синтетических переводов.

Весь этот процесс приближает команду ИИ Facebook к их цели по созданию «единой модели, поддерживающей все языки, диалекты и модальности».

Facebook становится все ближе к тому, чтобы предоставлять лучшие переводы

Facebook уже выполняет 20 миллиардов переводов каждый день в своей ленте новостей, а искусственный интеллект Facebook только сделает этот процесс более эффективным. Хотя новая модель перевода еще не реализована, она определенно пригодится международным пользователям Facebook, которым нужны конкретные переводы.