Meta выложила в открытый доступ систему прямого перевода между 204 языками
Компания Meta (деятельность компании в России запрещена) разработала и выложила в открытый доступ единую систему перевода текстов, работающую с 204 языками. Она переводит с одного языка на другой напрямую, не используя английский или другие промежуточные языки. Статья об алгоритме опубликована на сайте Meta AI, а сама модель — на GitHub.
Многие системы машинного перевода используют отдельные модели для языковых пар, например, для перевода с русского на английский. А также английский часто применяют как язык-посредник между парой языков, поскольку на нем есть больше всего текстов, особенно в интернете. Из-за этого, с одной стороны, для обучения моделей-переводчиков доступно больше данных, но с другой — неизбежно увеличивается количество неточностей и ошибок перевода.
Но есть и многоязычные и не использующие промежуточный язык модели, которые способны работать сразу с несколькими, а то и с десятком языков. В 2020 году такую систему под названием M2M представили разработчики из Facebook AI (теперь — Meta AI), тогда она поддерживала 100 языков. В начале 2022 года компания анонсировала проект No Language Left Behind (NLLB), в рамках которого она собирается создать универсальную модель машинного перевода, поддерживающую сотни языков и адаптированную для обучения малоресурсным языкам.
Теперь исследователи и разработчики из Meta AI вместе с коллегами из Калифорнийского университета в Беркли и Университета Джонса Хопкинса представили многоязычную модель NLLB-200, поддерживающую прямой перевод между 204 языками, а также датасет FLORES-200 с таким же количеством языков.
Как и многие большие языковые модели, NLLB-200 обучалась на огромном массиве данных, собранным из интернета. Но для начала разработчики собрали датасет NLLB-Seed, в который включили предложения из важнейших страниц Википедии, переведенные с английского на 39 малоресурсных языков профессиональными переводчиками. Всего в датасет вошло около шести тысяч предложений. Этот набор данных, а также уже существующие датасеты для других языков, позволил начать обучение модели.
Затем для сбора большого датасета для малоресурсных языков авторы использовали систему сбора параллельных корпусов LASER (Language-Agnostic SEntence Representations). Она берет исходное предложение на любом поддерживаемом языке и размещает его на общее векторное пространство так, что одинаковые по смыслу предложения на разных языках в нем будут располагаться очень близко, а разные — далеко:
Первая версия LASER была представлена в 2019 году, а в новой работе использовалась LASER3, в которой сделано несколько улучшений. В том числе, в ней выделили кодировщики для групп языков, а также заменили архитектуру с LSTM на Transformer.
Собрав обширные датасеты для языков, разработчики обучили единую модель NLLB-200. Чтобы оценить ее работу, они собрали еще один датасет — FLORES-200. Принцип его сбора был похож на NLLB-Seed, но он содержит три тысячи предложений на всех 204 языках, так что для оценки перевода доступно более 40 тысяч языковых пар. Проверка на этом датасете, а также на его предыдущей версии, поддерживающей 101 язык, показала, что NLLB-200 опережает предыдущий лучший многоязыковой алгоритм машинного перевода на 44 процента по метрике BLEU, которая показывает, насколько машинный перевод близок к человеческому.
Помимо статьи Meta опубликовала саму модель NLLB-200 и собранные датасеты, они доступны на GitHub.
Некоторые исследователи идут дальше в избавлении от промежуточных шагов, таких как перевод на английский. В 2019 году разработчики из Google создали систему прямого перевода устной речи: она работает со звуковыми файлами и вообще не использует текстовое представление слов.
Григорий Копиев
Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Перевод на программу — Образовательная программа «Прикладной анализ данных» — Национальный исследовательский университет «Высшая школа экономики»
Перевод на образовательную программу «Прикладной анализ данных» регламентирован следующими нормативными документами НИУ ВШЭ:
-
Правилами перевода студентов бакалавриата, специалитета, магистратуры Национального исследовательского университета «Высшая школа экономики» и студентов бакалавриата, специалитета, магистратуры других образовательных организаций в Национальный исследовательский университет «Высшая школа экономика» (далее — Правила Перевода);
-
Положением об аттестационных комиссиях образовательных программ высшего образования и порядке проведения аттестации в НИУ ВШЭ.
Сроки, условия и документы для перевода конкретизированы Внутренним порядком перевода образовательной программы .
Сведения о наличии вакантных мест для перевода публикуются здесь.
Сроки приёма заявлений о переводе на образовательную программу
- Декабрь 2022 г. — c 13 по 15 декабря при выполненном условии наличия вакантных мест для перевода
- Дополнительный период: январь 2023 г. для перевода на начало 3го модуля 2022-23 учебного года.
- Июнь 2023 г. для перевода на начало 1го модуля 2023/24 учебного года
! Вместе с подачей заявления о переводе кандидаты заполняют Форму запроса о переводе на ПАД
Заявления о переводе, поданные вне установленных сроков или после завершения установленного программой периода подачи заявлений, рассмотрению не подлежат.
С особенностями процедуры перевода на образовательную программу
студента другой образовательной программы НИУ ВШЭ
студента другой образовательной организации Российской Федерации
студента иностранной образовательной организации
можно ознакомиться на сайте НИУ ВШЭ по указанным выше ссылкам.
Обращаем внимание студентов других образовательных организаций, претендующих на перевод, что подаче заявления в учебный офис образовательной программы предшествует оформление заявки на перевод посредством специализированного электронного сервиса Единое окно для претендентов на перевод (подробнее в разделе 3 Правил перевода ). Только после прохождения технической экспертизы предоставленных кандидатом документов заявление о переводе может быть принято на программе.
Порядок подачи заявлений о переводе студентов образовательных программ НИУ ВШЭ предусматривает подачу заявления и необходимых документов непосредственно в специальный модуль в LMS.
Расписание аттестационных испытаний
Аттестационное испытание |
Формат проведения очно на кмпусе по адресу Покровский бульвар, 11 или | Дата | Время |
Адрес для очного экзамена: Покровский б-р, 11 |
Calculus | ||||
Linear Algebra and Geometry |
| |||
Programming in Python and C++ |
| |||
Discrete Mathematics | ||||
English |
|
Состав аттестационной комиссии на 2022-23 учебный год
Председатель |
Вознесенская Т. В., к.ф.-м.н., доцент департамента больших данных и информационного поиска, академический руководитель программы «Прикладной анализ данных» |
Члены комиссии |
Мажуга Андрей Михайлович, PhD, доцент департамента больших данных и информационного поиска |
Лукьянченко Петр Павлович, преподаватель департамента больших данных и информационного поиска | |
Орел Ольга Евгеньевна, приглашенный преподаватель департамента больших данных и информационного поиска | |
Секретарь | Пак Татьяна Альбертовна, начальник ОСУП в бакалавриате ФКН НИУ ВШЭ |
Бланки заявлений и документов
Заявление о переводе с других образовательных программ НИУ ВШЭ
Заявление о переводе из других образовательных организаций
Лист аттестационного испытания
↑ вернуться
Представляем первую модель ИИ, которая переводит на 100 языков, не полагаясь на английский
- Facebook AI представляет M2M-100, первую модель многоязычного машинного перевода (MMT), которая может переводить между любой парой 100 языков, не полагаясь на данные на английском языке. Это с открытым исходным кодом здесь.
- При переводе, скажем, с китайского на французский, большинство англо-ориентированных многоязычных моделей тренируются с китайского на английский и с английского на французский, поскольку данные для обучения на английском языке являются наиболее широко доступными. Наша модель напрямую обучает данные с китайского на французский, чтобы лучше сохранить смысл. Он превосходит англо-ориентированные системы на 10 баллов по широко используемой метрике BLEU для оценки машинных переводов.
- M2M-100 обучается в общей сложности 2200 языковым направлениям — или в 10 раз больше, чем предыдущие лучшие многоязычные модели, ориентированные на английский язык. Развертывание M2M-100 улучшит качество переводов для миллиардов людей, особенно для тех, кто говорит на малоресурсных языках.
- Эта веха является кульминацией многолетней фундаментальной работы искусственного интеллекта Facebook в области машинного перевода. Сегодня мы делимся подробностями о том, как мы создали более разнообразный набор данных для обучения MMT и модель для 100 языков. Мы также выпускаем модель, систему обучения и оценки, чтобы помочь другим исследователям воспроизвести и усовершенствовать многоязычные модели.
Преодоление языковых барьеров с помощью машинного перевода (MT) — один из наиболее важных способов объединить людей, предоставить достоверную информацию о COVID-19 и защитить их от вредоносного контента. Сегодня мы ежедневно выполняем в среднем 20 миллиардов переводов в ленте новостей Facebook благодаря нашим последним разработкам в области машинного перевода с низким уровнем ресурсов и недавним достижениям в области оценки качества перевода.
Типичные системы машинного перевода требуют создания отдельных моделей ИИ для каждого языка и каждой задачи, но этот подход неэффективно масштабируется на Facebook, где люди размещают контент на более чем 160 языках в миллиардах сообщений. Усовершенствованные многоязычные системы могут обрабатывать несколько языков одновременно, но снижают точность, полагаясь на данные на английском языке для преодоления разрыва между исходным и целевым языками.
Нам нужна одна модель многоязычного машинного перевода (MMT), которая может переводить любой язык, чтобы лучше обслуживать наше сообщество, почти две трети которого используют язык, отличный от английского.В результате многолетних исследований машинного перевода в Facebook мы рады объявить об важной вехе: первой единой массовой модели MMT, которая может напрямую переводить 100 × 100 языков в любом направлении, не полагаясь только на англо-ориентированные данные. Наша единая многоязычная модель работает так же хорошо, как и традиционные двуязычные модели, и добилась улучшения на 10 баллов по шкале BLEU по сравнению с англоязычными многоязычными моделями.
Используя новые стратегии интеллектуального анализа данных для создания данных перевода, мы создали первый набор данных «многие ко многим» с 7,5 миллиардами предложений для 100 языков. Мы использовали несколько методов масштабирования, чтобы построить универсальную модель с 15 миллиардами параметров, которая собирает информацию из родственных языков и отражает более разнообразный сценарий языков и морфологию.
Извлечение сотен миллионов предложений для тысяч языковых направлений
Одним из самых больших препятствий при построении модели MMT «многие ко многим» является курирование больших объемов качественных пар предложений (также известных как параллельные предложения) для произвольных направлений перевода, а не с участием английского языка. Гораздо проще найти переводы с китайского на английский и с английского на французский, чем, скажем, с французского на китайский. Более того, объем данных, необходимых для обучения, растет квадратично с количеством поддерживаемых языков. Например, если нам нужно 10 миллионов пар предложений для каждого направления, нам нужно добыть 1 миллиард пар предложений для 10 языков и 100 миллиардов пар предложений для 100 языков.
Мы взяли на себя эту амбициозную задачу по созданию самого разнообразного набора данных MMT «многие ко многим» на сегодняшний день: 7,5 миллиардов пар предложений на 100 языках. Это стало возможным благодаря объединению дополнительных ресурсов интеллектуального анализа данных, которые разрабатывались годами, включая ccAligned, ccMatrix и LASER. В рамках этих усилий мы создали новый LASER 2.0 и улучшили идентификацию языка fastText, что повышает качество майнинга и включает сценарии обучения и оценки с открытым исходным кодом. Все наши ресурсы интеллектуального анализа данных используют общедоступные данные и имеют открытый исходный код.
Новая многоязычная модель Facebook AI «многие ко многим» является кульминацией нескольких лет новаторской работы в области машинного перевода с использованием революционных моделей, ресурсов интеллектуального анализа данных и методов оптимизации. На этой временной шкале отмечены несколько заслуживающих внимания достижений. Кроме того, мы создали наш массивный набор данных для обучения путем майнинга ccNET, основанного на fastText , нашей новаторской работе по обработке представлений слов; наша библиотека LASER для CCMatrix, которая встраивает предложения в многоязычное пространство для встраивания; и CCAligned, наш метод выравнивания документов на основе совпадений URL-адресов. В рамках этих усилий мы создали LASER 2.0, который улучшает предыдущие результаты.
Тем не менее, даже с передовыми базовыми технологиями, такими как LASER 2.0, сбор крупномасштабных обучающих данных для произвольных пар 100 различных языков (или 4450 возможных языковых пар) требует больших вычислительных ресурсов. Чтобы сделать этот тип масштабирования майнинга более управляемым, мы сначала сосредоточились на языках с наибольшим количеством запросов на перевод. Следовательно, мы отдали предпочтение направлениям майнинга с данными самого высокого качества и наибольшим количеством данных. Мы избегали направлений, для которых потребность в переводе статистически редка, таких как исландский-непальский или сингальский-яванский.
Затем мы представили новую стратегию поиска мостов, в которой мы группируем языки в 14 языковых групп на основе лингвистической классификации, географии и культурных сходств. Люди, живущие в странах с языками одной семьи, как правило, общаются чаще, и им нужны качественные переводы. Например, одна группа будет включать языки, на которых говорят в Индии, такие как бенгальский, хинди, маратхи, непальский, тамильский и урду. Мы систематически изучили все возможные языковые пары внутри каждой группы.
Чтобы соединить языки разных групп, мы определили небольшое количество промежуточных языков, которые обычно представляют собой от одного до трех основных языков каждой группы. В приведенном выше примере хинди, бенгальский и тамильский языки были бы промежуточными языками для индоарийских языков. Затем мы изучили данные параллельного обучения для всех возможных комбинаций этих промежуточных языков. Используя эту технику, наш обучающий набор данных получил 7,5 миллиардов параллельных предложений данных, соответствующих 2200 направлениям. Поскольку добытые данные можно использовать для обучения двух направлений заданной языковой пары (например, en->fr и fr->en), наша стратегия добычи помогает нам эффективно разреженно добывать данные, чтобы наилучшим образом охватить все 100×100 (всего 9 языков). ,900) направлений в одной модели.
Чтобы дополнить параллельные данные для малоресурсных языков с низким качеством перевода, мы использовали популярный метод обратного перевода, который помог нам занять первые места на конкурсах WMT International Machine Translation 2018 и 2019 годов. Например, если наша цель — обучить модель перевода с китайского на французский, мы сначала обучим модель для французского на китайский и переведем все одноязычные французские данные для создания синтетического китайского с обратным переводом. Мы обнаружили, что этот метод особенно эффективен в больших масштабах при переводе сотен миллионов одноязычных предложений в параллельные наборы данных. В наших условиях исследования мы использовали обратный перевод, чтобы дополнить обучение направлений, которые мы уже изучили, добавив синтетические данные обратного перевода к добытым параллельным данным. И мы использовали обратный перевод для создания данных для ранее неконтролируемых направлений.
В целом, сочетание нашей стратегии моста и данных с обратным переводом улучшило производительность по 100 направлениям с обратным переводом в среднем на 1,7 BLEU по сравнению с обучением только на добытых данных. Благодаря более надежному, эффективному и высококачественному обучающему набору у нас была хорошая основа для построения и масштабирования нашей модели «многие ко многим».
Мы также получили впечатляющие результаты при нулевых настройках, в которых отсутствуют обучающие данные для пары языков. Например, если модель обучена французско-английскому и немецко-шведскому языкам, мы можем выполнить нулевой перевод между французским и шведским языками. В условиях, когда наша модель «многие ко многим» должна обнулить перевод между направлениями, не относящимися к английскому языку, она была значительно лучше, чем многоязычные модели, ориентированные на английский язык.
Масштабирование нашей модели MMT до 15 миллиардов параметров с высокой скоростью и качеством
Одной из проблем многоязычного перевода является то, что единая модель должна фиксировать информацию на многих разных языках и в различных сценариях. Чтобы решить эту проблему, мы увидели явное преимущество в масштабировании возможностей нашей модели и добавлении параметров, зависящих от языка. Масштабирование размера модели полезно, в частности, для языковых пар с высоким уровнем ресурсов, поскольку они содержат больше всего данных для обучения дополнительной емкости модели. В конечном итоге мы увидели среднее улучшение в 1,2 BLEU, усредненное по всем языковым направлениям, при плотном масштабировании размера модели до 12 миллиардов параметров, после чего наблюдалось уменьшение отдачи от дальнейшего плотного масштабирования. Сочетание плотного масштабирования и разреженных параметров для конкретного языка (3,2 миллиарда) позволило нам создать еще лучшую модель с 15 миллиардами параметров.
Мы сравниваем нашу модель с базовыми двуязычными и англоязычными многоязычными моделями. Мы начинаем с 1,2 миллиарда базовых параметров с 24 слоями кодировщика и 24 слоями декодера и сравниваем англо-ориентированные модели с нашей моделью M2M-100. Далее, если мы сравним 12 миллиардов параметров с 1,2 миллиардами параметров, мы получим улучшение на 1,2 балла BLEU.Чтобы увеличить размер нашей модели, мы увеличили количество слоев в наших сетях Transformer, а также ширину каждого слоя. Мы обнаружили, что большие модели быстро сходятся и обучаются с высокой эффективностью данных. Примечательно, что эта система «многие ко многим» является первой, использующей Fairscale, новую библиотеку PyTorch, специально разработанную для поддержки конвейерного и тензорного параллелизма. Мы построили эту общую инфраструктуру для размещения крупномасштабных моделей, которые не помещаются на одном графическом процессоре, за счет параллелизма моделей в Fairscale. Мы создали оптимизатор ZeRO, внутриуровневый параллелизм моделей и параллелизм конвейерных моделей для обучения крупномасштабных моделей.
Но недостаточно просто масштабировать модели до миллиардов параметров. Чтобы иметь возможность производить эту модель в будущем, нам необходимо максимально эффективно масштабировать модели с помощью высокоскоростного обучения. Например, во многих существующих работах используется мультимодельный ансамбль, когда несколько моделей обучаются и применяются к одному и тому же исходному предложению для получения перевода. Чтобы уменьшить сложность и объем вычислений, необходимых для обучения нескольких моделей, мы изучили самостоятельную сборку из нескольких источников, которая переводит исходное предложение на несколько языков для повышения качества перевода. Кроме того, мы опирались на нашу работу с LayerDrop и Depth-Adaptive для совместного обучения модели с общим стволом и различными наборами языковых параметров. Этот подход отлично подходит для моделей «многие ко многим», поскольку он предлагает естественный способ разделения частей модели по языковым парам или языковым семьям. Комбинируя плотное масштабирование емкости модели с параметрами, зависящими от языка (всего 3 миллиарда), мы предоставляем преимущества больших моделей, а также возможность изучения специализированных слоев для разных языков.
На пути к одной многоязычной модели для всехВ течение многих лет исследователи искусственного интеллекта работали над созданием единой универсальной модели, способной понимать все языки при выполнении различных задач. Единая модель, поддерживающая все языки, диалекты и модальности, поможет нам лучше обслуживать больше людей, обновлять переводы и в равной степени создавать новые впечатления для миллиардов людей. Эта работа приближает нас к этой цели.
В рамках этих усилий мы наблюдаем невероятно быстрый прогресс в предварительно обученных языковых моделях, тонкой настройке и методах самоконтроля. Это коллективное исследование может еще больше улучшить то, как наша система понимает текст для языков с низким уровнем ресурсов, используя немаркированные данные. Например, XLM-R — это наша мощная многоязычная модель, которая может обучаться на основе данных на одном языке, а затем выполнять задачу на 100 языках с высочайшей точностью. mBART — это один из первых методов предварительной подготовки полной модели для выполнения задач BART на многих языках. А совсем недавно наш новый подход с самоконтролем, CRISS, использует немаркированные данные из множества разных языков для анализа параллельных предложений на разных языках и обучения новых, более совершенных многоязычных моделей итеративным способом.
Мы продолжим улучшать нашу модель, используя передовые исследования, изучая способы ответственного развертывания систем машинного перевода и создавая более специализированные вычислительные архитектуры, необходимые для внедрения этого в производство.
Facebook автоматически переводит сообщения вашей Страницы и Группы
Рената Экине
19.6.2018
Сегодня большой день для администраторов Страницы Facebook и группы! Facebook запустил новую функцию, которая будет автоматически переводить ваши сообщения в Facebook.
Еще в 2016 году Facebook выпустил функцию, с помощью которой менеджеры страниц могли писать несколько версий поста на разных языках и отображать наиболее актуальные для своих поклонников на основе настроек своего приложения Facebook. Это новое «обновление» автоматически переведет обновления статуса вашей Страницы или группы для вас на любое количество языков, чтобы помочь вашей аудитории общаться на их родном языке.
Чтобы использовать эту функцию, перейдите на свою страницу Facebook и создайте новую публикацию (текст, фото или ссылку) на своем родном языке и нажмите «Написать публикацию на другом языке».
Затем нажмите «Выбрать» и выберите язык, на который вы хотите перевести сообщение. Имейте в виду, что вы можете выбрать не более трех языков!
Хотя Facebook предоставляет пользователям функцию автоматического перевода для просмотра обновлений статуса на их родном языке, они, как правило, не очень точны и в большинстве случаев вызывают у читателя ощущение «плохого» (авто)перевод. Вот почему Facebook позволяет вам редактировать их, чтобы вы могли сделать их более точными или добавить любую дополнительную информацию.
После того, как сообщение было опубликовано, вы даже можете вернуться и задним числом добавить другой язык.
У вас есть эта новая функция на вашей странице и/или в группе Facebook?
Renata Ekine
В Business Factory я работаю специалистом по маркетингу Facebook, помогая чешским и международным клиентам повышать эффективность их рекламы в Facebook.