PDA

Просмотр полной версии : Mozilla развивает собственную систему машинного перевода


Suicide
21.10.2019, 20:05
Компания Mozilla в рамках проекта Bergamot (https://browser.mt/) приступила к созданию системы машинного перевода, работающей на стороне браузера. Проект позволит интегрировать в Firefox самодостаточный движок перевода страниц, не обращающийся к внешним облачным сервисам и обрабатывающий данные исключительно на системе пользователя. Главной целью разработки является обеспечение конфиденциальности и защита данных пользователя от возможных утечек при переводе содержимого открываемых в браузере страниц.

Разработка Bergamot ведётся в берлинском офисе Mozilla при участии исследователей из нескольких (https://browser.mt/partners/) университетов Великобритании, Эстонии и Чехии. Разработку финансирует Евросоюз в рамках гранта, полученного по программе Horizon 2020 (https://ec.europa.eu/programmes/horizon2020/en). Размер гранта составляет три миллиона евро. Проект рассчитан на три года. В Mozilla открыта (https://twitter.com/triagegirl/status/1184988341923540993) вакансия (https://careers.mozilla.org/position/gh/1666741/) специалиста по системам машинного обучения для участия в разработке движка для перевода с одного языка на другой.

Из смежных разработок, имеющих отношение к проекту Bergamot, упомянуты (https://browser.mt/software):


Развиваемый в Эдинбургском университете фреймворк машинного перевода Marian (https://marian-nmt.github.io/), построенный на базе рекуррентной нейронной сети. Фреймворк написан на языке C++, может задействовать GPU для ускорения обучения и перевода, и поставляется (https://github.com/marian-nmt/marian) под лицензией MIT.

Созданный в Пражском университете инструментарий Neural Monkey (https://github.com/ufal/neuralmonkey) для обработки информации на естественном языке с использованием методов последовательного машинного обучения. Проект применяет фреймворк TensorFlow и может использоваться для быстрого создания прототипов систем машинного перевода и классификации информации на естественном языке. Код доступен под лицензией BSD.

Подготовленный в Шеффилдском университете проект QuEst++ (https://github.com/ghpaetzold/questplusplus), применяемый для оценки и прогнозирования качества систем машинного перевода.

Развиваемые в Mozilla синтезатор речи (https://www.opennet.ru/opennews/art.shtml?num=49639) (TTS (https://github.com/mozilla/TTS)) и движок распознавания речи (https://www.opennet.ru/opennews/art.shtml?num=47648) (Deep Speech (https://github.com/mozilla/DeepSpeech))

Финансируемый Евросоюзом проект ParaCrawl (https://paracrawl.eu/), накапливающий базу синхронных переводов различных фраз на разных языках, которую можно использовать для тренировки систем машинного обучения. Основой проекта является бот bitextor (https://github.com/bitextor/), который индексирует многоязычные web-сайты и автоматически находит одинаковые тексты, представленные на нескольких языках. База примеров параллельных переводов формируется для 24 языков, в том числе для русского (БД (https://paracrawl.eu/releases.html) для русского языка занимает 637MB в сжатом виде и включает более 12 млн примеров перевода).
Разработка Bergamot началась в январе этого года, но наработки проекта пока недоступны (https://browser.mt/software) для публичного тестирования. Тем не менее, несколько дней назад разработчики опубликовали (https://www.youtube.com/watch?v=ptmLzVeU0dk) видео с демонстрацией начального прототипа.

Напомним, что в Firefox уже имеется (https://www.opennet.ru/opennews/art.shtml?num=49247) встроенный механизм для перевода страниц, но он завязан на использовании внешних облачных сервисов (поддерживаются Google, Yandex и Bing) и не активирован по умолчанию (для включения в about:config следует изменить настройки "browser.translation"). Механизм перевода в том числе поддерживает автоматическое определение языка при открытии страницы на неизвестном языке и выводит специальный индикатор с предложением осуществить перевод страницы. Развиваемый в рамках проекта Bergamot прототип системы перевода использует этот же интерфейс для взаимодействия с пользователем, но вместо обращения к внешним сервисам запускается встроенный обработчик.

21.10.2019

http://www.opennet.ru/opennews/art.shtml?num=51718​