Онлайн переводчик видео с ютуба: «Яндекс» добавил автоматический перевод любых англоязычных видео в YouTube и других сервисах в «Браузере» — Сервисы на vc.ru — Эксперт — интернет-магазин электроники и бытовой техники

Содержание

как он устроен и чем отличается от перевода обычных видео / Хабр

Осенью прошлого года мы рассказали читателям Хабра, как работает голосовой перевод видео в Яндекс Браузере. За первые десять месяцев пользователи посмотрели видеоролики с закадровым переводом 81 миллион раз. Механизм действует по запросу: нейросеть получает аудиодорожку целиком, а звук на понятном пользователю языке появляется с задержкой в пару минут.

Но такой способ не подходит для прямых трансляций, когда нужно переводить почти в режиме реального времени. Поэтому сегодня мы открываем для всех отдельный, более сложный механизм — потоковый перевод стримов.

Чтобы всё заработало, перезапустите Яндекс Браузер. Анонсы новых устройств, спортивные соревнования, вдохновляющие космические запуски — этот и другой контент теперь можно смотреть сразу на родном языке. Закадровый голосовой перевод сейчас доступен для некоторых каналов на YouTube, а в будущем, конечно, включить дубляж можно будет в любой YouTube-трансляции. Чтобы адаптировать механизм перевода для стримов, потребовалось переработать всю архитектуру.

Как работает потоковый перевод

Перевод потокового видео — очень сложная задача с инженерной точки зрения. Здесь сталкиваются два противоречивых требования. С одной стороны, нужно передать модели как можно больше текста за раз, чтобы нейросеть поняла контекст фразы. С другой стороны, необходимо свести задержку к минимуму, иначе «прямой эфир» перестанет быть таковым. Поэтому приходится начинать переводить как можно скорее — не в режиме синхронного перевода, но близко к нему.

Чтобы запустить быстрый и качественный перевод в потоковом режиме, мы, по сути, сделали новый сервис на основе существующих алгоритмов. Новая архитектура позволила сократить задержку, не сильно потеряв в качестве.

Если очень коротко описывать принцип работы потокового перевода, то в его основе лежат пять моделей. Одна нейросеть распознает аудиодорожку и превращает её в текст.

Вторая определяет пол спикеров, третья нарезает текст на предложения — расставляет знаки препинания и выделяет из текста части, содержащие законченную мысль. Четвёртая нейросеть переводит полученные куски, а пятая синтезирует речь.

Выглядит просто, но внутри много подводных камней. Рассмотрим процесс подробнее.

Из чего состоит потоковый перевод в Браузере

На первом этапе нужно понять, что именно говорится в потоковом видео, а также определить, в какой момент произносятся слова. Дело в том, что мы не просто переводим речь, но и накладываем результат обратно на видео в нужные моменты.

Задача распознавания речи (ASR, Automated Speech Recognition) отлично решается с использованием глубоких нейронных сетей. Архитектура нейросети должна допускать потоковый сценарий использования, то есть уметь обрабатывать аудио по мере поступления. Такое ограничение может сказаться на точности предсказания, но мы можем позволить модели смотреть на несколько секунд в будущее.

На видео могут присутствовать посторонние звуки, например, шумы и музыка, люди могут говорить с различным акцентом, скоростью и дикцией, спикеров может быть много, они могут кричать, а не говорить. Нужно помнить и про богатую лексику, поскольку тематик видео целое множество. Поэтому сбор данных для обучения играет ключевую роль.

На вход алгоритм получает последовательность кусочков аудио, берёт последние N из них, извлекает акустические признаки (мел-спектрограмму) и подает на вход нейросети. Она, в свою очередь, выдаёт множество последовательностей слов (так называемых гипотез), из которых языковая модель выбирает наиболее правдоподобную гипотезу. Когда приходит новый кусочек аудио, процесс повторяется.

Полученную последовательность слов нужно перевести. Если переводить пословно или по фразам, пострадает качество. Если ждать длительной паузы, которая гарантирует конец предложения, то появится большая задержка. Поэтому нужно группировать слова в предложения, не допуская потери смысла или слишком длинных предложений.

Один из способов решить эту задачу — использовать модель восстановления пунктуации.

С приходом трансформеров нейросетям стало проще понимать смысл текста, взаимосвязи между словами и закономерности языковых конструкций. Нужно только большое количество данных. Для задачи восстановления пунктуации достаточно взять текстовый корпус, подавать на вход нейросети текст без пунктуации и обучить нейросеть её восстанавливать.

На вход нейросети текст поступает в токенизированном виде, как правило, это BPE-токены. Такое разбиение не слишком мелкое, чтобы длина последовательности не сильно увеличилась, но и не слишком крупное, чтобы избежать проблемы out-of-vocabulary — когда токена нет в словаре. На выходе модели после каждого слова метка: ставить ли тот или иной символ пунктуации.

Чтобы обеспечить работу в потоке, нужно задать некоторый ограниченный контекст. Его размер — компромисс между качеством и задержкой. Если мы не уверены, нужно ли разбивать на предложения в данном месте, то можем подождать чуть дольше, пока не придут новые слова. Тогда мы либо лучше определимся с разбиением, либо превысим ограничение по контексту и будем вынуждены разбивать там, где почти уверены.

Для корректного перевода и озвучки нужно определить пол говорящего. Если использовать классификатор пола на уровне предложений, то никаких отличий в потоковом сценарии не будет. Но мы заметили, что биометрическая информация снижает ошибку классификации пола в полтора раза: то есть мы можем не просто определять пол человека по реплике, а ещё и учитывать результат классификации пола на предыдущих репликах. Для этого нам нужно «на лету» определять, кому принадлежит реплика, тем самым уточняя пол спикера.

С точки зрения машинного перевода ничего не изменилось в сравнении с переводом уже готовых роликов, поэтому на этом этапе останавливаться не будем. Подробнее о том, как работает перевод, мы писали в этом хабрапосте.

В прошлом году мы также рассказывали, как устроен речевой синтез Яндекса. Базовая технология синтеза в Алисе и переводе видео одна и та же. Разница в том, как осуществляется применение (inference) этих нейросетей. Спикер на видео может произнести реплику очень быстро или перевод предложения может оказаться в два раза длиннее оригинала. В таком случае придётся сжать синтезированное аудио, чтобы успеть в тайминг. Это можно сделать двумя способами: на уровне звуковой волны, например, при помощи PSOLA (Pitch Synchronous Overlap and Add) или внутри нейросети. При втором способе речь звучит натуральнее, но для этого нужна возможность редактирования скрытых параметров.

Важно не только привести длительности синтезированных фраз к нужной длине, но и разложить их по нужным моментам времени. Идеально получится не всегда, придётся либо ускорить запись, либо сдвинуть тайминги. За это у нас отвечает алгоритм укладки. В переводе стримов нельзя менять прошлое, поэтому может получиться ситуация, когда нужно озвучить фразу в два раза быстрее, чем она произносится в оригинальном видео. Для справки: ускорение более чем на 30% существенно влияет на восприятие.

Решение следующее: делаем некоторый запас по времени, то есть не спешим укладывать реплики, а ждём, когда придут новые, чтобы учесть их длительность, а так же позволяем немного накапливать сдвиг по времени, так как рано или поздно на видео все замолчат и сдвиг обнулится.

Результирующую аудиодорожку нарезаем на фрагменты и оборачиваем в аудиострим, который будет микшироваться на клиенте браузера.

Как архитектурно устроен сервис потокового перевода

Когда вы смотрите трансляцию, браузер опрашивает сервис стриминга (например, YouTube) на предмет новых фрагментов видео и аудио; если такие есть, он их скачивает, а затем последовательно воспроизводит.

Когда пользователь нажимает на кнопку перевода стрима, Яндекс Браузер запрашивает у своего бэкенда ссылку на стрим с переведенной аудиодорожкой. Эту дорожку Браузер накладывает по таймингам поверх основной.

В отличие от video-on-demand (то есть перевода уже готовых роликов), стрим обрабатывается переводом всё время своего существования. Stream Downloader читает аудиопоток и отправляет его в ML-pipeline обработки, компоненты которого мы разобрали выше.

Есть несколько способов организовать взаимодействие между компонентами. Мы остановились на варианте с очередями сообщений, где каждый компонент оформлен в виде отдельного сервиса:

Запустить все модели в рамках одной машины проблематично — они просто не уместятся по памяти или потребуют очень специфичную конфигурацию железа.
Требуется балансировать нагрузку и иметь возможность горизонтально масштабироваться. Например, у сервисов перевода и синтеза различные пропускные способности, поэтому количество реплик может быть разное.
Сервисы иногда падают (out-of-memory на GPU, утечка памяти или просто отключили питание в дата-центре), и очереди предоставляют механизм retry.

Стрим не привязан к отдельно взятому инстансу, но для обработки может потребоваться некий контекст (предыстория).

Например, синтезу нужно хранить записи, которые он ещё не уложил на финальную аудиодорожку. Отсюда возникает необходимость в глобальном хранилище контекстов для всех стримов. На схеме он обозначен как Global Context — по сути, это просто in-memory key-value storage.

Полученный аудиопоток нужно доставить пользователю. Здесь за дело берётся Stream Sender — он оборачивает фрагменты аудио в стриминговый протокол, и клиент читает этот стрим по ссылке.

Что дальше

Сейчас мы отдаём потоковый перевод со средней задержкой 30-50 секунд. Иногда вылетаем за этот диапазон, но не сильно: стандартное отклонение — примерно 5 секунд.

Основная сложность в переводе стримов — гарантировать стабильность задержки. Простой пример: вы запустили стрим и через 15 секунд начали получать перевод. Если продолжать просмотр, то рано или поздно одна из моделей захочет большего контекста — скажем, если спикер произносит длинное предложение без пауз, нейросеть попробует получить его целиком.

Тогда задержка увеличится, возможно, на десять дополнительных секунд. Чтобы такого не происходило, лучше на старте дать чуть большую задержку.

Наша глобальная задача — уменьшить задержку примерно до 15 секунд. Это чуть больше, чем при синхронном переводе, но достаточно для стримов, где ведущие общаются с аудиторией — например, в Twitch.

Услуги по переводу субтитров для YouTube

Рассчитать стоимость Компания / более комплексные потребности

Наши довольные клиенты

Спасибо!

Ваш запрос обрабатывается. Наша команда свяжется с вами в ближайшее время.

Стоимость онлайн-перевода субтитров для платформы YouTube

Если вам нужно добавить субтитры к видео вашей компании на YouTube на разных языках и вы не знаете с чего начать, Protranslate — это верный адрес для ваших нужд. Услуги платформы YouTube позволяют добавлять субтитры к видео автоматически, но лучше сотрудничать с профессиональным бюро переводов, для эффективного продвижения бренда в сети.

К видео-субтитрам на платформе YouTube предъявляются определенные требования, для предоставления более комфортного просмотра вашего видео пользователям. В этом отношении английские субтитры на YouTube будут недостаточны, так как аудитория вашего видео возможно пожелает посмотреть его на своем родном языке, чтобы лучше взаимодействовать с вашими услугами или продуктами. Наша команда экспертов готова перевести субтитры для платформы YouTube в соответствии с вашими конкретными требованиями.

Услуги по переводу субтитров для платформы YouTube для Всех

Предоставляемый объем услуг по переводу субтитров видео на платформе YouTube столь же обширен, как и наши обычные услуги письменного перевода. Мы переводим субтитры для платформы YouTube в различных сферах, таких как как медицина, технология, право и маркетинг. Наши лингвисты и носители языка переводят субтитры для платформы YouTube на английский язык с точностью и с акцентом на культурную целостность. Тем самым мы гарантируем, что результат будет лучше, чем у любых других сервисов субтитров YouTube.

Когда вам нужно срочно локализовать или перевести видео на английский язык для платформы YouTube, бюро переводов Protranslate поможет вам добиться наилучших результатов по доступной цене на онлайн-перевод субтитров для платформы YouTube. Автоматический перевод субтитров, предоставляемый платформой YouTube, могут ввести в заблуждение ваших клиентов и даже нанести ущерб вашему присутствию на просторах интернета. Вот почему многие юридические лица, как и начинающие компании предпочитают получать профессиональную поддержку услуг перевода субтитров для платформы YouTube.

Эксперт по Услугам Перевода Субтитров для платформы YouTube

Услуги бюро переводов Protranslate охватывают каждый этап проекта перевода или локализации, чтобы предоставить вам наиболее точный перевод субтитров. Даже для тех, кто сомневается, как изменить язык субтитров на платформе YouTube, на сайте Protranslate есть контакты менеджера проекта, который ответит на вопросы клиентов. Предоставляя своим клиентам возможность получать нотариально заверенные цены на перевод субтитров для платформы YouTube, бюро переводов Protranslate занимает лидирующую позицию среди других фирм, занимающихся переводом субтитров для платформы YouTube, работающих в ее регионе.

Как мы уже упоминали ранее, некоторые встроенные сервисы на платформе YouTube переводят субтитры видео. Однако профессиональный подход никому не повредит, особенно когда речь идет о присутствии важного бренда на просторах Интернете. Наши переводчики, имеющие опыт работы с интерфейсом платформы YouTube, переводят субтитры без каких-либо ошибок гарантируя, что ваше видео достигнет глобальной аудитории без потери исходной идеи.

Да, в бюро переводов Protranslate есть много специалистов по иностранным языкам, которые знают, как переводить субтитры для видео на платформе YouTube.

Конечно, агентство Protranslate по переводу субтитров для платформы YouTube, объединит вас с профессиональными специалистами по субтитрам, которые знают, как получить субтитры на платформе YouTube.

Если вы не знаете, как создавать субтитры на платформе YouTube ,бюро переводов Protranslate может предоставить вам надежную услугу перевода субтитров для платформы YouTube.

Команда бюро переводов Protranslate по созданию субтитров имеет опыт работы с рядом услуг по созданию субтитров для платформы YouTube, включая то, как добавлять субтитры к видеороликам на платформе YouTube.

Если вы интересуетесь процессом получения переведенных субтитров для платформы YouTube, бюро переводов иностранных языков Protranslate является лучшим бюро по переводу субтитров для YouTube, и которое может посоветовать вам, как переводить субтитры на платформе.

VISA

MasterCard

American Express

MADA

PayPal

Facebook
Twitter
Linkedin
Instagram

YouTube Translator Services — онлайн-инструмент для перевода видео

YouTube Translator Services

Охватить более 1 миллиарда многоязычных пользователей YouTube по всему миру

1.

Транскрипция

Создание субтитров на языке оригинала

2. Синхронизация по времени

4 и автоматически синхронизируйте транскрипцию на YouTube

3. Переводите

Всего за несколько кликов закажите и подтвердите перевод субтитров

1. Транскрибируйте

Для начала откройте новый документ и начните транскрибировать видео.

При расшифровке не забывайте вставлять жесткий возврат после пауз в речи. Не беспокойтесь о том, чтобы испортить одну или две строки на этом этапе.

Когда у вас есть полный черновик, повторите воспроизведение 1-2 раза и заполните ошибки или отсутствующие разделы, пока транскрипция не будет завершена.

Совет: нажмите пробел, чтобы приостановить воспроизведение видео.

Создание полной расшифровки обычно занимает до трех раз больше длины видео (около 6-8 минут расшифровки двухминутного видео).

Для нас было важно найти поставщиков переводческих услуг, обладающих технологиями для предоставления высококачественных переводов по доступным ценам. Я был впечатлен качеством и скоростью переводов, которые предоставляет Gengo.

Джефф Чин, менеджер по продукту, Google

2. Синхронизация времени

Когда вы закончите стенограмму, синхронизируйте ее с вашим видео и добавьте временные коды. Для этого перейдите в раздел «Мои видео» на YouTube и выберите «Подписи» в раскрывающемся меню выбранного видео.

Выберите «Файл расшифровки». Название дорожки будет соответствовать языку, на котором написана ваша стенограмма (например, напишите «English» для английского, «日本語» для японского и т. д.)

На этом этапе Google будет использовать свое программное обеспечение для распознавания речи, чтобы сопоставить аудио к вашей расшифровке.

Подробнее о том, как они это делают, см. в этой записи блога.

Автосинхронизация занимает около 1-5 минут, в зависимости от продолжительности видео. Как только это закончится, ваши подписи будут готовы.

Нажмите, чтобы загрузить окончательный файл субтитров с временным кодом. Он будет экспортирован в виде файла .sbv.

Нужно перевести подписи на Youtube?

3. Перевести

Откройте экспортированный файл .sbv с помощью текстового редактора и повторно сохраните его как файл .txt.

Откройте Gengo, загрузите файл .txt с оригинальными субтитрами и закажите субтитры для всех желаемых целевых языков.

Скопируйте и вставьте перевод в новый файл .txt в текстовом редакторе и сохраните его как имя_файла.sbv. Если вы создали несколько переводов субтитров, обязательно сохраните каждый из них в отдельный файл .txt.

Вернитесь на страницу настроек видео YouTube. Нажмите, чтобы создать субтитры на иностранном языке для вашего первого целевого языка и загрузить переведенный файл субтитров .sbv.

После того, как вы закончите создание переведенных субтитров, нажмите «Опубликовать» и повторите процесс для любых дополнительных субтитров.

Посмотрите наш онлайн-переводчик Youtube в действии

Мы создали субтитры для одного из наших собственных видео и перевели их на китайский и японский языки — нажмите, чтобы посмотреть видео на YouTube, и переключитесь с помощью кнопки «cc».

Хотите увеличить число зрителей за рубежом? Попробуйте самостоятельно перевести подписи с помощью YouTube и Gengo ниже.

или воспроизвести видео

Перевести видео онлайн и бесплатно

Перевести видео онлайн и бесплатно — Media.io

Главная > Инструменты > Видео переводчик

Использование видеопереводчика невозможно, если вам нужно перевести видео на английский, французский, испанский или любой другой язык. Например, вы можете добавить субтитры и подписи к видео на YouTube, чтобы охватить более широкую аудиторию. Кроме того, вы можете перевести видео на разные языки перед загрузкой текстовой версии для других целей. Какими бы ни были причины, попробуйте Media.io . Это простой браузерный переводчик видео, поддерживающий более 120 языков, делает ваше видео более доступным. Видеопереводчик на основе искусственного интеллекта позволяет вам расшифровывать и переводить субтитры для видео на основе фонового звука или повествования. Другое дело, вы можете редактировать и скачивать их в форматах .srt или .txt.

Как перевести видео онлайн?

Видео с субтитрами
Перевести видео в текст

Загрузить видеофайл

Запустите редактор Media.io и коснитесь Загрузить медиафайл , чтобы загрузить видео для перевода. После этого переместите клип на раскадровку и выберите его.

Перевод видео онлайн

При желании можно обрезать, вырезать, разделить и удалить видео. Затем коснитесь вкладки Subtitle на левой панели и выберите язык перевода, чтобы преобразовать язык видео в другой.

Загрузите свое видео

По завершении автоматического перевода коснитесь значка «Загрузить », чтобы экспортировать его. Ну вот.

Часто задаваемые вопросы

Получите новую аудиторию, как мы встретили вас

Диана Кейт

Этот видео переводчик работает без сбоев. Он чистый и простой в использовании с точными текстовыми переводами. Приложение позволяет мне переводить неограниченное количество аудио, что является большим плюсом.

Уиллис Джонс

Мне нравится эта служба перевода, которая автоматизирует преобразование звука в текст. Я иногда использую его для извлечения текстов из подкастов на иностранных языках, чтобы использовать их в своем блоге. Идеально!

Алиса

Это приложение намного быстрее, чем слушать аудио и печатать вручную в текстовом редакторе. На мой взгляд, это выглядит на 99% точно, так как я еще не сталкивался с неточными переводами. Кроме того, он отлично работает с фоновыми шумами.

Не верьте нам на слово и слушайте, что говорят наши пользователи.

Расскажите о своем опыте работы с нами.