В 2021 году Яндекс Браузер получил крупное обновление, в котором добавилась функция автоматического перевода и озвучки видео на популярных платформах, вроде YouTube.
На старте был доступен только английский язык. С тех пор прошло 2 года, а список поддерживаемых языков вырос до пяти:
• английский
• немецкий
• испанский
• французский
• китайский
И вот только недавно я открыл для себя этот мощный функционал и понял, насколько он удобен. Решил посмотреть WWDC 2023 с помощью нейроозвучки, чтобы не пропустить ничего важного.
Да, всегда есть субтитры, но к ним у меня особое отношение. Ими удобно пользоваться, но при этом тебя эта функция буквально притягивает к экрану, ты не можешь отвлечься, если не знаешь языка или тебе нужно выполнять параллельно другие задачи.
С тем же WWDC мне требовалось писать большое число статей одну за другой, а на слух английский язык я воспринимаю далеко не идеально. Поэтому гораздо удобнее, когда кто-то синхронно переводит презентацию: пишешь текст и одновременно слушаешь, что рассказывают.
Если на старте функция позволяла озвучивать на русском языке только отобранные видео, то сейчас она спокойно справляется и с прямыми трансляциями, что очень удобно. Причем ты даже можешь отличить одного спикера от другого — им подбираются разные синтезированные голоса.
Как вообще устроен синхроперевод и как им пользоваться? Разбираемся.
Как работает автоперевод видео в Яндекс Браузере
Для реализации функции Яндекс использовал технологию сервиса Переводчик, речевые технологии и биометрию. Примечательно, что в озвучке видео принимает участие не одна, а сразу шесть нейросетей.
Первая. Определяет язык говорящего. Если он говорит на поддерживаемом языке, то браузер предложит перевести содержимое на русский.
Вторая. Переводит речь в текст. В полученной модели создается аудиодорожка, из которой нейронка удаляет лишние звуки. Она же удаляет слова-паразиты, делая итоговый текст «чище».
Третья. Нормализует текст и расставляет знаки препинания.
То есть она получает набор переведенных слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл.
Нейросети передается определенный выделенный контекст, чтобы она могла лучше понять, о чем идет речь в ролике. А затем она сама расставляет все по смыслу. Но иногда требуется чуть больше времени. В случае стриминга это будет компромиссом между качеством и задержкой.
Если мы не уверены, нужно ли разбивать на предложения в данном месте, то можем подождать чуть дольше, пока не придут новые слова. Тогда мы либо лучше определимся с разбиением, либо превысим ограничение по контексту и будем вынуждены разбивать там, где почти уверены.
— Яндекс
Четвертая. Определяет количество спикеров, их пол и применяемые местоимения. Вычисляется тип голоса (мужской или женский) по частоте звучания: у мужчин — 80—150 Гц, у женщин — 150—250 Гц.
Пятая. Занимается переводом текста на русский язык.
Шестая. Синтезирует речь и синхронизирует её с роликом. Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь.
Как работает автоперевод трансляций
Схема работы переводчика
Понятное дело, что стрим — это не уже готовый ролик. Его нельзя заранее проанализировать и наложить озвучку.
Если в первом случае нейросеть получает уже целую аудиодорожку и работает с ней, то во втором такого запаса времени нет. Приходится работать в режиме синхронного перевода по создающейся дорожке.

По этой причине технологии немного отличаются, но языковые модели используются те же самые. В случае с трансляциями на помощь приходит третья нейросеть, ответственная за нормализацию речи. Она распознает начало и конец предложения, выделяет вводные слова, определяет сложносочиненные предложения и так далее.
Как только нейросеть расставит все знаки препинания, система определяет предложения с законченными мыслями и отправляет уже их на перевод.
Задержка при переводе прямых трансляций может составлять от 20 до 50 секунд. Неплохой результат, чтобы сильно не отставать от происходящего.
Особенно меня порадовало и то, что система умеет озвучивать разные голоса. И это, по всей видимости, появилось относительно недавно. Потому что на старте было доступно всего два голоса: один мужской и один женский. Теперь у каждого из них есть несколько вариаций звучания.
Как включить автоперевод видео
Функция перевода доступна на iOS, Android, Windows и macOS в приложении Яндекс или Яндекс Браузер.
Для запуска функции достаточно открыть любое видео на популярных платформах, вроде YouTube, Rutube, Vimeo и так далее. После включения ролика кнопка перевода появится автоматически. Останется только нажать на неё.
Для обычных роликов процесс запуска переводчика занимает пару секунд. А для трансляций обычно приходится сначала подождать около 15-20 секунд, если стрим только начался. А если он уже идет, то те же пару секунд.
Попробуйте, это очень полезная функция
Многие зарубежные видео недоступны на русском языке. Лишь редкие блогеры заказывают себе дубляж.
С помощью автоперевода в Яндекс Браузере эта проблема решается на раз-два. В пару кликов я уже смотрю ролик на русском языке и даже не мучаюсь от субтитров. Ничто не отвлекает, озвучка работает хорошо.
Единственное, лично мне не хватает «живости» самой озвучки. Хочется больше слышать похожих с оригиналом интонаций. Ну и пока функция работает далеко не со всеми стримами. Надеюсь, это исправят в скором времени.

40 комментариев
Форум →