В 2021 году Яндекс Браузер получил крупное обновление, в котором добавилась функция автоматического перевода и озвучки видео на популярных платформах, вроде YouTube.
На старте был доступен только английский язык. С тех пор прошло 2 года, а список поддерживаемых языков вырос до пяти:
• английский
• немецкий
• испанский
• французский
• китайский
И вот только недавно я открыл для себя этот мощный функционал и понял, насколько он удобен. Решил посмотреть WWDC 2023 с помощью нейроозвучки, чтобы не пропустить ничего важного.
Да, всегда есть субтитры, но к ним у меня особое отношение. Ими удобно пользоваться, но при этом тебя эта функция буквально притягивает к экрану, ты не можешь отвлечься, если не знаешь языка или тебе нужно выполнять параллельно другие задачи.
С тем же WWDC мне требовалось писать большое число статей одну за другой, а на слух английский язык я воспринимаю далеко не идеально. Поэтому гораздо удобнее, когда кто-то синхронно переводит презентацию: пишешь текст и одновременно слушаешь, что рассказывают.
Если на старте функция позволяла озвучивать на русском языке только отобранные видео, то сейчас она спокойно справляется и с прямыми трансляциями, что очень удобно. Причем ты даже можешь отличить одного спикера от другого — им подбираются разные синтезированные голоса.
Как вообще устроен синхроперевод и как им пользоваться? Разбираемся.
Как работает автоперевод видео в Яндекс Браузере
Для реализации функции Яндекс использовал технологию сервиса Переводчик, речевые технологии и биометрию. Примечательно, что в озвучке видео принимает участие не одна, а сразу шесть нейросетей.
Первая. Определяет язык говорящего. Если он говорит на поддерживаемом языке, то браузер предложит перевести содержимое на русский.
Вторая. Переводит речь в текст. В полученной модели создается аудиодорожка, из которой нейронка удаляет лишние звуки. Она же удаляет слова-паразиты, делая итоговый текст «чище».
Третья. Нормализует текст и расставляет знаки препинания.
То есть она получает набор переведенных слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл.
Нейросети передается определенный выделенный контекст, чтобы она могла лучше понять, о чем идет речь в ролике. А затем она сама расставляет все по смыслу. Но иногда требуется чуть больше времени. В случае стриминга это будет компромиссом между качеством и задержкой.
Если мы не уверены, нужно ли разбивать на предложения в данном месте, то можем подождать чуть дольше, пока не придут новые слова. Тогда мы либо лучше определимся с разбиением, либо превысим ограничение по контексту и будем вынуждены разбивать там, где почти уверены.
— Яндекс
Четвертая. Определяет количество спикеров, их пол и применяемые местоимения. Вычисляется тип голоса (мужской или женский) по частоте звучания: у мужчин — 80—150 Гц, у женщин — 150—250 Гц.
Пятая. Занимается переводом текста на русский язык.
Шестая. Синтезирует речь и синхронизирует её с роликом. Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь.
Как работает автоперевод трансляций
Схема работы переводчика
Понятное дело, что стрим — это не уже готовый ролик. Его нельзя заранее проанализировать и наложить озвучку.
Если в первом случае нейросеть получает уже целую аудиодорожку и работает с ней, то во втором такого запаса времени нет. Приходится работать в режиме синхронного перевода по создающейся дорожке.
По этой причине технологии немного отличаются, но языковые модели используются те же самые. В случае с трансляциями на помощь приходит третья нейросеть, ответственная за нормализацию речи. Она распознает начало и конец предложения, выделяет вводные слова, определяет сложносочиненные предложения и так далее.
Как только нейросеть расставит все знаки препинания, система определяет предложения с законченными мыслями и отправляет уже их на перевод.
Задержка при переводе прямых трансляций может составлять от 20 до 50 секунд. Неплохой результат, чтобы сильно не отставать от происходящего.
Особенно меня порадовало и то, что система умеет озвучивать разные голоса. И это, по всей видимости, появилось относительно недавно. Потому что на старте было доступно всего два голоса: один мужской и один женский. Теперь у каждого из них есть несколько вариаций звучания.
Как включить автоперевод видео
Функция перевода доступна на iOS, Android, Windows и macOS в приложении Яндекс или Яндекс Браузер.
Для запуска функции достаточно открыть любое видео на популярных платформах, вроде YouTube, Rutube, Vimeo и так далее. После включения ролика кнопка перевода появится автоматически. Останется только нажать на неё.
Для обычных роликов процесс запуска переводчика занимает пару секунд. А для трансляций обычно приходится сначала подождать около 15-20 секунд, если стрим только начался. А если он уже идет, то те же пару секунд.
Попробуйте, это очень полезная функция
Многие зарубежные видео недоступны на русском языке. Лишь редкие блогеры заказывают себе дубляж.
С помощью автоперевода в Яндекс Браузере эта проблема решается на раз-два. В пару кликов я уже смотрю ролик на русском языке и даже не мучаюсь от субтитров. Ничто не отвлекает, озвучка работает хорошо.
Единственное, лично мне не хватает «живости» самой озвучки. Хочется больше слышать похожих с оригиналом интонаций. Ну и пока функция работает далеко не со всеми стримами. Надеюсь, это исправят в скором времени.
41 комментариев
Форум →А еще полезнее выучить язык иностранный и не пользоваться помогаторами которые оттягивают знания. :)
@Closed Name, факт
@Closed Name, но …
есть ведь способы(методы) умножить делить и т.д. 2х-3х значные числа в уме. но мы перестали это делать. есть калькуляторы.
лет через 50-100 скорее всего никто не будет инвестировать время на изучение языков. и есть же прогнозы что лет через 200-300 все прийдут к некому единому (на текущий уровень прогнозов некая смесь китайского и английского)
@olbilyk, Английский язык сегодня не знать – позор. А насчет инвестирования времени, ты же инвестировал в написание этого поста, а мог бы пару слов новых выучить) Инвестор))
@FelizNavidad, это в офисной жизни все привыкли либо к американскому английскому, либо к РП – а вот в кино персонажи зачастую говорят с чудовищными акцентами. Посмотрите к\ф “Элизиум” – оттуда можно понять только персонажа Джоди Фостер (злодейка из привилигированного класса), остальные говорят либо на гетто-спике, ну а самый ужас – это главарь наемников в исполнении Шарлто Копле. Если вам мидландский диалект кажется тарабарщиной, то тарабарщина в квадрате – это акцент южноафриканский
@plodozhor, Да, такое есть, для этого можно включить субтитры на английском, тогда проблем не будет. Я иногда так делаю, когда фильм похож на тот, который вы описали.
@plodozhor, На самом деле я смотря на английском иногда включаю русские сабы и понимаю насколько перевод не точен. Зачастую его адаптирую, так как калька с английского выглядит странно, но смысл искажается.
@FelizNavidad, c значительное долей вероятности у меня у меня с языками не хуже чем у вас, а скорее даже лучше. администрация сайта хорошо видит кто от куда заходит и где живет. я живу в не русскоязычной стане и говорю кроме русского еще на 3х языках лучше или хуже. у меня достаточный английский для роботы в американской корпорации на протяжении скоро 20 лет.
по сути вопроса, вы узко мыслите, это не меня, вас, того парня.
это про то как меняется образ жизни.
@olbilyk, Ну вот, сам то язык получается выучил и живешь не в РФ, а другим советуешь не инвестировать в это время?)) Оригинально. А если серьезно, то через 50 лет никто ничего уже учить не будет, смысла будет очень мало, все будет «на лету» переводиться с помощью нейронок, такое уже сейчас возможно, просто пока аппаратная часть нормально не реализована.
@FelizNavidad, перечитал еще раз на всякий случай свои комментарии, я в них нет советов.
я только выразил мнение что люди перерестанут учить языки, т.к. мы быстро привыкаем к удомному и ленивы.
@FelizNavidad, в европейских странах, в которых я был (почти во всех) подавляющая часть людей вообще не знает английского, те вообще ни слова. При этом от возраста не зависит никак. Хрен знает как это им удается, со всем этим интернетом и засилием западной культуры но вот так. Большая часть региональных сайтов и интернет-магазинов не имеет перевода на английский. Выборка не научна конечно, и я имею ввиду именно жизнь в этих странах а не отели и туристические места, но что имеем. Получается «знать английский» это какой-то стереотип советских времен
@unknown, Это не так. Английский знают в Европе, зависит конечно от городов и сферы деятельности, но если сравнивать с РФ, то английский знают подавляющее большинство.
Конечно, те же французы, к примеру, очень не любят когда иностранец к ним обращается на английском, но это не значит что они этот язык не знают.
@FelizNavidad, не знают в евпопе английский. В германии голландии дании и далее на север – да
На юге – никто не знает.
@wxf, а юг это где? Испания и Италия?
@FelizNavidad, а если при этом знать китайский, например?
@olbilyk, смесь китайского и английского – это врядли.
Уж слишком разные языки
@wxf, в статье где я это читал, в качестве обоснования приводилось то что китай со своей промышленностью и финансовой мощью тесно связан со многими странами, ну и плюс кол-во населения. ну про английский тоже понятно.
@olbilyk, что это за прогнозы такие, было бы не плохо, конечно, но что-то оно совсем не корелируется с опытом
@unknown, в любом случае, нас эти прогнозы не затронут, мы либо будем знать языки либо нет.
@Closed Name, Согласен, но все языки не выучишь, а это действительно полезная возможность получить доступ к знаниям.
@Closed Name, полезнее? Еще 100500 вещей более полезных и важных, чем выучить язык, но большинство и в том числе вы скорее всего этого не делают. Мы же люди и нам свойственно жить оригинально, а не как полезнее и эффективнее, тогда мы бы превратились в роботов.
@Tilk, очень глубокий комментарий. Спасибо.
@Closed Name, ну и много ты языков выучил придурок?
Подхватывает на лету, это будущее, когда данную технологию встроят в наушник которая автоматом будет переводить всю речь вокруг также разделяя мужчин и женщин
круто ведь, для страны с 150 млн так и космически
Тоже пробовал пару видео глянуть, работает офигенно
Я так последнюю презентацию яблока смотрел. Удобно.
Яндекс всё-таки крутые ребята.
Насколько я понял, аналогов нет в мире?
@wxf, аналогов полно. Даже мимику губ уже перерисовывают под определённый язык. Только что-то в ютуб не торопятся это добавлять, почему-то.
@rukamaster, так я о реальных рабочих кейсах, а не о виртуальных достижениях
Только забыли уточнить: видео по часу и более – практически не переводит, нагрузка большая на сервер, пишет. И некоторые видео на англ реально вообще не переводит никак – глючит.
Только для этого и держу яндекс браузер.
Выделяет женский и мужской голос? Сексизм какой-то же :D
А с кинопоиском работает?
а мог бы прост английский выучить на уровне – восприятия на слух
Прикольно было бы сделать в стиле Гаврилова или Михалева
И обязательно найдутся персонажи, которые будут кричать: «Английский не знать — позор! Надо обязательно учить английский! Все крутые знают английский! Я знаю — я крутой!» И ладно бы речь шла о научных конференциях, а то кино и стримы блогеров они без перевода смотрят — подвиг прям!
Так-то в статье говориться об удобной технологии синхронного перевода видео с ПЯТИ языков, но кого это волнует…
@optimizer, ты бы русский подучил, прежде чем макать людей в научные конференции на английском…
а с частотой голоса = 150 Гц – это кто будет?
можно прикрутить к большинству браузеров, не обязательно использовать яндекс браузер
гитхаб.ком/ilyhalight/voice-over-translation/
@Pulse, спасибо, протестировал класная вещь
Нашли орфографическую ошибку в новости?
Выделите ее мышью и нажмите Ctrl+Enter.Почему не работает «Привет, Siri». Ассистент не откликается
Как заказать новый наушник AirPods взамен потерянного
Как сохранять «живые» фото для отправки на другие устройства?
Как включить уведомления о COVID-19 в iOS 13.7
Фестиваль Apple Music Festival не открывается в iTunes
Как научить Mac не отключать сеть в спящем режиме?
Как создать заграничный Apple ID без карты?
Почему на iPad пропадают открытые вкладки Safari. Исправляем ситуацию