Сбер выпустил новое приложение SaluteSpeech для работы с текстом и речью.
В нём доступно две функции: распознавание и синтезирование. В первом случае программа расшифровывает речь из аудиозаписей и представляет их в текстовом формате. Во втором — озвучивает текст с возможностью настраивать паузы и ударения.
Для озвучки доступно семь голосов на русском и английском языках. Работает приложение с форматами pcm, opus, mp3, flac, alaw и mulaw.
В SaluteSpeech встроен GigaChat API, так что пользователь может загрузить короткие тезисы, из которых ИИ подготовит текст для озвучивания. Либо можно сделать краткую выжимку из готового текста.
Приложение бесплатное, но чтобы начать работу, надо подключить сервис SaluteSpeech. Его минимальная стоимость за месяц использования — 600 рублей. Есть бесплатный тариф для физлиц Freemium, по нему доступно 100 минут распознавания и 200 тысяч символов синтеза в месяц. [VC]

5 комментариев
Форум →