SberDevices анонсировала семейство моделей с открытым исходным кодом GigaAM.
Они предназначены для корректного распознавания русского языка и эмоций. Их можно использовать для написания научных статей и дипломных работ.
Семейство состоит из трех нейромоделей: GigaAM, GigaAM-CTC и GigaAM-Emo.
GigaAM — Audio Foundation Model, предобученная на русской речи. Она нужна для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и многие другие.
GigaAM-CTC является моделью для распознавания русскоязычных запросов. По данным компании, модель допускает в коротких запросах на 20–35% меньше ошибок в словах в сравнении с NeMo-Conformer-RNNT и Whisper-Large-v3.
GigaAM-Emo — это акустическая модель для определения эмоций. Она стала лучшей на крупнейшем датасете Dusha среди известных моделей.
Сравнение GigaAM с аналогами
SberDevices отмечает, что все новые модели размещены в открытом доступе с некоммерческой лицензией.
Новинки доступны на платформе SaluteSpeech API и в приложении SaluteSpeech App. Бизнес сможет интегрировать ботов на их базе в свои решения, а пользователи приложения, к примеру, смогут протестировать распознавание на лекциях или в ходе совещаний.
4 комментария
Форум →Наконец-то люди узнают, какие эмоции они испытывают.
@Йода, это госкорпорации узнают. А люди нет..
@tylerDurden, Госкорпорации вряд ли волнуют эмоции людей ;)
Кто бы что ни говорил, Сбер единственный конкурент Яндекса в РФ
Нашли орфографическую ошибку в новости?
Выделите ее мышью и нажмите Ctrl+Enter.Сколько месяцев действует гарантия на технику Apple
Как настроить внешний вид папок на Mac
Как настроить iPad для постоянной работы в режиме энергосбережения. Автономность сильно увеличится
Почему Time Machine съедает все свободное место на Mac
Как управлять автозагрузкой приложений на Mac?
Как объединить несколько мессенджеров в одном приложении
Как на iPhone узнать текущую высоту над уровнем моря
Почему iPhone с iOS 14 не видит другие устройства в сети Wi-Fi