Как отечественная IT-разработка способна изменить классический подход к управлению бизнес-логикой в российских компаниях
Организация быстрого и надежного доступа к корпоративной инфраструктуре с помощью смарт-карт для девелоперской компании
Серверы, СХД и коммутаторы от Fplus: обзор актуальных линеек оборудования
Анжелла Татарская, ГК Softline: «Мы формируем на ИТ-рынке уникальный пул знаний»
Отечественное АСУ ТП – миф или реальность?
ЦБ
°
вторник, 3 декабря 2024

Переход на архитектуру Zipformer позволил в 3 раза ускорить распознавание устной речи

Переход на архитектуру Zipformer позволил в 3 раза ускорить распознавание устной речи
Компания BSS значительно улучшила производительность своего модуля автоматического распознавания речи (ASR), используемого в диалоговой платформе Digital2Speech. Новая версия ASR работает более чем в три раза быстрее, сохраняя при этом высокое качество распознавания.

Благодаря недавнему обновлению скорость реакции голосового робота увеличилась более чем в три раза. Это означает, что голосовой ассистент теперь отвечает на запросы пользователей ощутимо быстрее, поэтому взаимодействие с ним стало более плавным и естественным. Несмотря на значительное увеличение скорости, качество распознавания речи не только не пострадало, но и улучшилось. 

Основным фактором, позволившим реализовать эти улучшения и достичь результата, стал переход на новую архитектуру нейросети Zipformer. Эта архитектура существенно ускоряет процесс распознавания и увеличивает его точность за счет уменьшенного количества слоев нейросети, специальных методов сжатия данных и ряда других механик. Ранее компания использовала технологию Conformer.

Новая архитектура позволяет значимо снизить требования к аппаратному обеспечению и экономить на вычислительных мощностях благодаря увеличению эффективности. Оптимизированное решение адаптировано для использования в контуре заказчика. Поэтому обновленный ASR по-прежнему можно запускать как на GPU картах для обеспечения максимальной производительности, так и на более доступных x86 серверах.

«Скорость отклика голосового робота является одной из трех важнейших характеристик, по которым пользователи оценивают "человечность" и "приятность" голосового ассистента. И мы смогли, как минимум, в три раза ускорить распознавание вопроса абонента, сделав взаимодействие с нашим голосовым роботом еще более комфортным. Сегодня Zipformer это новейшая и самая эффективная архитектура для задач распознавания речи, которая появилась только год назад. Я рад, что мы одни из первых смогли представить ее своим клиентам и подготовить надежное решение Enterprise уровня», — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.

Тематики: Фиксированная связь, Интеграция

Ключевые слова: BSS

Свежее по теме