Разработка интеллектуальной голосовой платформы для телекоммуникационной компании

Создание ядра интеллектуальной голосовой платформы для автоматизации клиентского сервиса и анализа голосового трафика. На базе технологий глубокого обучения разработали и внедрили высокоточные нейросетевые модели для автоматического распознавания речи (ASR) и преобразования речи в текст (TTS).

Клиент

Крупнейшая телекоммуникационная компания в России.

Задача

Бизнес-задачи проекта

Сокращение операционных издержек (OPEX) на 20–30% благодаря автоматизации типовых обращений в контакт-центр на 40%.
Повышение качества сервиса (CSAT/NPS): снижение времени ожидания ответа и повышение доступности сервиса 24/7.
Снижение рисков мошенничества через создание основы для будущей системы голосовой биометрии.
Получение глубинной аналитики из голосовых разговоров для управления продуктом и клиентским опытом.

Задачи в контексте разработки

Достичь точности распознавания выше 92% на реальных записях из колл-центра (с шумом и музыкой).
Обеспечить задержку (latency) менее 300 мс для режима реального времени (streaming).
Создать TTS-голос, неотличимый от человеческого (MOS - Mean Opinion Score выше 4.2).
Обеспечить масштабируемость системы для обработки более 100 тыс. часов аудио в сутки.

50 000 часов

размеченных аудиоразговоров для тренировки

<8% WER

ошибка распознавания в production

30%

снижение нагрузки на операторов

12+ млн

автоматически обработанных звонков за год

Решение

Что планировали сделать

Построить E2E-пайплайн: очистка аудио → распознавание → анализ текста (NLP) → генерация ответа (при необходимости) → синтез речи.

Гипотезы

Fine-tuning общедоступной модели (Wav2Vec 2.0) на 10 тыс. часов размеченных разговоров заказчика даст достаточный прирост точности.
Кастомная обработка аудио (подавление шумов типа DTMF, эхо) улучшит WER на 15%.

Почему именно так

Выбрали гибридный подход: дообучение state-of-the-art открытых моделей (эффективно по времени/бюджету) с «усиленным» кастомным аудио-пайплайном (решает уникальные проблемы телефонного аудио).

Этапы и сроки (общая длительность — 6 месяцев)

Подготовка данных (4 недели): сбор, анонимизация и разметка датасета (~50 тыс. часов).
Разработка прототипов (6 недель): на основе базовых моделей ASR и TTS.
Активная разработка и тренировка (12 недель): итеративная тренировка моделей ASR/TTS, создание аудио-пайплайна.
Оптимизация и тестирование (8 недель): оптимизация для production (квантование, ускорение инференса), нагрузочное тестирование. Проведено 1200+ тест-кейсов, исправлено 85+ критических ошибок в пайплайне.
Пилотная интеграция и поддержка (4 недели): внедрение в тестовом контуре колл-центра.

«Совместный проект позволил нам не просто внедрить технологию, а создать фундамент для data-центричного клиентского сервиса. Точность моделей в реальных условиях превзошла наши ожидания, и мы уже видим значительный операционный эффект»

Результат

Точность распознавания увеличена с 78 до 92.2%.
Синтезирован голос с MOS = 4.4 (оценка фокус-группы).
Задержка системы в пилотном контуре составила ~250 мс.
Модели устойчиво работают при SNR (соотношение сигнал/шум) до 5 дБ.

Бизнес-эффект

Сокращение нагрузки на операторов до 30% по обрабатываемым типовым запросам (баланс, тариф).
Снижение среднего времени ответа (ASA) с 4.5 до 1.2 минут.
Обработано автоматически свыше 12 млн звонков за первый год.
Расчетный ROI проекта: ~200% за 18 месяцев за счет экономии на расширении штата операторов и предотвращения потерь клиентов.

Трудности

Качество входных данных: исходные записи имели большой разброс по качеству (шум). Потребовалось разработать сложный пайплайн предобработки.
Специфическая лексика: множество аббревиатур, названий тарифов и услуг. Решение — создание кастомного словаря и активное дообучение.
Интеграция с legacy-системами: сложности при подключении к старой АТС. Потребовалось написание адаптивного middleware-слоя.
Высокие требования к задержке: достижение latency <300 мс потребовало глубокой оптимизации моделей и кэширования.

Технологии

Распознавание речи (ASR): архитектуры на основе Transformer (Conformer, Wav2Vec 2.0).
Синтез речи (TTS): нейросетевые модели с управлением эмоциями и стилем (на основе FastPitch, Tacotron2).
Фреймворки и библиотеки: PyTorch, TensorFlow, ESPnet (для комплексных пайплайнов ASR/TTS), Librosa.
Обработка аудио: алгоритмы шумоподавления и выделения речи (спектральные методы, RNNoise).
Языки программирования: Python, C++.
Инфраструктура: GPU-кластер для тренировки, Docker, Kubernetes для инференса.

Хотите узнать подробнее об услуге?

Узнать подробнее

Другие работы

Создание приложения управления сном для компании «Аскона»

Создание единой системы авторизации для крупной российской компании

Анализ процессов крупной производственной компании

Разработка мобильного приложения для Подели

Усиление команды по разработке системы управления грузоперевозками для компании «ТЕХНОНИКОЛЬ»

Автоматизация финансовой аналитики для «МК Лизинг»

Разработка корпоративного портала для обучения сотрудников крупной технологической компании

Развитие приложения Askona Sleep для компании «Аскона»

Создание приложения управления сном для компании «Аскона»

Создание единой системы авторизации для крупной российской компании

Анализ процессов крупной производственной компании

Разработка мобильного приложения для Подели

Усиление команды по разработке системы управления грузоперевозками для компании «ТЕХНОНИКОЛЬ»

Автоматизация финансовой аналитики для «МК Лизинг»

Разработка корпоративного портала для обучения сотрудников крупной технологической компании

Развитие приложения Askona Sleep для компании «Аскона»

Оставьте заявку на проект

Оставьте контакты, чтобы обсудить проект и условия сотрудничества, или позвоните: 8 800 200-99-24

Имя или организация

Телефон или Email

Расскажите про проект

Прикрепить файл до 10Мб

Файл выбран

Можно прикрепить один файл в формате: txt, doc, docx, odt, xls, xlsx, pdf, jpg, jpeg, png.

Размер файла до 10 Мб.

Нажимая на кнопку «отправить», я даю Согласие на обработку персональных данных. Подробнее об обработке в Политике защиты и обработки персональных данных АО «СимбирСофт»

Проекты

Пригласи друга

Наша история

Услуги

Работа в SimbirSoft

Контакты

Вакансии

О компании

Блог

Наши процессы

Проекты

Услуги

Вакансии

Блог

Пригласи друга

Работа в SimbirSoft

О компании

Наши процессы

Наша история

Контакты

Оставить заявку на услуги

request@simbirsoft.com

Вопросы партнерства и предложений

info@simbirsoft.com

Москва

8 800 200-99-24

Аутстаффинг IT-специалистов IT-аутсорсинг IT-продукт под ключ Искусственный интеллект Frontend-разработка Backend-разработка Разработка 1С на заказ Тестирование и обеспечение качества (QA) SDET (Разработка в тестировании) Техническая поддержка по SLA Jira Service Discovery Phase QA-консалтинг Разработка сайтов и корпоративных порталов Спасение продукта IT-консалтинг Внедрение решений 1С DevOps Бизнес-анализ и системный анализ Внедрение Битрикс Дизайн Разработка мобильных приложений UX-аудит IT-архитектура RPA-разработка Модернизация системы Разработка финансовых методологий Аудит ИТ-инфраструктуры Java JavaScript Bitrix C#/.NET 1С PHP QA iOS Android Go Python SDET

Политика защиты и обработки персональных данных Политика по работе с контрагентами Стоимость предоставления прав использования программы для ЭВМ Linkory Стоимость предоставления прав использования программы для ЭВМ InsuranceSimbirsoft Platform

АО «СимбирСофт» осуществляет следующие виды деятельности в соответствии с перечнем, утвержденным Приказом Минцифры от 11 мая 2023 г. N 449: код 1.01, код 2.01. Стоимость услуг является коммерческой тайной АО «СимбирСофт» и определяется индивидуально по запросу.

АО «СимбирСофт» обладает исключительными правами на следующие программы для ЭВМ:

Linkory. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.
InsuranceSimbirsoft Platform. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.
Cash-meter. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.
ShopChatSimbirsoft Platform. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.
Программа для ЭВМ «Места», «События», «Рекомендательная система», «Лента и стена» и «Настройки» для Russian Place. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору

Участники Реестра российского ПО: Linkory. Реестровая запись в едином реестре российских программ для электронных вычислительных машин и баз данных №17988. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору. InsuranceSimbirsoft Platform. Реестровая запись в едином реестре российских программ для электронных вычислительных машин и баз данных №12889. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.

АО «СимбирСофт» использует следующие языки программирования, ПО и (или) наборы правил и инструментов, которые используются для разработки ПО или построения процессов в программировании: Python, JavaScript (Node.js), Java, C#, PHP, Go, Ruby, JavaScript, TypeScript, CSS, HTML, Dart (Flutter), JavaScript (React Native), Kotlin (Android), Swift (iOS), С/C++, Встроенный язык 1С, R, SQL, языки специфичные для СУБД (PL/pgSQL для PostgreSQL), NoSQL-запросы.

Проекты

Услуги

Вакансии

Блог

Пригласи друга

Работа в SimbirSoft

О компании

Наши процессы

Наша история

Контакты

Оставить заявку на услуги

request@simbirsoft.com

Вопросы партнерства и предложений

info@simbirsoft.com

Москва

8 800 200-99-24

АО «СимбирСофт» обладает исключительными правами на следующие программы для ЭВМ:

Linkory. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.
InsuranceSimbirsoft Platform. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.
Cash-meter. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.
ShopChatSimbirsoft Platform. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору.
Программа для ЭВМ «Места», «События», «Рекомендательная система», «Лента и стена» и «Настройки» для Russian Place. Права использования предоставляются на условиях простой (неисключительной) лицензии по лицензионному договору