En
Проекты Вакансии Блог

Разработка интеллектуальной голосовой платформы для телекоммуникационной компании

Создание ядра интеллектуальной голосовой платформы для автоматизации клиентского сервиса и анализа голосового трафика. На базе технологий глубокого обучения разработали и внедрили высокоточные нейросетевые модели для автоматического распознавания речи (ASR) и преобразования речи в текст (TTS).

Клиент

Крупнейшая телекоммуникационная компания в России.

Задача

Бизнес-задачи проекта

  1. Сокращение операционных издержек (OPEX) на 20–30% благодаря автоматизации типовых обращений в контакт-центр на 40%.
  2. Повышение качества сервиса (CSAT/NPS): снижение времени ожидания ответа и повышение доступности сервиса 24/7.
  3. Снижение рисков мошенничества через создание основы для будущей системы голосовой биометрии.
  4. Получение глубинной аналитики из голосовых разговоров для управления продуктом и клиентским опытом.

Задачи в контексте разработки

  1. Достичь точности распознавания выше 92% на реальных записях из колл-центра (с шумом и музыкой).
  2. Обеспечить задержку (latency) менее 300 мс для режима реального времени (streaming).
  3. Создать TTS-голос, неотличимый от человеческого (MOS - Mean Opinion Score выше 4.2).
  4. Обеспечить масштабируемость системы для обработки более 100 тыс. часов аудио в сутки.
50 000 часов
размеченных аудиоразговоров для тренировки
<8% WER
ошибка распознавания в production
30%
снижение нагрузки на операторов
12+ млн
автоматически обработанных звонков за год

Решение

Что планировали сделать

Построить E2E-пайплайн: очистка аудио → распознавание → анализ текста (NLP) → генерация ответа (при необходимости) → синтез речи.

Гипотезы

  1. Fine-tuning общедоступной модели (Wav2Vec 2.0) на 10 тыс. часов размеченных разговоров заказчика даст достаточный прирост точности.
  2. Кастомная обработка аудио (подавление шумов типа DTMF, эхо) улучшит WER на 15%.

Почему именно так

Выбрали гибридный подход: дообучение state-of-the-art открытых моделей (эффективно по времени/бюджету) с «усиленным» кастомным аудио-пайплайном (решает уникальные проблемы телефонного аудио).

Этапы и сроки (общая длительность — 6 месяцев)

  1. Подготовка данных (4 недели): сбор, анонимизация и разметка датасета (~50 тыс. часов).
  2. Разработка прототипов (6 недель): на основе базовых моделей ASR и TTS.
  3. Активная разработка и тренировка (12 недель): итеративная тренировка моделей ASR/TTS, создание аудио-пайплайна.
  4. Оптимизация и тестирование (8 недель): оптимизация для production (квантование, ускорение инференса), нагрузочное тестирование. Проведено 1200+ тест-кейсов, исправлено 85+ критических ошибок в пайплайне.
  5. Пилотная интеграция и поддержка (4 недели): внедрение в тестовом контуре колл-центра.

«Совместный проект позволил нам не просто внедрить технологию, а создать фундамент для data-центричного клиентского сервиса. Точность моделей в реальных условиях превзошла наши ожидания, и мы уже видим значительный операционный эффект»

Результат

  • Точность распознавания увеличена с 78 до 92.2%.
  • Синтезирован голос с MOS = 4.4 (оценка фокус-группы).
  • Задержка системы в пилотном контуре составила ~250 мс.
  • Модели устойчиво работают при SNR (соотношение сигнал/шум) до 5 дБ.

Бизнес-эффект

  • Сокращение нагрузки на операторов до 30% по обрабатываемым типовым запросам (баланс, тариф).
  • Снижение среднего времени ответа (ASA) с 4.5 до 1.2 минут.
  • Обработано автоматически свыше 12 млн звонков за первый год.
  • Расчетный ROI проекта: ~200% за 18 месяцев за счет экономии на расширении штата операторов и предотвращения потерь клиентов.

Трудности

  1. Качество входных данных: исходные записи имели большой разброс по качеству (шум). Потребовалось разработать сложный пайплайн предобработки.
  2. Специфическая лексика: множество аббревиатур, названий тарифов и услуг. Решение — создание кастомного словаря и активное дообучение.
  3. Интеграция с legacy-системами: сложности при подключении к старой АТС. Потребовалось написание адаптивного middleware-слоя.
  4. Высокие требования к задержке: достижение latency <300 мс потребовало глубокой оптимизации моделей и кэширования.

Технологии

  • Распознавание речи (ASR): архитектуры на основе Transformer (Conformer, Wav2Vec 2.0).

  • Синтез речи (TTS): нейросетевые модели с управлением эмоциями и стилем (на основе FastPitch, Tacotron2).

  • Фреймворки и библиотеки: PyTorch, TensorFlow, ESPnet (для комплексных пайплайнов ASR/TTS), Librosa.

  • Обработка аудио: алгоритмы шумоподавления и выделения речи (спектральные методы, RNNoise).

  • Языки программирования: Python, C++.

  • Инфраструктура: GPU-кластер для тренировки, Docker, Kubernetes для инференса.

Хотите узнать подробнее об услуге?
Узнать подробнее
snippet
Другие работы
Создание приложения управления сном для компании «Аскона»
Создание единой системы авторизации для крупной российской компании
Анализ процессов крупной производственной компании
Усиление команды по разработке системы управления грузоперевозками для компании «ТЕХНОНИКОЛЬ»
Автоматизация финансовой аналитики для «МК Лизинг»
Разработка корпоративного портала для обучения сотрудников крупной технологической компании
Развитие приложения Askona Sleep для компании «Аскона»
Создание приложения управления сном для компании «Аскона»
Создание единой системы авторизации для крупной российской компании
Анализ процессов крупной производственной компании
Усиление команды по разработке системы управления грузоперевозками для компании «ТЕХНОНИКОЛЬ»
Автоматизация финансовой аналитики для «МК Лизинг»
Разработка корпоративного портала для обучения сотрудников крупной технологической компании
Развитие приложения Askona Sleep для компании «Аскона»
Оставьте заявку на проект
Оставьте контакты, чтобы обсудить проект и условия сотрудничества, или позвоните: 8 800 200-99-24
Прикрепить файл до 10Мб
Файл выбран
Можно прикрепить один файл в формате: txt, doc, docx, odt, xls, xlsx, pdf, jpg, jpeg, png.

Размер файла до 10 Мб.
Написать нам
Оставьте контакты, чтобы обсудить проект и условия
сотрудничества, или позвоните: 8 800 200-99-24
Прикрепить файл до 10Мб
Файл выбран
Можно прикрепить один файл в формате: txt, doc, docx, odt, xls, xlsx, pdf, jpg, jpeg, png.

Размер файла до 10 Мб.
Оставьте свои контакты
SimbirSoft регулярно расширяет штат сотрудников.
Отправьте контакты, чтобы обсудить условия сотрудничества.
Прикрепить резюме, до 10 Мб
Файл выбран
Можно прикрепить один файл в формате: txt, doc, docx, odt, xls, xlsx, pdf, jpg, jpeg, png.

Размер файла до 10 Мб.
Написать нам
Расскажите, какие задачи сейчас на вашем проекте.
Проконсультируем и предложим подходящих специалистов, а также сориентируем по ставкам на аутстаф.
Направление
Количество специалистов
Middle
TeamLead
Senior
TechLead
Прикрепить файл до 10Мб
Файл выбран
Можно прикрепить один файл в формате: txt, doc, docx, odt, xls, xlsx, pdf, jpg, jpeg, png.

Размер файла до 10 Мб.
Экспресс-консультация
Заполните все поля формы.
Эксперт свяжется с вами в течение рабочего дня.
Тематика
Прикрепить файл до 10Мб
Файл выбран
Можно прикрепить один файл в формате: txt, doc, docx, odt, xls, xlsx, pdf, jpg, jpeg, png.

Размер файла до 10 Мб.
Порекомендуйте друга — получите вознаграждение!
  • Системный аналитик (финтех)
  • React-разработчик
  • Golang-разработчик
  • 1С-разработчик
  • DWH-аналитик
  • SDET Java
  • QA Fullstack Java/Kotlin
  • Специалист по кадровому делопроизводству
  • DevOps/MLOps-инженер
  • Бухгалтер по расчету заработной платы
  • Системный аналитик ЦФТ
  • Senior DevOps-инженер
  • MLOps/DevOps-инженер (LLM Platform)
  • ML-инженер/ MLOps
  • Системный аналитик (производство)
  • DevOps-инженер
  • Фулстек-разработчик C#/React
Прикрепить резюме, до 10Мб
Файл выбран
Можно прикрепить один файл в формате: txt, doc, docx, odt, xls, xlsx, pdf, jpg, jpeg, png.

Размер файла до 10 Мб.
Заказать демонстрацию
Оставьте контакты, чтобы обсудить проект и условия
сотрудничества, или позвоните: 8 800 200-99-24
Прикрепить файл до 10Мб
Файл выбран
Можно прикрепить один файл в формате: txt, doc, docx, odt, xls, xlsx, pdf, jpg, jpeg, png.

Размер файла до 10 Мб.