Создание ИТ-системы обработки данных для генеалогической сферы
Проектирование, разработка и поддержка внутренней автоматизированной системы для создания конфигурируемых и production-ready конвейеров обработки больших данных с интеграцией моделей машинного обучения.
Решение обеспечивает масштабируемость, отказоустойчивость и управление полным жизненным циклом данных — от загрузки и предпроцессинга до инференса и мониторинга.
Клиент
Клиент — компания, которая специализируется на генеалогических исследованиях, обработке и предоставлении доступа к историческим архивным данным.
Задача
Перед командой SimbirSoft стояли следующие задачи:
-
Минимизировать ошибки в процессах интеграции ML-моделей,
-
Снизить ручной труд,
-
Сократить время вывода моделей ML в промышленную эксплуатацию (Time-To-Market),
-
Масштабировать инфраструктуру,
-
Организовать мониторинг и механизмы оповещений.
Решение
Минимизация ошибок в процессах интеграции ML-моделей
Разработаны шаблоны для генерации конвейеров обработки данных. Использовали Docker-контейнеры для изоляции моделей с разными зависимостями, что снижает риски конфликтов и ошибок развертывания. Конвейеры проектировались для работы с изображениями и сканами документов и поддерживают высоконагруженные операции: предобработка, OCR и GPU-вычисления.
Снижение ручного труда за счет автоматизации ETL/ML-процессов
Конвейеры построены на базе Python-приложений — это позволяет гибко интегрировать как готовые ML-библиотеки, так и кастомную логику. Такой подход позволил существенно сократить объем ручных операций при обработке данных и работе с моделями.
Уменьшение Time-To-Market
Для сокращения сроков внедрения решений и ускорения разработки реализовали интеграцию с AWS сервисами, включая AWS SageMaker. Применение AWS сервисов обеспечило возможность динамического масштабирования.
Дополнительно организовали мониторинг для отслеживания падений производительности и ошибок обработки.
Результат
-
Скорость внедрения: Сокращение времени на развертывание новых моделей с недель до часов.
-
Экономия ресурсов: Оптимизация затрат на вычисления за счет автоматического масштабирования в AWS.
-
Надежность: Отказоустойчивость при обработке миллионов изображений
Также благодаря разработанной автоматизированной системе создания ML конвейеров, мы приняли участие в разработке ML решения для извлечения данных из исторических рукописных текстов.
Трудности
В процессе реализации проекта команда успешно справилась с возникшими проблемами, связанными с повышенной сложностью интеграции кастомных ML-моделей при отсутствии общепринятых стандартов.
Технологии
-
AWS (SQS, SNS, EC2, Lambda, S3, Sagemaker, ASG и тд)
-
Python
-
Terraform
-
Jenkins
-
Docker
-
Harness
-
BentoML