Разработка ИТ-системы обработки данных для международной компании
SimbirSoft сотрудничает с клиентом уже более 5 лет, успешно реализуя проекты с применением технологий искусственного интеллекта и собственной экспертизы в backend-разработке.
Клиент
Клиент — компания, которая специализируется на генеалогических исследованиях, обработке и предоставлении доступа к историческим архивным данным.
Задача
Стартовым проектом стала разработка сервиса по исследованию генеалогии с применением знаний по Machine Learning и Data Science .
Продолжая сотрудничество с клиентом, мы приняли участие в разработке ML-решения для извлечения данных из исторических рукописных текстов. Мы разработали систему создания ML-конвейеров, которая помогла значительно ускорить развертывание и тестирование ML-моделей.
Далее приступили к реализации задач:
-
Развертывание и тестирование отдельных ML-конвейеров.
-
Создание гибкой цепочки ML-конвейеров для решения.
-
Поддержка и улучшение существующих ML-конвейеров.
-
Помощь специалистам Data Science в отладке моделей.
-
Анализ и оптимизация стоимости.
-
Создание внутреннего веб-сервиса для облегчения отладки DS моделей и цепочек моделей.
Решение
-
ML-обработка большого числа страниц рукописных книг.
-
Уменьшение времени вывода моделей машинного обучения в промышленную эксплуатацию (Time-To-Market).
-
Поддержка и изменение существующих ML конвейеров.
-
Эффективное использование вычислительных ресурсов за счет автоматического масштабирования инфраструктуры.
-
Помощь Data Science специалистами с отладкой и решением возникших проблем.
Этапы проекта
1 этап — развертывание и отладка группы ML-конвейеров с различными моделями, объединение их в цепочку. Пример реализованной цепочки представлен на рисунке ниже.
2 этап — сопровождение конвейеров при тестировании и обработке реальных данных, а также проверка новых гипотез Data Science специалистов.
3 этап — развитие проекта, тестирование разных моделей. Изменение количества ML-контейнеров в цепочке.
Дополнительно внедрены механизмы контроля входных и выходных данных. А также разработан внутренний веб-сервис для облегчения отладки DS-моделей и цепочек моделей.
Результат
-
Скорость внедрения: Сокращение времени на развертывание новых моделей с недель до часов.
-
Экономия ресурсов: Оптимизация затрат на вычисления за счет автоматического масштабирования в AWS.
-
Надежность: Отказоустойчивость при обработке миллионов изображений
Технологии
-
AWS Sagemaker
-
EC2
-
S3
-
SNS
-
SQS
-
Firehose
-
Terraform
-
Harness
-
NewRelic
-
Jenkins
-
FastAPI
-
Angular