Система сбора данных с сайтов объявлений
- Java
- Python
- SDET
- Ритейл
Программа для сбора данных с сайтов объявлений. Роботы-краулеры имитируют действия пользователя сайта и собирают требуемую информацию. Помимо текстовых данных роботы распознают и информацию с изображений: адреса, номера телефонов.
Мы внедрили авто тесты для проверки функционала сайтов. Сбор информации на одном ресурсе занимает 3-6 дней. Поэтому перед запуском тестов нужно проверить, не изменился ли функционал или расположение блоков, чтобы роботы не “потерялись”.
Проект в цифрах
-
10 роботов разработано
-
1 000 000 записей в день
-
7 месяцев разработки
-
90% распознавание данных с изображений
Ключевые технологии
Разработка: Scrapy, Spark, Scala, Java, Python, Tesseract
Инструменты тестирования: XPath, Selenium, PyTest, JSON, request