Система сбора данных с сайтов объявлений

Система сбора данных с сайтов объявлений

  • Java
  • Python
  • QAA
  • Ритейл

Программа для сбора данных с сайтов объявлений. Роботы-краулеры имитируют действия пользователя сайта и собирают требуемую информацию. Помимо текстовых данных роботы распознают и информацию с изображений: адреса, номера телефонов.

Мы внедрили авто тесты для проверки функционала сайтов. Сбор информации на одном ресурсе занимает 3-6 дней. Поэтому перед запуском тестов нужно проверить, не изменился ли функционал или расположение блоков, чтобы роботы не “потерялись”.

Проект в цифрах

  • 10 роботов разработано
  • 1 000 000 записей в день
  • 7 месяцев разработки
  • 90% распознавание данных с изображений

Ключевые технологии

Разработка: Scrapy, Spark, Scala, Java, Python, Tesseract
Инструменты тестирования: XPath, Selenium, PyTest, JSON, request

Почувствуйте наш подход и повторите
успех наших клиентов

Напишите нам
АЛЕКСАНДР НОСКОВ
АЛЕКСАНДР НОСКОВ
СЕРГЕЙ ИСАКОВ
СЕРГЕЙ ИСАКОВ