Команда DWH занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского. Наша платформа позволяет решать важные продуктовые задачи и принимать стратегические решения в компании на основе данных.
Основное хранилище данных реализовано на MS SQL Server. Его объем исчисляется терабайтами данных и продолжает расти. Сейчас активно в недряем DataLake на базе Kafka, Airflow, Hadoop, Hive, Spark и нам необходимо развивать процессы и инфраструктуру для тестирования.
В качестве источников данных используются: базы данных, API, SFTP(файлы разных форматов), брокеры сообщений (RabbitMQ, Kafka).
В команде хорошо развиты процессы и инженерные практики: написание автотестов, ревью, CI, автоматизированные мониторинги.
Мы ожидаем от вас:
Будет плюсом:
Задачи: