Поддержка настроенной интеграции данных Google Analytics и FireBase в DataLake (Greenplum);
Разрабатывать схемы подключения новых источников в DataLake;
Принимать участие в архитектурных решениях;
Разрабатывать процедуры формирования детального слоя данных и слоя витрин DataLake;
Создавать и улучшать процессы обработки данных;
Реализовывать процессы CI/CD и мониторинга разработанных процессов обработки данных (Grafana, Prometheus);
Создание manual и automated DQ тестов;
Документирование работы в Confluence.
Ожидания от кандидата
Понимание принципа работы MPP баз данных (в частности Greenplum);
SQL с навыком оптимизации запросов (чтение плана, оценка, оптимизация);
Apache Spark - хотя бы понимание что это и для чего используется. В нашем случае актуален pyspark, но если был опыт со scala + spark, то это ок;
S3, хотя бы понимание что это и для чего;
Airflow, понимание на хорошем уровне (как писать даги, архитектура, best practice);
Понимание CI/CD, большой плюс, если есть опыт настройки процессов;
Опыт работы с системами контроля версий (Git);
Data Quality, хотя бы понимание зачем это надо.
Условия работы
работу в компании с развитой инженерной культурой;
гибкую систему премирования;
расширенный социальный пакет: ДМС со стоматологией с первого месяца работы, психолог и страхование жизни, компенсация питания и оплата мобильной связи;
возможности профессионального роста, программы развития для сотрудников;
корпоративное обучение и доступ к базе знаний;
внутренние профессиональные сообщества и мероприятия;
автономность работы, возможность менять правила, ошибаться и создавать новое;