Мы ищем инженера данных, работающего с технологиями параллельной
обработки данных на Hadoop, для участия в развитии облачной платформы
машинного обучения.
• Опыт разработки на Java от 3 лет
• Опыт работы со Spark от 2 лет
• Опыт постановки джоб на расписание в Apache Airflow, Oozie
• Знание SQL
• Понимание принципов оптимизации обработки данных (знание форматов
хранения данных, понимание принципов работы join и т.д.)
• Умение писать юнит тесты, проводить и проходить code review
• Опыт менторства
Будет плюсом
• Опыт руководства командой
• Опыт коммерческой разработки сервисов
• Опыт работы с Apache Kafka
• Опыт работы с RabbitMQ
• Опыт работы c реляционными базами данных, например, Oracle, Postgress
• Навык работы с Docker, Kubernetes
Чем предстоит заниматься
• Руководить группой поставки данных и потоков
• Оценивать задачи и планировать работу группы
• Курировать внешние запросы к команде в качестве третьей линии
поддержки
• Устранять аварии и обеспечивать SLA поставки на необходимом уровне
• Помогать команде в процессе разработки сервисов данных
• Писать Spark джобы для регулярной поставки данных на платформу, с
последующей постановкой их на расписание
• Работать с батчевыми и потоковыми источниками данных, обеспечивая их
минимальную задержку
• Анализировать производительность и масштабировать компоненты
системы под возрастающую нагрузку
• Работать с сервисами, обеспечивающими конфиденциальность данных