Data Engineering

Senior Data Engineer Full-time

О компании и команде

Циан — публичная аккредитованная IT-компания, крупнейший в России сервис для поиска недвижимости, входит в мировой топ-10.

Больше 20 лет мы помогаем быстрее решать вопросы с жилой и коммерческой недвижимостью: найти, оценить, купить, снять, продать, сдать и оформить сделку без рисков. Мы делаем сервисы, которые помогают владельцам недвижимости, застройщикам, агентам и обычным людям оптимизировать рутину поиска и продаж.

Ежемесячная аудитория превышает 18,7 млн человек. Растить число пользователей и решать их проблемы помогают уже больше 1000 человек.

Мы быстрорастущая компания и объём данных у нас постоянно растёт. С ростом данных появляется необходимость в их быстрой и качественной обработке, организации масштабируемого хранилища и предоставлении доступа различным потребителям данных. Команда Data Engineers отвечает за поддержку и развитие платформы данных на базе Hadoop ecosystem которая решает основные вопросы управления данными. У нас также есть свои продукты которые мы предоставляем пользователям внутри компании. Например, собственный feature store для команд Data Science и пайплайн расчёта статистики пользователей за день. Разноплановые задачи позволяют быстро расти не только в технических скилах, но и в soft skills - мы непосредственно работаем с командами Data Sciense, Analytics, ML Platform, DevOps и платформой Циан. Предоставляем возможность для внешнего и внутреннего обучения, а также посещения профильных конференций (например, Highload).

О команде:
Команда Data Engineers - часть отдела Machine Learnings со своим Team Lead. Кроме TL в команде на данный момент 3 разработчика. Мы работаем по scrum методологии и стараемся быть гибкими в процессах, поэтому у нас есть небольшой daily scrum meeting, планирование спринта по пятницам (1 спринт = 1 неделя) и в конце месяца мы совмещаем планирование с небольшим ретро. Раз в месяц весь отдел ML собирается на демо дни для обсуждения своих квартальных планов и обмена опытом. Т.к. у нас много задач по написанию кода, мы работаем по git branch flow с обязательными кросс-ревью.

О стеке, процессах разработки:
Python 3.9/3.10, Spark 3, Airflow 2.5, NoSQL DB (Redis, Cassandra), Kafka, Scala (есть небольшой процент задач по Spark Streaming).

Мы постоянно работаем над автоматизацией рутинных процессов и разрабатываем внутренние библиотеки для повышения developer experience. Стараемся своевременно обновлять кодовую базу и мигрировать на новые версии Python/Spark.

Кроме работы с DE технологиями, есть возможность повышать свой скилл в Python и присоединиться к Python-гильдии которая состоит из более чем 65 человек и активно развивается. Python разработчики собираются каждую неделю, обсуждают новости, проблемы, результаты работы гильдии за прошедшую неделю.

Ожидания от кандидата

  • Имеет опыт работы с Hadoop стеком от 3х лет;
  • Верхнеуровнево понимает архитектуру работы HDFS: какие типы нод за что отвечают, как работает Erasure Coding;
  • Имеет опыт работы со Spark: может объяснить что такое драйвер и экзекьюторы, пояснить за ленивость и actions, как связаны RDD и Dataframe;
  • Кодит на Python: основные типы и структуры данных, понимание концепций работы async кода и его отличий от классической модели, OOP, декораторы/Генераторы/Итераторы/context manager;
  • Работал с Kafka;
  • Умеет поддерживать коммуникацию как внутри команды, так и со смежными командами;
  • Лоялен к периодическим дежурствам.

Условия работы

  • Работа над платформенным решением по обработке данных для внутренних проектов;
  • Injection data (raw/parsed layers). Загружаем данные из kafka во внутреннее хранилище для пользователей;
  • Airflow интеграция. Своя библиотека для унификации работы с airflow;
  • Feature store. Развиваем свой для улучшения метрики ttm проектных команд (ds);
  • Другие активности: data catalog, functional testing tool, миграция в k8s;
  • Обработка данных и сбор статистики для продуктов команд;
  • Подготовка данных для ML;
  • Разработка streaming pipeline для продуктовых команд;
  • Поддержка решения в PROD;
  • Поддержка уже существующих решений.

Бонусы

  • Удаленную работу в том числе из другого региона или с возможностью приходить в офис в Москве, Санкт-Петербурге и Новосибирске. В офисе – кухни, оборудованные всем необходимым, а также снеки, фрукты, кофе и чай, бесплатная авто и велопарковки;
  • Рост и развитие: в первые месяцы у каждого сотрудника есть ментор, после появляется личный план развития и возможность прокачивать soft/ hard skills на практике, обучении, конференциях;
  • Плюшки: ДМС с первого дня (стоматология, госпитализация, полис ВЗР), ежегодная компенсация спорта, 5 day off в год, помимо основного отпуска.

Overview

  • Employer: Циан
  • Job Title: Senior Data Engineer
  • Published: 9 months, 3 weeks ago
Apply For This Job