Data Engineering

Data engineer Full-time

О компании и команде

Не будем повторять то, что написано о нас на страничке «О компании». Там ты найдешь ответы на вопросы "Кто мы?", "Почему сейчас ищем людей?" и "Что стратегически нами задумано?", букв немного, вся суть передана, цифры говорят сами за себя!

Ожидания от кандидата

Какой человек нам нужен?

Самостоятельный, убедительный, амбициозный, с лидерскими качествами (или умением сделать так, чтобы управлять не приходилось:) стремящийся к построению качественных процессов и, как следствие, качественному сбору, хранению и поставке данных.

Что мы предлагаем:

  • Занимается созданием централизованной системы сбора и обработки данных
  • Работать в компании, где тебя слышат и ценят твой вклад
  • Влиять на технические решения и планомерно повышать качество сбора, хранения и поставки данных
  • Работать с командой людей, умеющих принимать решения, амбициозных, увлеченных своим делом и проектом
  • Разрабатывать востребованный продукт и получать четкий фидбэк от пользователей
  • Решать амбициозные задачи
  • Получить профессиональный рост (у нас есть тренинги, конференции, сильная команда, которая готова делиться знаниями и в которой можно быстро расти)

Немного о том, что уже сделали и что нам еще предстоит :)

На текущий момент мы подготовили инфраструктуру на базе Hadoop и GreenPlum для загрузки, обработки и построения витрин данных. Описали и загрузили данные нескольких продуктов холдинга и приступили к описанию и загрузке следующих. Дальше планируем развивать и масштабировать инфраструктуру, запускать потоковое получение данных и увеличивать количество подключенных источников и доверие к данным.

Что планируем сделать:

  • Загрузим все источники данных
  • Приведем data-flow между продуктами к целевому состоянию
  • Устраним расхождение данных между продуктами
  • Опишем все ключевые данные, как результат: есть data-каталог, описан flow данных

На практике это значит, что мы будем решать следующие задачи:

  • Контроль всех ключевых данных в холдинге за счет правильно выстроенной системы мониторинга и алертинга
  • Создание хранилища, из которого каждый новый отчет будет рождаться за “один день”
  • Настройка автоматического подключения событий
  • Загрузка данных из различных источников в Hadoop, как Batch, так и Stream
  • Обработка полученных данных - создание централизованной и прозрачной обработки данных
  • Структурирование и мониторинг потоков данных
  • Подготовка витрин данных для конечных пользователей

Что для нас важно в тебе:

  • Уверенные знания SQL и баз данных
  • Знание одного из ЯП: Python, Scala, Java
  • Знание основ ООП
  • Опыт работы с системами контроля версий (Git)
  • Умение организовать процесс загрузки, обработки и доставки обработанных данных конечным потребителям
  • Высокий уровень самообучения

Не обязательно, но будет очень здорово, если:

  • Знаешь Open Source фреймворки Big Data: (Hadoop, MapReduce, Spark & Spark Streaming, Hive, Kafka)
  • Знаком с Apache Nifi и Apache Airflow

Условия работы

Какой человек нам нужен?

Самостоятельный, убедительный, амбициозный, с лидерскими качествами (или умением сделать так, чтобы управлять не приходилось:) стремящийся к построению качественных процессов и, как следствие, качественному сбору, хранению и поставке данных.

Что мы предлагаем:

  • Занимается созданием централизованной системы сбора и обработки данных
  • Работать в компании, где тебя слышат и ценят твой вклад
  • Влиять на технические решения и планомерно повышать качество сбора, хранения и поставки данных
  • Работать с командой людей, умеющих принимать решения, амбициозных, увлеченных своим делом и проектом
  • Разрабатывать востребованный продукт и получать четкий фидбэк от пользователей
  • Решать амбициозные задачи
  • Получить профессиональный рост (у нас есть тренинги, конференции, сильная команда, которая готова делиться знаниями и в которой можно быстро расти)

Немного о том, что уже сделали и что нам еще предстоит :)

На текущий момент мы подготовили инфраструктуру на базе Hadoop и GreenPlum для загрузки, обработки и построения витрин данных. Описали и загрузили данные нескольких продуктов холдинга и приступили к описанию и загрузке следующих. Дальше планируем развивать и масштабировать инфраструктуру, запускать потоковое получение данных и увеличивать количество подключенных источников и доверие к данным.

Что планируем сделать:

  • Загрузим все источники данных
  • Приведем data-flow между продуктами к целевому состоянию
  • Устраним расхождение данных между продуктами
  • Опишем все ключевые данные, как результат: есть data-каталог, описан flow данных

На практике это значит, что мы будем решать следующие задачи:

  • Контроль всех ключевых данных в холдинге за счет правильно выстроенной системы мониторинга и алертинга
  • Создание хранилища, из которого каждый новый отчет будет рождаться за “один день”
  • Настройка автоматического подключения событий
  • Загрузка данных из различных источников в Hadoop, как Batch, так и Stream
  • Обработка полученных данных - создание централизованной и прозрачной обработки данных
  • Структурирование и мониторинг потоков данных
  • Подготовка витрин данных для конечных пользователей

Что для нас важно в тебе:

  • Уверенные знания SQL и баз данных
  • Знание одного из ЯП: Python, Scala, Java
  • Знание основ ООП
  • Опыт работы с системами контроля версий (Git)
  • Умение организовать процесс загрузки, обработки и доставки обработанных данных конечным потребителям
  • Высокий уровень самообучения

Не обязательно, но будет очень здорово, если:

  • Знаешь Open Source фреймворки Big Data: (Hadoop, MapReduce, Spark & Spark Streaming, Hive, Kafka)
  • Знаком с Apache Nifi и Apache Airflow

Overview

  • Employer: Action tech
  • Job Title: Data engineer
  • Published: 1 year ago
Apply For This Job