Грузинский офис беларуской компании Nooga Development приглашает кандидатов на позицию Big Data разработчика для реализации системы сбора и анализа данных на базе собственных алгоритмов AI.
В общих тепрминах наш продукт это BI/AI/BigData/DWH/B2G-платформа. Скоро уже будет год, как мы вышли в продакшн
Есть как линейные задачи, так и архитектурные.Поэтому если у Вас за спиной есть всего 1-2 года в коммерческой разработке (big data решений), то уже можем пообщаться, если 3+, то еще лучше :)
Вы можете подойти нам, если:
- у Вас есть опыт в разработке систем сбора и обработки данных (data lake, data warehouse, OLAP systems, BI, ETL)
Компания
Nooga development - продуктовая компания-разработчик программного обеспечения
Тезисно:
- фокус - собственные цифровые продукты в области фискализации, обработка больших ( и не очень :) ) данных с использованием AI/ML подходов
- мы - компактная компания, несколько команд разработки, сфокусированные на своих продуктах. Сейчас нас меньше 40 человек.
- в компании уже есть продукт B2G в продакшн, который мы развиваем и продвигаем в другие регионы,
- сейчас работаем над вторым продуктом, в команду которого и ведем найм новых сотрудников
Продукт
Платформа сбора, обработки/анализа и презентации больших данных в области фискализации, ритейла, и других областях.
С точки зрения разработчика, платформа - это сплав из big data / high load + обработка на базе алгоритмов AI/ML. и все это на Open Source и на On-Premise.
Все продуктовые и технические решения мы принимаем внутри команды и разрабатываем сами, так что интересных вызовов будет с запасом :)
За счет чего мы конкурируем с BI платформами общего назначения(Oracle BI/QlikView) - предлагаем специализированные для домена пользователя функции на базе математического аппарата AI/ML. Примеры: классификация товара по произвольному текстовому наименованию, детекторы различных видов мошенничества и других аномалий, прогнозирование и т.д. Вместе с тем мы реализуем и классические задачи для BI-платформ, витрины, заполняем DWH
Проект
Разработка проект идет в Agile пардигме со всеми плюсами и минусами этого подхода :)
К декабрю 2022 года мы запустили продакшн первую версию платформы. Развертываемся on-premise, других вариантов у нас нет :).Архитектура нашего решения молода и достаточно подвижна: hdfs-spark-yarn-airflow-hive-presto-superset (что-то в kubernetes, что-то vanila, как например hdfs-spark-yarn) + набор своих AI/ML и не только сервисов.Прямо сейчас прототипируем с GreenPlum, ClickHouse, думаем, подойдет ли нам Data Vault v2 или хватит чего-то попрощеНепрерывно улучшаем CI и автоматизированную доставку обновлений.
Причина появления вакансии
Работы стало больше - это и развитие платформы и функции для пользователя, поэтому расширяемся
Условия работы
- Официальное трудоустройство в Грузинскую компанию(в штат, не ИП), официальная з/п на карту, привязанная к курсу.
- 6 больничных дней в году без справки от врача
- Медицинская страховка на всю семью после испытательного срока (при проживании в Грузии)
- График работы: 8-часовой рабочий день, преимущественно в первой половине дня по Минску/Тбилиси
- Место работы - удаленно, но жить нужно преимущественно в Грузии(местные регуляции), из любой страны, кроме РФ/Армении (в Тбилиси есть возможность работать из офиса, в других локациям можем рассмотреть вариант аренды коворкинга)
- оплатим билеты для прилета в Грузию для оформления
Задачи, которые нужно решать
- Проектировать архитектуру и разрабатывать систему сбора и анализа данных
- Взаимодействовать с data-scientist/devops/front-end разработчиками по смежным задачам
- Автоматизировать развертывание, тестирование и мониторинг платформы совместно с DevOps инженером
- (помогать или даже) реализовывать backend-сервисы вокруг хранилища данных: AI-сервисы с REST-API и другие приложения, которые не "вмещаются" в типовой ETL-пайплайн обработки данных
Что мы ожидаем от Вас
Обязательный набор
- сколько-то лет опыта работы в качестве data разработчика. Точное число лет не пишем, так как это индивидуально
- Вы проектировали и|или реализовывали что-то из списка:
- big-data системы (data lakes, data warehouses, BI-платформы)
- распределенные системы
- высоконагруженные/масштабируемые системы
- Вы работали c чем-то из списка Spark/Hadoop/Hive/HBase/Kafka/ElasticSearch/Cassandra/Presto(Trino)/DeltaLake/snowflake/ и т.п., а вообще можете предложить любую технологию, которая решит проблему
- Языки программирования: Java/Scala, и|или Python ну и понятно SQL. Примечание: писать придется как на scala так и на python
- Еще немного про программирование: мы ожидаем, что вы пишете clean-код, в том смысле, что часто в data-проектах к коду иногда относятся утилитарно, как к bash-скриптам.
Не помешают знания:
- Spark Streaming, Kafka Streams
- Опыт с BigData технологиями, которые не описаны в списке выше: Hudi, Aceberg, и т.п.
- Data Vault, dbt
- опыт развертывания на on-premise
- Lambda-архитектура, Kappa-архитектура (а может Вы на практике их реализовывали, будет интересно послушать), delta-lake
- Форматы хранения данных parquet, avro, что-то еще
- Технологии контейнеризации и оркестрации: docker, kubernetes, etc.
- DevOps практики: деплой, работа с CI/CD продуктами(gitlab,bitbucket/github), автоматизация тестирования