Компания Querify Labs создает CedrusData — распределенный SQL-движок для обработки больших данных на основе open-source проекта Trino. CedrusData позволяет организациям быстро анализировать все свои данные из разных источников без разработки сложных ETL-процедур.
Мы также занимается международным консалтингом в области разработки систем управления данными (оптимизаторы запросов, аналитические движки, распределенные протоколы) на основе технологий Apache Calcite и Apache Arrow.
Ранее наши инженеры работали над проектами Apache Ignite, Hazelcast, Yandex Clickhouse и Yandex Database (YDB, YQL). Мы часто выступаем на российских и международных конференциях (Highload++, Percona Live, ApacheCon), ведем технический блог о базах данных и активно участвуем в проектах с открытым исходным кодом.
Технически CedrusData представляет собой распределенный массивно-параллельный аналитический движок для выполнения федеративных SQL-запросов. Система подключается к источникам данных предприятия (озера данных, а так же аналитические, транзакционные и NoSQL системы) посредством коннекторов. После получения SQL-запроса от пользователя, CedrusData определяет оптимальную стратегию доступа к данным, выполняет чтение данных из источников, после чего производит финальную обработку и объединение данных в кластере. Полученный результат может быть передан непосредственно приложению или пользователю, или записан в другой источник данных.
На данной позиции вы будете заниматься разработкой нового функционала CedrusData, основными задачами которого является повышение производительности и надежности ядра системы, а так же удобства управления продуктом. Основная часть изменений приходится на ядро open-source проекта Trino:
Кроме этого, часть вашего времени будет приходиться на разработку пилотных проектов на основе CedrusData и помощь при внедрении.
Мы используем Java 17 и C++21 для разработки и Bazel для сборки и CI.