Site Reliability Engineer (SRE) в команду ETL-платформы remote job at T-Bank

О компании и команде

Мы разрабатываем и поддерживаем ETL-платформу и высоконагруженную систему, которая генерирует критически важные для бизнеса документы.

Наша автоматизированная инфраструктура генерирует более 5 млн документов в день, обслуживая 100+ бизнес-подразделений и процессов компании. С помощью надежной системы мы можем предоставлять услуги клиентам Т-Банка на высоком уровне и без сбоев.

Один из ключевых инструментов — система сбора метрик TMeter. Она позволяет отслеживать важные показатели производительности и оперативно реагировать на отклонения.

Команда работает по методологии Agile, применяя все нужные практики и церемонии. Технологии, которые мы используем, помогают нам обеспечивать гибкость и надежность работы системы.

Наш стек: Java, Kotlin, S3, Postgres, Kubernetes, Gitlab и Groovy.

Ожидания от кандидата

* Помогать командам определять SLO для сервисов, стандартные SLO на базе RED-метрик, поддерживать библиотеки для сбора метрик

* Поддерживать единую страницу доступности сервисов на основе SLO и анализировать инциденты

* Развивать культуру алертинга, обеспечивать автоматическую доставку уведомлений через разные каналы, анализировать время реакции, уровень шума и MTTR

* Изучать постмортемы, вести статистику по простоям и формировать бюджеты на простои

* Проводить обучение по восстановлению от сбоев и отказоустойчивому дизайну, консультировать команды

* Поддерживать инфраструктуру и логику доставки на прод, развивать инструменты для B/G, Canary, автоотката по метрикам и миграций, собирать статистику по доставке

* Организовывать симуляции отказов и анализировать их результаты

* Разрабатывать и продвигать отказоустойчивые архитектуры, например разделение ЦОДов, и участвовать в проектировании на ранних стадиях

* Прогнозировать потребности в оборудовании, разрабатывать инструменты для оценки нагрузки на сервисы

* Управлять фича тоглингом и собирать статистику по использованию фич

* Унифицировать формат логов, развивать сервисы для их агрегации и долговременного хранения

* Обеспечивать примитивы для разных стеков

* Внедрять общие принципы отказоустойчивости: circuit breakers, service mesh, fallback

* Обеспечивать унифицированное выставление сервисов наружу, балансировку нагрузки и защиту от атак

* Собирать данные по времени, которое было затрачено на OPS — для баланса с разработкой

Условия работы

* Работу в офисе у метро «Белорусская». График работы — гибридный

* Платформу обучения и развития «Апгрейд». Курсы, тренинги, вебинары и базы знаний. Поддержку менторов и наставников, помощь в поиске точек роста и карьерном развитии

* Комплексную программу заботы о здоровье. Оформим полис ДМС с широким покрытием и страховку от несчастных случаев. Предложим льготные условия страхования для ваших близких

* Бесплатный фитнес-зал в офисе или частичную компенсацию затрат на спорт. В фитнес-зале оборудованы зоны по разным направлениям. Можно заниматься самостоятельно или присоединиться к групповым занятиям с тренером

* Возможность работы в аккредитованной ИТ-компании

* Бесплатные завтраки и обеды в нашем кафе. А если захотите перекусить, на каждом этаже есть кухня с чаем, кофе и фруктами

* Линейку льготных тарифов на продукты Т-Банка

* Well-being-программу, которая помогает улучшить психологическое и физическое здоровье, а также разобраться с юридическими и финансовыми вопросами

* Три дополнительных дня отпуска в год

* Достойную зарплату — обсудим ее на собеседовании

Site Reliability Engineer (SRE) в команду ETL-платформы Full-time

О компании и команде

Ожидания от кандидата

Условия работы

Overview

About

Browse Jobs