SRE Cluster Lead/Руководитель направления remote job at МТС

О компании и команде

МТС – это мультисервисная цифровая экосистема. Мы создаем и развиваем сервисы в сфере мобильной связи, больших данных, искусственного интеллекта, облачного хранения, медиа и финансов – все они делают жизнь людей проще и интереснее.

Миссия: организация практик сопровождения, SRE, обеспечения надежности в кластере "Корпоративные сервисы", в котором объединены команды, создающие продукты для сотрудников и внутренних процессов группы компаний МТС.

Ожидания от кандидата

опыт работы на позиции лидера практики SRE / руководителя эксплуатации в крупных технологических компаниях
опыт организации процессов эксплуатации, сопровождения и обеспечения надежности в группе продуктовых команд
знание и опыт построения отказоустойчивых и наблюдаемых (observable) систем, соответствующих технологических инструментов
опыт разработки SLA/SLI/SLO и знание принципов их формирования
практический опыт локализации проблем и устранения инцидентов в больших и сложных системах
опыт внедрения практик и инструментов SRE и DevOps, встраивания процессов / процедур обеспечения надежности в эксплуатационные процессы
опыт формирования стратегий и дорожных карт по своему направлению.

Условия работы

профессиональные гильдии инженеров по направлениям, чтобы поддерживать друг друга и обмениваться опытом
внутреннюю площадку TechTalks для обмена опытом, дискуссий, развития навыков самопрезентации
участие во внешних IT конференциях. Мы выступаем на HighLoad++, DataFest, Mobius, Test Driven Conf, Joker, DevOps, Матемаркетинг и даже проводим собственную конференцию по архитектуре Hello, conference!
полезные курсы и вебинары в корпоративном университете и электронные библиотеки.

Дополнительные инструкции

Что нужно делать

обеспечить выполнение технологической стратегии по направлению надежности, её уточнение и адаптация под специфику продуктов кластера
внедрить практики SRE на уровне трайбов и продуктов
организовать формирование планов и мероприятий по обеспечению непрерывности (DRP/DRT, катастрофоустойчивость, подтверждение заявленных RTO/RPO)
обеспечить совместно с продуктовыми командами непрерывное улучшение метрик надежности в продуктах кластера
организовать процесс postmortem по критическим инцидентам с продуктами кластера и процесс непрерывного улучшения наблюдаемости продуктов кластера
обеспечить прохождение продуктовых команд кластера оценки технологической зрелости по обеспечению надежности
реализовать совместно с продуктовыми командами определение и обеспечение SLO с точки зрения пользователя для ключевых бизнес-сервисов продуктов, организацию и контроль взаимодействия со смежниками по прозрачным OLA.

SRE Cluster Lead/Руководитель направления Full-time

О компании и команде

Ожидания от кандидата

Условия работы

Дополнительные инструкции

Что нужно делать

Overview

About

Browse Jobs