О компании и команде
МТС – это мультисервисная цифровая экосистема. Мы создаем и развиваем сервисы в сфере мобильной связи, больших данных, искусственного интеллекта, облачного хранения, медиа и финансов – все они делают жизнь людей проще и интереснее.
Миссия: организация практик сопровождения, SRE, обеспечения надежности в кластере "Корпоративные сервисы", в котором объединены команды, создающие продукты для сотрудников и внутренних процессов группы компаний МТС.
Ожидания от кандидата
- опыт работы на позиции лидера практики SRE / руководителя эксплуатации в крупных технологических компаниях
- опыт организации процессов эксплуатации, сопровождения и обеспечения надежности в группе продуктовых команд
- знание и опыт построения отказоустойчивых и наблюдаемых (observable) систем, соответствующих технологических инструментов
- опыт разработки SLA/SLI/SLO и знание принципов их формирования
- практический опыт локализации проблем и устранения инцидентов в больших и сложных системах
- опыт внедрения практик и инструментов SRE и DevOps, встраивания процессов / процедур обеспечения надежности в эксплуатационные процессы
- опыт формирования стратегий и дорожных карт по своему направлению.
Условия работы
- профессиональные гильдии инженеров по направлениям, чтобы поддерживать друг друга и обмениваться опытом
- внутреннюю площадку TechTalks для обмена опытом, дискуссий, развития навыков самопрезентации
- участие во внешних IT конференциях. Мы выступаем на HighLoad++, DataFest, Mobius, Test Driven Conf, Joker, DevOps, Матемаркетинг и даже проводим собственную конференцию по архитектуре Hello, conference!
- полезные курсы и вебинары в корпоративном университете и электронные библиотеки.
Дополнительные инструкции
Что нужно делать
- обеспечить выполнение технологической стратегии по направлению надежности, её уточнение и адаптация под специфику продуктов кластера
- внедрить практики SRE на уровне трайбов и продуктов
- организовать формирование планов и мероприятий по обеспечению непрерывности (DRP/DRT, катастрофоустойчивость, подтверждение заявленных RTO/RPO)
- обеспечить совместно с продуктовыми командами непрерывное улучшение метрик надежности в продуктах кластера
- организовать процесс postmortem по критическим инцидентам с продуктами кластера и процесс непрерывного улучшения наблюдаемости продуктов кластера
- обеспечить прохождение продуктовых команд кластера оценки технологической зрелости по обеспечению надежности
- реализовать совместно с продуктовыми командами определение и обеспечение SLO с точки зрения пользователя для ключевых бизнес-сервисов продуктов, организацию и контроль взаимодействия со смежниками по прозрачным OLA.