DevOps

Reliability Lead [ЦП SRE] Full-time

Условия работы

МТС Digital – сердце цифровой экосистемы МТС. 12 гильдий инженеров, суперкомпьютер, системы видеоаналитики, IoT, собственная лаборатория AI и 20+ петабайт данных. Финтех, стриминг, гейминг, мобильные приложения, облачные сервисы. Каждый день мы работаем над тем, чтобы вывести мобильную и веб-разработку на новый уровень, благодаря сплоченным продуктовым командам и agile методологиям.

Сейчас мы в поиске специалиста, чья главная задача помочь нам выстроить и внедрить единые подходы к обеспечению надежности продуктов, сервисов и систем в рамках Экосистемы МТС.

Чем предстоит заниматься:

  • Выстраивать единую методологию управления надежностью для Экосистемы МТС, включая подходы к:

- определению классов критичности систем и сервисов на основе влияния их простоя на бизнес-процессы Экосистемы;
- оценке экономически-обоснованных значений RTO и RPO;
- формированию системы продуктовых метрик в части обеспечения надежности;
- выстраиванию процессов управления уровнем сервиса на основе SLA/SLO/SLI;
- обеспечению непрерывности и доступности критичных для экосистемы систем и сервисов;
- управлению критическими событиями в продуктивной среде.

    Что мы ожидаем от тебя:

    • Опыт работы в ИТ от 10 лет.
    • Наличие управленческого опыта (управление командой не менее 10 человек).
    • Отличные коммуникационные навыки.
    • Опыт работы на позиции лидера практики SRE в крупных технологических компаниях.
    • Опыт разработки SLA/SLI/SLO и знание принципов их формирования.
    • Практический опыт локализации проблем и устранения инцидентов в больших и сложных системах.
    • Опыт внедрения практик и инструментов SRE и DevOps.
    • Опыт построения отказоустойчивых распределенных хранилищ на базе Cassandra, Mongo, Postgres, Ignite, Elastic.
    • Опыт встраивания процессов / процедур обеспечения надежности в типовые процессы экплуатационных приложений .
    • Знание принципов работы SCM систем и современных средств мониторинга и автоматизации управления инфраструктурой.
    • Практический опыт внедрения практик и инструментов Capacity Management, Availability Management, Business Continuity Management.
    • Опыт организации построения или управления инфраструктурой отказоустойчивых систем, работающих в режиме 24x7x365 и требующих минимального участия человека.
    • Знание принципов и методов обеспечения качества и надёжности ИТ сервисов.
    • Английский не ниже Intermediate.

    Что мы предлагаем:

    • Медицинская страховка с доступом в частные клиники и 100% покрытием расходов, включая стоматологию. Можно застраховать близких родственников на льготных условиях. Для любителей путешествий – страховка в поездках за границу. А еще есть страхование жизни.
    • Корпоративная мобильная связь и интернет для сотрудников, а для близких – на выгодных условиях.
    • Компенсация расходов на спорт или питание на выбор.
    • Обучение в Корпоративном университете, у внешних провайдеров, если это полезно для работы, а также доступ к онлайн-библиотеке в полезными книгами и периодикой.
    • Единая подписка МТС Premium – KION Lite в онлайн-кинотеатре KION, сервис МТС Music, 30 дней бесплатного пользования подпиской OZON Premium.
    • Предложения от партнёров для путешествий, развлечений и занятий спортом.
    • Возможность участия в волонтерских программах: мы помогаем детям из детских домов, учим пенсионеров безопасному поведению в интернете, сдаем кровь, очищаем парки от мусора и многое другое.

    Overview

    • Employer: МТС
    • Job Title: Reliability Lead [ЦП SRE]
    • Published: 10 months, 3 weeks ago
    Apply For This Job