DevOps

Site Reliability Engineer (SRE) Full-time

О компании и команде

Тинькофф — это амбициозные ИТ-проекты и высоконагруженные системы: от мобильного банка и облачного колл-центра до инвестиционных площадок и ML-продуктов. Наша пользовательская аудитория — более 36 млн человек.


Важная часть команды — SRE-инженеры, которые отвечают за надежность и отказоустойчивость приложений и инфраструктуры. Мы ищем специалистов от уровня миддл до лидов.


Вам у нас понравится, если вы:

  • Понимаете важность стабильной работы приложений
  • Любите анализировать причины сбоев в работе софта и инфраструктуры
  • Разделяете принцип проактивности: лучше предотвратить сбой, чем потом его устранять
  • Хотите автоматизировать рутину, чтобы заниматься более интересными задачами

Ожидания от кандидата

  • Умеете работать с Linux на уровне системного администратора
  • Уверенно владеете одним из языков программирования: Go, C#, Python, Java и другие
  • Понимаете принципы построения CI/CD-пайплайнов и IaC-подхода
  • Ориентируетесь в ИТ: сетях, работе с данными, протоколах интернета, RPC и другом
  • Работали с системами контроля версий Git
  • Работали с системами мониторинга Prometheus и Grafana, агрегаторами логов Splunk, ELK и Graylog
  • Работали с системами контейнеризации и оркестрации Docker и k8s
  • Можете быстро принимать решения во время сбоя, не теряетесь и не сдаетесь

Условия работы

  • Работу удаленно, в офисе или гибридном формате
  • Платформу обучения и развития Тинькофф Апгрейд. Курсы, тренинги, вебинары и базы знаний. Поддержку менторов и наставников, помощь в поиске точек роста и карьерном развитии
  • Заботу о здоровье. Оформим полис ДМС со стоматологией и страховку от несчастных случаев. Предложим льготное страхование вашим близким
  • Бесплатный фитнес-зал или компенсацию затрат на спортивные занятия
  • Достойную зарплату — обсудим ее на собеседовании

Дополнительные инструкции

Обязанности:

  • Разрабатывать инструменты для повышения надежности информационных систем
  • Участвовать в устранении сбоев и расследовании их причин
  • Повышать Observability приложений
  • Проектировать, внедрять и поддерживать метрики для мониторинга
  • Поддерживать бесперебойную работу сервисов
  • Автоматизировать рутинную работу
  • Проектировать и внедрять отказоустойчивую архитектуру приложений
  • Договариваться с коллегами и находить лучшие решения для проекта

Overview

  • Employer: TINKOFF
  • Job Title: Site Reliability Engineer (SRE)
  • Published: 6 months, 3 weeks ago
Apply For This Job