Мы развиваем свою команду Site Reliability Engineering. На данный момент у нас есть есть инфраструктура созданная двумя разными людьми для разных окружений (dev, staging, prod). Хотим, что инфраструктуру было не стыдно показать другим, потому планируем:

Перевод инфраструктуры Infrastructure as a Code

С большой вероятностью внедрение и поддержка инструментов под сервисную архитектуру - mesh, tracing, service discovery

Очень большой объем работы по Security (финтех же)

И так далее

Помимо этого никто не отменяет рутинных задач:

Анализ текущей нагрузки и предотвращение инцидентов

Забота о нашем амазоновском стеке

Развитие и поддержка мониторинговых и алертинговых сервисов

Создание инструкций по работе с инцидентами

Улучшение инфраструктуры в целом чтобы решать задачи роста, но при этом помнить про бюджет

Разбор инцидентов

На что мы обращаем внимание при подборе человека:

Вы думаете о системе в целом, а не в частностях

Умеете работать с unix (и знаете как выйти из vim)

Есть опыт работы с инструментами из серии Chef, Puppet, Ansible

Умеете внятно изъясняться, в том числе в письменном виде, в том числе в асинхронном режиме

Умеете программировать

Знаете, что DevOps это не человек, не отдел, а подход

Понимаете важность документации и ведете ее вовремя

Вам не все равно на продукт и вы делаете вещи хорошо, потому что это важно лично для вас

Умеете торопиться

Само собой опыт с Nginx, Docker, Kubernetes, Terraform или аналогом

Обязательные требования:

5+ лет опыт с приложениями в проде

5+ лет опыта работы с UNIX системами и умение в диагностику, поиск проблем производительности, диагностику сетей и так далее

Опыт работы с каким-нибудь языком программирования (Java, JS, C++, Python and etc.)

Желателен опыт работы high load системами

Опыт облачного хостинга (Azure, Amazon Web Services, and Google)

Голова на плечах, которая умеет думать

Характер, чтобы принимать решения и отвечать за них

Intermediate english (у нас много общения на английском и мы будем проверять уровень знания)

Product Analyst