Мы развиваем свою команду Site Reliability Engineering. На данный момент у нас есть есть инфраструктура созданная двумя разными людьми для разных окружений (dev, staging, prod). Хотим, что инфраструктуру было не стыдно показать другим, потому планируем:
Перевод инфраструктуры Infrastructure as a Code
С большой вероятностью внедрение и поддержка инструментов под сервисную архитектуру - mesh, tracing, service discovery
Очень большой объем работы по Security (финтех же)
И так далее
Помимо этого никто не отменяет рутинных задач:
Анализ текущей нагрузки и предотвращение инцидентов
Забота о нашем амазоновском стеке
Развитие и поддержка мониторинговых и алертинговых сервисов
Создание инструкций по работе с инцидентами
Улучшение инфраструктуры в целом чтобы решать задачи роста, но при этом помнить про бюджет
Разбор инцидентов
На что мы обращаем внимание при подборе человека:
Вы думаете о системе в целом, а не в частностях
Умеете работать с unix (и знаете как выйти из vim)
Есть опыт работы с инструментами из серии Chef, Puppet, Ansible
Умеете внятно изъясняться, в том числе в письменном виде, в том числе в асинхронном режиме
Умеете программировать
Знаете, что DevOps это не человек, не отдел, а подход
Понимаете важность документации и ведете ее вовремя
Вам не все равно на продукт и вы делаете вещи хорошо, потому что это важно лично для вас
Умеете торопиться
Само собой опыт с Nginx, Docker, Kubernetes, Terraform или аналогом
Обязательные требования:
5+ лет опыт с приложениями в проде
5+ лет опыта работы с UNIX системами и умение в диагностику, поиск проблем производительности, диагностику сетей и так далее
Опыт работы с каким-нибудь языком программирования (Java, JS, C++, Python and etc.)
Желателен опыт работы high load системами
Опыт облачного хостинга (Azure, Amazon Web Services, and Google)
Голова на плечах, которая умеет думать
Характер, чтобы принимать решения и отвечать за них
Intermediate english (у нас много общения на английском и мы будем проверять уровень знания)