Senior Data Engineer — Alfa Oil (RedPetroleum)
О позиции
Мы ищем Senior Data Engineer для управления и развития централизованного хранилища данных (DWH) крупнейшей сети АЗС в Кыргызстане.
Контекст: Инфраструктура данных была построена внешним вендором и сейчас передаётся внутренней команде. Вы станете техническим владельцем DWH и будете отвечать за его надёжную работу и развитие.
Передача проекта: Со стороны вендора будет обеспечена полноценная передача проекта (~2 месяца совместной работы) и дальнейшая техническая поддержка (по сложным кейсам). По проекту существует подробная документация: описание архитектуры, каталог витрин и таблиц, руководства по Airflow DAGs, runbooks.
Команда и взаимодействие:
- Внутренняя дата-команда: Data Analyst, BI-специалист, Data Scientist, ML-инженер
- Внешние консультанты: эксперты по AI/ML и бизнес-процессам
- Технический вендор: разработчик DWH, обеспечивает поддержку и консультации
Ожидается, что вы возьмёте на себя лидерство в инженерной части и будете развивать компетенции коллег в области data engineering.
Обязанности
Эксплуатация и развитие DWH
- Принять и поддерживать существующую инфраструктуру: Airflow DAGs, dbt-проект, ClickHouse, Airbyte
- Обеспечивать стабильную ежедневную загрузку данных из всех источников с соблюдением SLA
- Диагностировать и устранять инциденты в data pipeline, проводить root cause analysis
- Оптимизировать производительность ClickHouse: партиционирование, ReplacingMergeTree, OPTIMIZE DEDUPLICATE, материализованные представления
Интеграция источников данных
- Подключать новые источники к DWH: настраивать инкрементальные загрузки, CDC, обеспечивать идемпотентность
- Поддерживать и развивать интеграции с существующими источниками:
- Firebird — локальные БД станций (.FDB файлы), экспорт через CSV
- FTP/SFTP — XML-файлы из транзакционной БД
- 1C — данные ERP
- PostgreSQL — реплики транзакционной БД
- Google Sheets — справочники и планы
- Работать с Airbyte для загрузки данных в raw-слой ClickHouse
- Разрабатывать и поддерживать REST API интеграции (аутентификация, пагинация, обработка ошибок)
Трансформация данных (dbt)
- Развивать dbt-проект по архитектуре на базе элементов Data Vault 2.0: staging → hub/sat/link → business → marts
- Писать понятные модели с тестами и документацией
- Исправлять технический долг: инкрементальная загрузка, устранение hardcoded значений
- Поддерживать data lineage и каталог данных
Оркестрация (Airflow)
- Поддерживать и развивать DAGs для всех источников данных
- Управлять зависимостями, расписаниями, сенсорами
- Настраивать обработку ошибок, ретраи, алерты
- Выполнять backfill исторических данных при необходимости
Инфраструктура и DevOps
- Совместно с ДИТ управлять VM на GCP: мониторинг, обновления, резервное копирование
- Управлять секретами и доступами
- Поддерживать CI/CD для dbt и Python-кода
- Документировать runbooks и эксплуатационные инструкции
Качество данных
- Внедрять автоматические проверки свежести и корректности данных
- Мониторить качество данных, настраивать алерты на аномалии
- Обеспечивать корректную работу с PII
Работа с командой
- Предоставлять и готовить данные для профильных задачад внутренней дата-команды: аналитика данных, AI/ML, BI.
- Координировать работу с техническим вендором DWH в период передачи и дальнейшей поддержки
- Работать с внешними консультантами по вопросам AI/ML и бизнес-требований
- Передавать знания и менторить коллег в части data engineering
- Совместно с Data Scientist и ML-инженером готовить данные и фичи для ML-моделей
- Работать с владельцами источников данных по вопросам интеграции
Требования
- Опыт 5+ лет в data engineering или смежных ролях
- Опыт работы с production DWH под нагрузкой
- Опыт приёма системы от внешнего вендора или работы с legacy-кодом (желательно)
Технические навыки (обязательно)
SQL и базы данных:
- Продвинутый SQL, оптимизация запросов
- ClickHouse: опыт работы с production-нагрузками, оптимизация запросов и схем
PostgreSQL: индексы, EXPLAIN, базовое администрирование
Python:
- Уверенное владение для ELT-процессов, скриптов, автоматизации
- Работа с pandas, requests, файловыми форматами (CSV, XML, JSON)
- Базовый FastAPI/Flask для внутренних утилит
- Иные профильные DE/DS библиотеки.
Оркестрация и ELT:
- Airflow: разработка DAGs, сенсоры, XCom, Connections, Variables, Pools
- dbt: модели, тесты, документация, инкрементальная загрузка, макросы
- Airbyte или аналогичные инструменты
- Паттерны: CDC, SCD Type 1/2, идемпотентность, MERGE/UPSERT
Инфраструктура:
- Linux
- Git
- Docker
- GCP. Знание Azure/AWS плюс, но не обязательно
Интеграции:
- REST API: аутентификация (OAuth, API keys), пагинация, rate limits
- Файловый обмен: SFTP/FTPS, работа с XML/CSV
Технические навыки (желательно)
- Firebird — работа с .FDB файлами, ISQL, особенности экспорта данных
- Data Vault 2.0 — проектирование и работа с Hub, Link, Satellite; понимание принципов историчности и аудируемости данных
- Terraform/Ansible для IaC
- Great Expectations, dbt тесты, дата контракты
- Prometheus/Grafana, OpenLineage для контроля
- Понимание ML lifecycle: MLflow, feature stores, batch scoring (желательно, но не обязательно)
Доменная экспертиза (плюс)
- Опыт в ритейле, АЗС, логистике или loyalty-программах
- Работа с телематикой (Wialon) или TMS
- Опыт работы с 1C интеграциями
Soft skills
- Способность разбираться в чужом коде и документации
- Умение работать автономно и принимать решения
- Готовность документировать и передавать знания
- Коммуникация с бизнес-заказчиками и вендорами
Технологический стек
Apache Airflow, dbt, ClickHouse, Airbyte, Firebird (legacy), PostgreSQL, 1C, FTP/SFTP, Google Sheets, GCP, Docker, Power BI, Git, Python, REST API
Условия:
- Пятидневную рабочую неделю (с 8:30 до 17:30);
- Комфортный офис в центре города;
- Фитнес-зал для сотрудников;
- Премии и корпоративные поездки за счёт компании;
- Обучение и повышение квалификации при необходимости за счёт компании;
- Отлично развитую корпоративную культуру.
