Войти

Senior Data Engineer

Redpetroleum
Компания Redpetroleum
Тип Удаленная работа
Оклад От 150000 KGS в месяц
Описание вакансии

Senior Data Engineer — Alfa Oil (RedPetroleum)


О позиции

Мы ищем Senior Data Engineer для управления и развития централизованного хранилища данных (DWH) крупнейшей сети АЗС в Кыргызстане.


Контекст: Инфраструктура данных была построена внешним вендором и сейчас передаётся внутренней команде. Вы станете техническим владельцем DWH и будете отвечать за его надёжную работу и развитие.


Передача проекта: Со стороны вендора будет обеспечена полноценная передача проекта (~2 месяца совместной работы) и дальнейшая техническая поддержка (по сложным кейсам). По проекту существует подробная документация: описание архитектуры, каталог витрин и таблиц, руководства по Airflow DAGs, runbooks.


Команда и взаимодействие:

Внутренняя дата-команда: Data Analyst, BI-специалист, Data Scientist, ML-инженер

Внешние консультанты: эксперты по AI/ML и бизнес-процессам

Технический вендор: разработчик DWH, обеспечивает поддержку и консультации


Ожидается, что вы возьмёте на себя лидерство в инженерной части и будете развивать компетенции коллег в области data engineering.


Обязанности

Эксплуатация и развитие DWH

- Принять и поддерживать существующую инфраструктуру: Airflow DAGs, dbt-проект, ClickHouse, Airbyte

- Обеспечивать стабильную ежедневную загрузку данных из всех источников с соблюдением SLA

- Диагностировать и устранять инциденты в data pipeline, проводить root cause analysis

- Оптимизировать производительность ClickHouse: партиционирование, ReplacingMergeTree, OPTIMIZE DEDUPLICATE, материализованные представления


Интеграция источников данных

- Подключать новые источники к DWH: настраивать инкрементальные загрузки, CDC, обеспечивать идемпотентность

- Поддерживать и развивать интеграции с существующими источниками:

Firebird — локальные БД станций (.FDB файлы), экспорт через CSV

FTP/SFTP — XML-файлы из транзакционной БД

1C — данные ERP

PostgreSQL — реплики транзакционной БД

Google Sheets — справочники и планы

- Работать с Airbyte для загрузки данных в raw-слой ClickHouse

- Разрабатывать и поддерживать REST API интеграции (аутентификация, пагинация, обработка ошибок)


Трансформация данных (dbt)

- Развивать dbt-проект по архитектуре на базе элементов Data Vault 2.0: staging → hub/sat/link → business → marts

- Писать понятные модели с тестами и документацией

- Исправлять технический долг: инкрементальная загрузка, устранение hardcoded значений

- Поддерживать data lineage и каталог данных


Оркестрация (Airflow)

- Поддерживать и развивать DAGs для всех источников данных

- Управлять зависимостями, расписаниями, сенсорами

- Настраивать обработку ошибок, ретраи, алерты

- Выполнять backfill исторических данных при необходимости


Инфраструктура и DevOps

- Совместно с ДИТ управлять VM на GCP: мониторинг, обновления, резервное копирование

- Управлять секретами и доступами

- Поддерживать CI/CD для dbt и Python-кода

- Документировать runbooks и эксплуатационные инструкции


Качество данных

- Внедрять автоматические проверки свежести и корректности данных

- Мониторить качество данных, настраивать алерты на аномалии

- Обеспечивать корректную работу с PII


Работа с командой

- Предоставлять и готовить данные для профильных задачад внутренней дата-команды: аналитика данных, AI/ML, BI.

- Координировать работу с техническим вендором DWH в период передачи и дальнейшей поддержки

- Работать с внешними консультантами по вопросам AI/ML и бизнес-требований

- Передавать знания и менторить коллег в части data engineering

- Совместно с Data Scientist и ML-инженером готовить данные и фичи для ML-моделей

- Работать с владельцами источников данных по вопросам интеграции


Требования


- Опыт 5+ лет в data engineering или смежных ролях

- Опыт работы с production DWH под нагрузкой

- Опыт приёма системы от внешнего вендора или работы с legacy-кодом (желательно)


Технические навыки (обязательно)


SQL и базы данных:

- Продвинутый SQL, оптимизация запросов

ClickHouse: опыт работы с production-нагрузками, оптимизация запросов и схем

PostgreSQL: индексы, EXPLAIN, базовое администрирование


Python:

- Уверенное владение для ELT-процессов, скриптов, автоматизации

- Работа с pandas, requests, файловыми форматами (CSV, XML, JSON)

- Базовый FastAPI/Flask для внутренних утилит

- Иные профильные DE/DS библиотеки.


Оркестрация и ELT:

Airflow: разработка DAGs, сенсоры, XCom, Connections, Variables, Pools

dbt: модели, тесты, документация, инкрементальная загрузка, макросы

Airbyte или аналогичные инструменты

- Паттерны: CDC, SCD Type 1/2, идемпотентность, MERGE/UPSERT


Инфраструктура:

- Linux

- Git

- Docker

- GCP. Знание Azure/AWS плюс, но не обязательно


Интеграции:

- REST API: аутентификация (OAuth, API keys), пагинация, rate limits

- Файловый обмен: SFTP/FTPS, работа с XML/CSV


Технические навыки (желательно)


Firebird — работа с .FDB файлами, ISQL, особенности экспорта данных

Data Vault 2.0 — проектирование и работа с Hub, Link, Satellite; понимание принципов историчности и аудируемости данных

- Terraform/Ansible для IaC

- Great Expectations, dbt тесты, дата контракты

- Prometheus/Grafana, OpenLineage для контроля

- Понимание ML lifecycle: MLflow, feature stores, batch scoring (желательно, но не обязательно)


Доменная экспертиза (плюс)

- Опыт в ритейле, АЗС, логистике или loyalty-программах

- Работа с телематикой (Wialon) или TMS

- Опыт работы с 1C интеграциями


Soft skills

- Способность разбираться в чужом коде и документации

- Умение работать автономно и принимать решения

- Готовность документировать и передавать знания

- Коммуникация с бизнес-заказчиками и вендорами


Технологический стек

Apache Airflow, dbt, ClickHouse, Airbyte, Firebird (legacy), PostgreSQL, 1C, FTP/SFTP, Google Sheets, GCP, Docker, Power BI, Git, Python, REST API

Условия:

  • Пятидневную рабочую неделю (с 8:30 до 17:30);
  • Комфортный офис в центре города;
  • Фитнес-зал для сотрудников;
  • Премии и корпоративные поездки за счёт компании;
  • Обучение и повышение квалификации при необходимости за счёт компании;
  • Отлично развитую корпоративную культуру.
Телефон +996 701 166 061