Data Engineer (разработка и поддержка ETL-процессов)
Прямой работодатель Tewris ( tewris.com )
Опыт работы от 3 до 5 летот 200 000 до 350 000 ₽
Мы ищем Data Engineer , который возьмёт на себя разработку, настройку и поддержку ETL/ELT-процессов в уже готовой инфраструктуре на базе Apache Airflow и Apache Spark . Системы будут предоставлены в рабочем состоянии — ваша задача — строить надёжные, эффективные и масштабируемые пайплайны , интегрировать данные из различных источников и обеспечивать их доступность для аналитики через BI-системы (Metabase, Tableau и др.).
Вы будете работать с данными из MySQL , PostgreSQL и других источников, формировать витрины данных и помогать бизнесу принимать решения на основе качественной аналитики.
Зоны ответственности
- Разработка и поддержка ETL/ELT-процессов в Apache Airflow :
- Создание и оптимизация DAG-ов.
- Обеспечение надёжности, обработки ошибок, логирования и мониторинга задач.
- Обработка данных с помощью Apache Spark :
- Написание и оптимизация Spark-заданий (на PySpark).
- Работа с большими объёмами данных, агрегация, очистка, трансформация.
- Интеграция данных :
- Подключение к источникам: MySQL , PostgreSQL , REST API, файловые хранилища, SaaS-системы.
- Обеспечение регулярной и согласованной выгрузки данных.
- Проектирование и поддержка витрин данных (data marts) :
- Создание структурированных слоёв данных для аналитики.
- Реализация слоёв: raw → staging → dwh → marts.
- Работа с BI-инструментами :
- Подготовка данных для визуализации.
- Настройка дашбордов в Metabase , Tableau, Power BI или аналогах.
- Контроль качества данных :
- Валидация данных на каждом этапе.
- Выявление и устранение аномалий, дубликатов, пропусков.
- Документирование :
- Ведение документации по источникам данных, логике трансформаций, схемам.
- Рекомендации по инфраструктуре :
- Анализ производительности пайплайнов и выдача предложений по улучшению конфигурации Airflow/Spark (например, по ресурсам, очередям, параметрам запуска).
- Участие в обсуждении архитектуры с DevOps/SRE при необходимости.
Hard Skills (технические требования)
- Опыт разработки DAG-ов в Apache Airflow (операторы, XCom, обработка ошибок, динамические DAG-и).
- Практические навыки работы с Apache Spark (PySpark) — чтение/запись данных, трансформации, оптимизация (partitioning, caching, broadcast).
- Уверенное владение SQL (сложные JOIN, оконные функции, CTE, оптимизация запросов).
- Опыт работы с PostgreSQL и MySQL — подключение, выгрузка, оптимизация.
- Понимание принципов проектирования хранилищ данных (звёздная схема, слои данных, SCD).
- Опыт подготовки данных для BI-систем (Metabase, Tableau, Power BI и др.).
- Навыки программирования на Python (pandas, requests, SQLAlchemy, clickhouse-driver и др.).
- Опыт работы с облачными хранилищами (S3, GCS, ADLS) — чтение/запись данных.
- Знание систем контроля версий (Git ) и базовых принципов CI/CD.
- Опыт работы с файлами форматов Parquet, CSV, JSON в контексте big data.
- Понимание принципов параллельной обработки и распределённых систем — плюс.
Soft Skills
- Аналитическое мышление и внимание к деталям.
- Умение чётко доносить технические решения нетехническим коллегам.
- Самостоятельность и ответственность за качество данных.
- Готовность к итеративной разработке и обратной связи.
- Командный дух и открытость к обсуждениям.