Data Engineer (разработка и поддержка ETL-процессов)

Прямой работодатель  Tewris ( tewris.com )
Нижний Новгород, Россия
Миддл
Аналитика, Data Science, Big Data • Инженер • Заказная разработка
8 сентября
Удаленная работа
Опыт работы от 3 до 5 лет
от 200 000 до 350 000 ₽
Работодатель  Tewris
Описание вакансии

Мы ищем Data Engineer , который возьмёт на себя разработку, настройку и поддержку ETL/ELT-процессов в уже готовой инфраструктуре на базе Apache Airflow и Apache Spark . Системы будут предоставлены в рабочем состоянии — ваша задача — строить надёжные, эффективные и масштабируемые пайплайны , интегрировать данные из различных источников и обеспечивать их доступность для аналитики через BI-системы (Metabase, Tableau и др.).

Вы будете работать с данными из MySQL , PostgreSQL и других источников, формировать витрины данных и помогать бизнесу принимать решения на основе качественной аналитики.

Зоны ответственности

  • Разработка и поддержка ETL/ELT-процессов в Apache Airflow :
    • Создание и оптимизация DAG-ов.
    • Обеспечение надёжности, обработки ошибок, логирования и мониторинга задач.
  • Обработка данных с помощью Apache Spark :
    • Написание и оптимизация Spark-заданий (на PySpark).
    • Работа с большими объёмами данных, агрегация, очистка, трансформация.
  • Интеграция данных :
    • Подключение к источникам: MySQL , PostgreSQL , REST API, файловые хранилища, SaaS-системы.
    • Обеспечение регулярной и согласованной выгрузки данных.
  • Проектирование и поддержка витрин данных (data marts) :
    • Создание структурированных слоёв данных для аналитики.
    • Реализация слоёв: raw → staging → dwh → marts.
  • Работа с BI-инструментами :
    • Подготовка данных для визуализации.
    • Настройка дашбордов в Metabase , Tableau, Power BI или аналогах.
  • Контроль качества данных :
    • Валидация данных на каждом этапе.
    • Выявление и устранение аномалий, дубликатов, пропусков.
  • Документирование :
    • Ведение документации по источникам данных, логике трансформаций, схемам.
  • Рекомендации по инфраструктуре :
    • Анализ производительности пайплайнов и выдача предложений по улучшению конфигурации Airflow/Spark (например, по ресурсам, очередям, параметрам запуска).
    • Участие в обсуждении архитектуры с DevOps/SRE при необходимости.

Hard Skills (технические требования)

  • Опыт разработки DAG-ов в Apache Airflow (операторы, XCom, обработка ошибок, динамические DAG-и).
  • Практические навыки работы с Apache Spark (PySpark) — чтение/запись данных, трансформации, оптимизация (partitioning, caching, broadcast).
  • Уверенное владение SQL (сложные JOIN, оконные функции, CTE, оптимизация запросов).
  • Опыт работы с PostgreSQL и MySQL — подключение, выгрузка, оптимизация.
  • Понимание принципов проектирования хранилищ данных (звёздная схема, слои данных, SCD).
  • Опыт подготовки данных для BI-систем (Metabase, Tableau, Power BI и др.).
  • Навыки программирования на Python (pandas, requests, SQLAlchemy, clickhouse-driver и др.).
  • Опыт работы с облачными хранилищами (S3, GCS, ADLS) — чтение/запись данных.
  • Знание систем контроля версий (Git ) и базовых принципов CI/CD.
  • Опыт работы с файлами форматов Parquet, CSV, JSON в контексте big data.
  • Понимание принципов параллельной обработки и распределённых систем — плюс.

Soft Skills

  • Аналитическое мышление и внимание к деталям.
  • Умение чётко доносить технические решения нетехническим коллегам.
  • Самостоятельность и ответственность за качество данных.
  • Готовность к итеративной разработке и обратной связи.
  • Командный дух и открытость к обсуждениям.

Специализация
Аналитика, Data Science, Big DataИнженер
Отрасль и сфера применения
Заказная разработка
Уровень должности
Миддл
Загрузка формы отклика...