Middle Data Scientist

Москва, Россия
Миддл
Информационные технологии
Удаленная работа • Работа в офисе
Опыт работы от 1 года до 3х лет
200 000 ₽
О себе

На данный момент Junior Data Scientist.

Мои компетенции и опыт

Опыт работы

- Программист (Июль 2025 — сейчас (7 месяцев))

Data Science:
- Сбор, подготовка, исследование, визуализация и валидация данных, в т.ч. трейсов для agent distillation;
- Написание моделей на PyTorch для решения задач прогнозирования временного ряда, выделения именованных сущностей (NER);
- Работа с предобученными моделями (HuggingFace): кастомизация, fine-tuning, LoRA;
- Работа над mcp-сервером, его инструментами;
- Prompt-engineering;
- Упаковка и развертывание моделей с использованием TorchServe (ML-Ops);
- Использование scikit-learn, catboost классических алгоритмов машинного обучения для решения задач регрессии и классификации;

- Стажер-исследователь (Ноябрь 2023 — Июль  нужен доступ к резюме  год и 9 месяцев))

(Стажер-исследователь - научная должность. Не мог занимать должность выше в связи с тем, что трудоустроился в процессе получения высшего образования)

Data Science:
- Сбор, подготовка, визуализация и валидация данных;
- Дедупликация текстовых данных;
- Fine-tuning spaCy моделей для задачи NER;

Аналитика данных:
- Разработка и внедрение методологий расчёта статистик, проверка гипотез;
- Соавтор 6 РИДов (результатов интеллектуальной деятельности) - научных проектов в области аналитики (НИУ ВШЭ);

Python Development:
- Оптимизация и развитие внутренней кодовой базы;
- Разработка микросервисов;
- Написание автотестов, устранение утечек памяти (в т.ч. GPU), backend-разработка.

 

О себе

Интересуюсь генеративным ИИ, множество раз встраивал в различные проекты (по учебе и в процессе работы) технологии NLP.
Стремлюсь к пассивному заработку. Есть личный проект на 2-3к строк с использованием технологий Object Detection, Speech Recognition, Text Generation.

Учебные pet-проекты:
• Репозиторий проекта по RAG нужен доступ к резюме :
- парсинг данных с тгк;
- Hugging Face для векторизации;
- система на LangChain;
- Structured Output;
- Docker;
- Qdrant, PostgreSQL.

• Репозиторий по Computer Vision нужен доступ к резюме :
- Сегментация;
- Детекция аномалий;
- Self Supervised Learning;
- Разные техники дистилляции.

• Репозиторий нужен доступ к резюме , где я изучал машинное обучение на фундаментальном уровне:
- полностью запрограммировал с нуля классические алгоритмы машинного обучения и метрики;
- 2-3к строк кода на torch и numpy работы с градиентами и матрицами;
- руками прописывал градиенты;
- в таком же стиле изучил NLP: написал токенизатор, декодер и Nano-GPT на 9М параметров.

• Репозиторий по дипломной работе: нужен доступ к резюме :
- диалоговая система;
- LoRA на LLM под задачу генерации текста;
- мультиклассовая классификация эмоций с BERT на датасете GoEmotions;
- много работы с данными, много математики, много визуализаций;
- свой UI.

• Репозиторий по курсу "Контейнеризация и оркестрация": нужен доступ к резюме
- Docker;
- Docker-compose;
- kubernetes.

• Была интересна IT-медицина: погружался в анализ электрических сигналов мозга, их визуализацию. Пробовал область детектирования раковых клеток. Мною была выполнена курсовая работа по этой теме: нужен доступ к резюме :
- С++;
- OpenCV.


Специализация
Информационные технологии
Отрасль и сфера применения

Уровень
Миддл

Интересные кандидаты