Data Scientist (NLP)

Санкт-Петербург, Россия

Джуниор • Миддл

Информационные технологии • Разработка • Backend • Python • SQL • Django • Flask • MySQL • PostgreSQL

16 марта в 19:58

Релокация • Удаленная работа • Частичная занятость • Работа в офисе
Опыт работы более 5 лет

Есть файл резюме (защищен)

Короткая ссылка: gkjb.ru/g15J6

Пригласить

О себе

На данный момент Главный специалист технической поддержки Управления международного сотрудничества.

Мои компетенции и опыт

Python-разработчик

Апрель 2024 — сейчас

Навыки:

- Python, NLP, промпт-инжиниринг, LLM (Ollama)

- Backend-фреймворки: FastAPI, Django, DRF, Flask

- ML/NLP-библиотеки: scikit-learn, pandas, numpy, NLTK, Gensim, TF-IDF

- Базы данных: PostgreSQL, SQLAlchemy, Alembic, asyncpg, SQL

- Инфраструктура: Docker, Docker Compose, CI/CD (GitHub Actions), Git

- Тестирование: Pytest, Unittest

- Асинхронное программирование: asyncio, Aiogram

- Визуализация: Matplotlib, Seaborn, PCA/t-SNE

Ключевые реализованные проекты:

Embedding Visualizer

[Gensim, scikit-learn, Matplotlib, NumPy, PCA, t-SNE]

Интерактивный инструмент для семантического анализа и визуализации векторных представлений слов (Word2Vec, GloVe). Реализованы автоматическая загрузка и кэширование предобученных моделей, поиск ближайших соседей и аналогий, 2D-визуализация векторных отношений (PCA/t-SNE) с построением семантических кластеров, а также оценка качества модели на наборе Google Analogy Test Set. Проект включает интуитивный командный интерфейс с демо-режимом, контекстной справкой и автоматическим сохранением графиков.

Movie Recommendation System

[scikit-learn, pandas, TF-IDF, Aiogram, Matplotlib]

End‑to‑end система рекомендации фильмов на основе текстовых данных (жанры, актерский состав). Реализованы два алгоритма (TF‑IDF + косинусная близость и взвешенный актерский состав) и два интерфейса — консольное приложение с визуализацией и полнофункциональный Telegram-бот.

Wallet REST API

[FastAPI, PostgreSQL, SQLAlchemy 2.0, asyncpg, Docker, Pytest]

Асинхронное высоконагруженное REST API для управления финансовыми балансами с гарантией консистентности данных при параллельных запросах. Реализованы конкурентная безопасность (транзакции READ COMMITTED, блокировки SELECT FOR UPDATE), полный CI/CD (Docker Compose, Alembic, GitHub Actions), автоматическая документация OpenAPI/Swagger, модульные и интеграционные тесты.

Video Analytics Bot

[Aiogram 3.7+, Ollama (Mistral 7B), PostgreSQL, asyncpg, промпт-инжиниринг]

Telegram-бот, преобразующий запросы на естественном языке в SQL-запросы к базе статистики видео. Использует локальную LLM для полной конфиденциальности и работы офлайн. Разработан детальный системный промпт, обеспечивающий стабильную генерацию SQL; асинхронная архитектура, оптимизированные индексы и пул соединений.

CountVectorizer Comparison

[scikit-learn, NLTK, pandas, Matplotlib, Seaborn]

Сравнительное исследование пяти методов предобработки текста (стемминг, лемматизация, удаление стоп-слов и др.) при векторизации новостных статей (датасет BBC News). Построен конвейер обработки, проведена оценка по точности, размеру словаря, скорости и плотности матрицы. Результаты визуализированы и оформлены в итоговый отчет.

Text Keyword Extractor

[scikit-learn, pandas, NLTK, TF-IDF]

Глубокий анализ алгоритма TF‑IDF: собственная реализация с нуля и детальное пошаговое сравнение с библиотечной версией scikit-learn. Разработан интерактивный CLI для извлечения ключевых слов, поиска документов, сравнения весов и формул. Проект демонстрирует понимание внутреннего устройства классических методов NLP и промышленных практик (NLTK, пагинация, модульная архитектура).

---

Gazprom International

Февраль 2014 — сейчас

Главный специалист технической поддержки Управления международного сотрудничества

Особые достижения:

- разработал и внедрил в отделе систему учета трудозатрат на базе Excel, что позволило автоматизировать формирование отчетов и сократить время на их подготовку на 90%; система также повысила точность планирования загрузки переводчиков за счет использования исторических данных для прогнозирования

- внедрил в отделе систему автоматизированного перевода (CAT) Trados, с последующим переходом на отечественный Promt Translation Factory в рамках корпоративного курса на импортозамещение, что обеспечило унификацию терминологии за счет централизованных глоссариев, повышение качества и скорости перевода на 70% через переиспользование переводческих памятей, а также 100%-ную конфиденциальность корпоративных данных благодаря локальному развертыванию ПО на внутренних серверах компании

- организовал и внедрил в компании систему дистанционного письменного и устного перевода во время пандемии, что обеспечило непрерывность рабочих процессов и позволило компании выполнить 100% запланированных международных проектов без срывов сроков с сохранением операционной эффективности на прежнем уровне

Должностные обязанности:

- координация с командой разработки ПО Promt Translation Factory и управлением ИТ компании для устранения выявленных багов ПО и покрытия функционалом последующих версий ПО всех потребностей отдела

- анализ бизнес-процессов отдела и автоматизация рутинных задач (учет, отчетность, лингвистические процессы)

- техническая поддержка и администрирование корпоративного ПО для переводов

---

О себе

Data Scientist (NLP) с подтверждённой квалификацией (диплом о профессиональной переподготовке, специализация Coursera по NLP и Generative AI), специализирующийся на анализе текстовых данных, построении рекомендательных систем и применении методов машинного обучения для решения бизнес-задач. Имею практический опыт разработки end‑to‑end ML-решений: от исследования данных и экспериментов с моделями до оценки качества и визуализации результатов.

Владею современным стеком Data Science: Python, scikit-learn, pandas, NumPy, NLTK, Gensim, TF‑IDF, Matplotlib. Понимаю принципы работы эмбеддингов слов (Word2Vec, GloVe), методы векторизации текста и алгоритмы рекомендаций. Провожу сравнительный анализ моделей, использую метрики качества и инструменты визуализации для интерпретации результатов.

Дополнительным преимуществом является мой сильный backend-бэкграунд (FastAPI, Django, Docker, CI/CD), который позволяет не только создавать прототипы, но и встраивать ML-модели в промышленные продукты, обеспечивая их отказоустойчивость и масштабируемость.

Более 12 лет работы в «Газпром Интернэшнл» сформировали системное мышление и умение решать сложные бизнес-задачи: я инициировал и внедрял IT-решения, которые дали измеримый результат (сокращение трудозатрат на 90%, повышение скорости работы на 70%).

Ищу позицию, где смогу применять свои навыки в области Data Science и NLP для создания интеллектуальных продуктов, которые приносят реальную пользу бизнесу.

Есть файл резюме (защищен)

Пригласить

Интересные кандидаты