Data Scientist (NLP)
Санкт-Петербург, РоссияДжуниор • Миддл
Релокация • Удаленная работа • Частичная занятость • Работа в офисе
Опыт работы более 5 лет
Опыт работы более 5 лет
Есть файл резюме (защищен)
Короткая ссылка: gkjb.ru/g15J6
О себе
На данный момент Главный специалист технической поддержки Управления международного сотрудничества.
Мои компетенции и опыт
Python-разработчик
Апрель 2024 — сейчас
Навыки:
- Python, NLP, промпт-инжиниринг, LLM (Ollama)
- Backend-фреймворки: FastAPI, Django, DRF, Flask
- ML/NLP-библиотеки: scikit-learn, pandas, numpy, NLTK, Gensim, TF-IDF
- Базы данных: PostgreSQL, SQLAlchemy, Alembic, asyncpg, SQL
- Инфраструктура: Docker, Docker Compose, CI/CD (GitHub Actions), Git
- Тестирование: Pytest, Unittest
- Асинхронное программирование: asyncio, Aiogram
- Визуализация: Matplotlib, Seaborn, PCA/t-SNE
Ключевые реализованные проекты:
Embedding Visualizer
[Gensim, scikit-learn, Matplotlib, NumPy, PCA, t-SNE]
Интерактивный инструмент для семантического анализа и визуализации векторных представлений слов (Word2Vec, GloVe). Реализованы автоматическая загрузка и кэширование предобученных моделей, поиск ближайших соседей и аналогий, 2D-визуализация векторных отношений (PCA/t-SNE) с построением семантических кластеров, а также оценка качества модели на наборе Google Analogy Test Set. Проект включает интуитивный командный интерфейс с демо-режимом, контекстной справкой и автоматическим сохранением графиков.
Movie Recommendation System
[scikit-learn, pandas, TF-IDF, Aiogram, Matplotlib]
End‑to‑end система рекомендации фильмов на основе текстовых данных (жанры, актерский состав). Реализованы два алгоритма (TF‑IDF + косинусная близость и взвешенный актерский состав) и два интерфейса — консольное приложение с визуализацией и полнофункциональный Telegram-бот.
Wallet REST API
[FastAPI, PostgreSQL, SQLAlchemy 2.0, asyncpg, Docker, Pytest]
Асинхронное высоконагруженное REST API для управления финансовыми балансами с гарантией консистентности данных при параллельных запросах. Реализованы конкурентная безопасность (транзакции READ COMMITTED, блокировки SELECT FOR UPDATE), полный CI/CD (Docker Compose, Alembic, GitHub Actions), автоматическая документация OpenAPI/Swagger, модульные и интеграционные тесты.
Video Analytics Bot
[Aiogram 3.7+, Ollama (Mistral 7B), PostgreSQL, asyncpg, промпт-инжиниринг]
Telegram-бот, преобразующий запросы на естественном языке в SQL-запросы к базе статистики видео. Использует локальную LLM для полной конфиденциальности и работы офлайн. Разработан детальный системный промпт, обеспечивающий стабильную генерацию SQL; асинхронная архитектура, оптимизированные индексы и пул соединений.
CountVectorizer Comparison
[scikit-learn, NLTK, pandas, Matplotlib, Seaborn]
Сравнительное исследование пяти методов предобработки текста (стемминг, лемматизация, удаление стоп-слов и др.) при векторизации новостных статей (датасет BBC News). Построен конвейер обработки, проведена оценка по точности, размеру словаря, скорости и плотности матрицы. Результаты визуализированы и оформлены в итоговый отчет.
Text Keyword Extractor
[scikit-learn, pandas, NLTK, TF-IDF]
Глубокий анализ алгоритма TF‑IDF: собственная реализация с нуля и детальное пошаговое сравнение с библиотечной версией scikit-learn. Разработан интерактивный CLI для извлечения ключевых слов, поиска документов, сравнения весов и формул. Проект демонстрирует понимание внутреннего устройства классических методов NLP и промышленных практик (NLTK, пагинация, модульная архитектура).
---
Gazprom International
Февраль 2014 — сейчас
Главный специалист технической поддержки Управления международного сотрудничества
Особые достижения:
- разработал и внедрил в отделе систему учета трудозатрат на базе Excel, что позволило автоматизировать формирование отчетов и сократить время на их подготовку на 90%; система также повысила точность планирования загрузки переводчиков за счет использования исторических данных для прогнозирования
- внедрил в отделе систему автоматизированного перевода (CAT) Trados, с последующим переходом на отечественный Promt Translation Factory в рамках корпоративного курса на импортозамещение, что обеспечило унификацию терминологии за счет централизованных глоссариев, повышение качества и скорости перевода на 70% через переиспользование переводческих памятей, а также 100%-ную конфиденциальность корпоративных данных благодаря локальному развертыванию ПО на внутренних серверах компании
- организовал и внедрил в компании систему дистанционного письменного и устного перевода во время пандемии, что обеспечило непрерывность рабочих процессов и позволило компании выполнить 100% запланированных международных проектов без срывов сроков с сохранением операционной эффективности на прежнем уровне
Должностные обязанности:
- координация с командой разработки ПО Promt Translation Factory и управлением ИТ компании для устранения выявленных багов ПО и покрытия функционалом последующих версий ПО всех потребностей отдела
- анализ бизнес-процессов отдела и автоматизация рутинных задач (учет, отчетность, лингвистические процессы)
- техническая поддержка и администрирование корпоративного ПО для переводов
---
О себе
Data Scientist (NLP) с подтверждённой квалификацией (диплом о профессиональной переподготовке, специализация Coursera по NLP и Generative AI), специализирующийся на анализе текстовых данных, построении рекомендательных систем и применении методов машинного обучения для решения бизнес-задач. Имею практический опыт разработки end‑to‑end ML-решений: от исследования данных и экспериментов с моделями до оценки качества и визуализации результатов.
Владею современным стеком Data Science: Python, scikit-learn, pandas, NumPy, NLTK, Gensim, TF‑IDF, Matplotlib. Понимаю принципы работы эмбеддингов слов (Word2Vec, GloVe), методы векторизации текста и алгоритмы рекомендаций. Провожу сравнительный анализ моделей, использую метрики качества и инструменты визуализации для интерпретации результатов.
Дополнительным преимуществом является мой сильный backend-бэкграунд (FastAPI, Django, Docker, CI/CD), который позволяет не только создавать прототипы, но и встраивать ML-модели в промышленные продукты, обеспечивая их отказоустойчивость и масштабируемость.
Более 12 лет работы в «Газпром Интернэшнл» сформировали системное мышление и умение решать сложные бизнес-задачи: я инициировал и внедрял IT-решения, которые дали измеримый результат (сокращение трудозатрат на 90%, повышение скорости работы на 70%).
Ищу позицию, где смогу применять свои навыки в области Data Science и NLP для создания интеллектуальных продуктов, которые приносят реальную пользу бизнесу.
Есть файл резюме (защищен)
Интересные кандидаты
Мы используем куки, потому что без кук наш сайт не работал бы, другие сайты не работали бы, да и вообще весь
интернет не работал бы
