Аналитик Data Scientist Эконометрист

Russia
Сеньор • Тимлид/Руководитель группы • Руководитель отдела/подразделения • Архитектор
Аналитика, Data Science, Big Data • R
Релокация • Удаленная работа
Опыт работы более 5 лет
О себе

На данный момент Analyst Data Scientist.

Мои компетенции и опыт

Analyst/Data Scientist

Оцениваю многомерное, нахожу границы и свойства эффектов, придаю количественный смысл схожести и разности, подтверждаю или не подтверждаю гипотезы, автоматизирую сегментирование/классифицирование и пр.

Extract - расчёт достаточности выборки, выгрузка данных из DWH на SQL или NoSQL.

Transform - Визуализация и тестирование данных на multicollinearity, heteroscedacity,

autoсorrelation, endogenity (omit/latent-variable,confounding, simultaneity, selection bias), heterogeneity. 

Dimensional Reduce(PCA, ICA, SVD,T-sne,U-map,SOM) или Feature extraction(нахождение

предикторов, RFE ,stepwise и др.),балансировка классов(over/undersamling, ввод синтетических).

Алгоритмы LM, RLM, Quantreg, ivreg. feols, lmer, GLM, GAMLSS, SVM, survival, NN, XGB, CatBoost, LightGBM, GBM,

RandomForest, C5.0, rpart, и тд.).

Временные ряды : forecast univariate TS с моделированием зависимостей ошибки и эффектами накопления при прогнозе в h шагов 

вперед. Исследования значимости и состоятельности оценок при автокорреляции и взаимозависимостях в ошибках модели.(mcmcreg, GP)

Работа с нестационарными рядами (динамика DLM) . Работа с малыми выборками (MCMCBayes).

Настройка под bagging.

Cross-validation и параметризация. Оптимизация гиперпараметров моделей. (bayesian, MH, adaptMH)

ML stacking в исследованиях потенциала точности.

Бустификация classic ML в исследованиях потенциала генерализации.

Кластеризация(k-means, pam, KNN, HC, fuzzy clustering нужен доступ к резюме )

Исследовательские EDA и ML (Состоятельные оценки реальных данных в условиях нарушения предпосылок Гаусса-Маркова):

2sls/liml, подбор инструментов (внешние/внутренние), идентификация(пригодность), оценка.

Смешанные модели дискриминантного анализа (dim redux).Смешанные распределения EM и Bayes подходы, разделение и исследование

истинных параметров в смесях(GMM и другие смешанные).

Оценка : коэф. тесты на точность (RSS,MSE,MAPE,AIC,BIC- для количественных,ROC/AUC, Gini, Qini и пр.)

SOTA приёмы преодоления размерности в NLP.(similarity matrix, embeddings, LSH)

Тесты:

A/B тесты.Расчёт объема выборки, A/A расчет мощности, baseline MDE p-value классика и p-value ci для легкой интерпретации в A/B, корректность при множественных гипотезах. Помощь в разработке онлайн a/b (бандитизированно) на основе байесовского подхода. Вариации тестов под CUPED при передисперсии, робастные тесты в условиях не стабильных распределений . Методы тестирования ratio-метрик. Форматы superiority, non-inferity, также в сравнении с порогом. Расчеты инкрементов (two-sided,lesser,greater). Измерение каннибализации.
При малых и смещенных выборках.(BAYES). 

Маркетинговые (МММ и др):

Оценка маркетингового микса по каналам, моделирование сценарное (pos/base/neg), вероятностное (sampling и отображение в параметрах доказанных распределений), моделирование ошибки через параметрику, учёт эндогенности.

Параметрические модели для оценки смеси распределений multivariate (mixed models) и непараметрика (mix models) смешанные модели при оценке сложных взаимодействий при неслучайности признаков и повторяющихся наблюдениях. 

Uplift сегментация по эффекту от воздействия. CATE: Методы S|Two-models (Lai w and IMPeffs), X-robust, R- robust. В том числе при эндогенности (self selection). При наличии достаточности данных ITE эффект c помощью CVT и CausalRF, gRF 

DiD - для быстрой оценки ATE в группах. При сильных нарушениях протокола (эндогенности) doubleML.

Conjoint-связные события.

RFM - анализ, CJM исследования.

BTYD - моделирование. LTV, CHURN и др. для unit формата данных.

Load - выгрузка результатов и визуализации в

EXCEL-like,SQL,HTML.(в том числе и интерактивные). Любые dashboards!

Интересуюсь Reinforcement learning подходами в рамках online исполнения задач ML и Recsys.



Интересные кандидаты