Аналитик Data Scientist Эконометрист
RussiaСеньор • Тимлид/Руководитель группы • Руководитель отдела/подразделения • Архитектор
Релокация • Удаленная работа
Опыт работы более 5 лет
Опыт работы более 5 лет
Короткая ссылка: gkjb.ru/gQb1
О себе
На данный момент Analyst Data Scientist.
Мои компетенции и опыт
Analyst/Data Scientist
Оцениваю многомерное, нахожу границы и свойства эффектов, придаю количественный смысл схожести и разности, подтверждаю или не подтверждаю гипотезы, автоматизирую сегментирование/классифицирование и пр.
Extract - расчёт достаточности выборки, выгрузка данных из DWH на SQL или NoSQL.
Transform - Визуализация и тестирование данных на multicollinearity, heteroscedacity,
autoсorrelation, endogenity (omit/latent-variable,confounding, simultaneity, selection bias), heterogeneity.
Dimensional Reduce(PCA, ICA, SVD,T-sne,U-map,SOM) или Feature extraction(нахождение
предикторов, RFE ,stepwise и др.),балансировка классов(over/undersamling, ввод синтетических).
Алгоритмы LM, RLM, Quantreg, ivreg. feols, lmer, GLM, GAMLSS, SVM, survival, NN, XGB, CatBoost, LightGBM, GBM,
RandomForest, C5.0, rpart, и тд.).
Временные ряды : forecast univariate TS с моделированием зависимостей ошибки и эффектами накопления при прогнозе в h шагов
вперед. Исследования значимости и состоятельности оценок при автокорреляции и взаимозависимостях в ошибках модели.(mcmcreg, GP)
Работа с нестационарными рядами (динамика DLM) . Работа с малыми выборками (MCMCBayes).
Настройка под bagging.
Cross-validation и параметризация. Оптимизация гиперпараметров моделей. (bayesian, MH, adaptMH)
ML stacking в исследованиях потенциала точности.
Бустификация classic ML в исследованиях потенциала генерализации.
Кластеризация(k-means, pam, KNN, HC, fuzzy clustering нужен доступ к резюме )
Исследовательские EDA и ML (Состоятельные оценки реальных данных в условиях нарушения предпосылок Гаусса-Маркова):
2sls/liml, подбор инструментов (внешние/внутренние), идентификация(пригодность), оценка.
Смешанные модели дискриминантного анализа (dim redux).Смешанные распределения EM и Bayes подходы, разделение и исследование
истинных параметров в смесях(GMM и другие смешанные).
Оценка : коэф. тесты на точность (RSS,MSE,MAPE,AIC,BIC- для количественных,ROC/AUC, Gini, Qini и пр.)
SOTA приёмы преодоления размерности в NLP.(similarity matrix, embeddings, LSH)
Тесты:
A/B тесты.Расчёт объема выборки, A/A расчет мощности, baseline MDE p-value классика и p-value ci для легкой интерпретации в A/B, корректность при множественных гипотезах. Помощь в разработке онлайн a/b (бандитизированно) на основе байесовского подхода. Вариации тестов под CUPED при передисперсии, робастные тесты в условиях не стабильных распределений . Методы тестирования ratio-метрик. Форматы superiority, non-inferity, также в сравнении с порогом. Расчеты инкрементов (two-sided,lesser,greater). Измерение каннибализации.
При малых и смещенных выборках.(BAYES).
Маркетинговые (МММ и др):
Оценка маркетингового микса по каналам, моделирование сценарное (pos/base/neg), вероятностное (sampling и отображение в параметрах доказанных распределений), моделирование ошибки через параметрику, учёт эндогенности.
Параметрические модели для оценки смеси распределений multivariate (mixed models) и непараметрика (mix models) смешанные модели при оценке сложных взаимодействий при неслучайности признаков и повторяющихся наблюдениях.
Uplift сегментация по эффекту от воздействия. CATE: Методы S|Two-models (Lai w and IMPeffs), X-robust, R- robust. В том числе при эндогенности (self selection). При наличии достаточности данных ITE эффект c помощью CVT и CausalRF, gRF
DiD - для быстрой оценки ATE в группах. При сильных нарушениях протокола (эндогенности) doubleML.
Conjoint-связные события.
RFM - анализ, CJM исследования.
BTYD - моделирование. LTV, CHURN и др. для unit формата данных.
Load - выгрузка результатов и визуализации в
EXCEL-like,SQL,HTML.(в том числе и интерактивные). Любые dashboards!
Интересуюсь Reinforcement learning подходами в рамках online исполнения задач ML и Recsys.
