Модель машинного обучения которая предсказывает на ежедневной основе отток зарплатных клиентов из банка до возникновения самого события оттока, используя данные поведения клиента: транзакции, продукты, мобильное приложение, терминалы, прочее. В качастве целевой переменной - определение типа клиента (где 0 - клиент планирует продолжить получать ЗП на карту текущего банка, 1 - клиент сменить банк для начисления ЗП - будущий отток)
- Best Public score: 0.77508
- Best Private score: 0.77203
Проект состоит из следующих основных частей:
- analytics - модуль аналитики данных.
- feature_extraction_1 - модуль для извлечения признаков (часть 1).
- feature_extraction_2 - модуль для извлечения признаков (часть 2).
- main - составление и обучение пайплайна
Провели анализ данных. Отобрали признаки по корреляции 95%, выделили категориальные признаки. На основе этих признаков построили модель catboost и отобрали топ90 признаков по важности. Нагенерировали новые фичи, такие как синусы, логирифмы, полиноминальные признаки и произвели повторный отбор. Отбор проводили по feature importance и permutation importance: сначала убрали признаки с нулевой важностью, для отбора финальных признаков использовали forward selection.
Попробовали Логистическую регрессию, MLP, catboost, xgboost, lightgbm, fttransformer. Лучше всего себя показал пайплайн из Autolnt + DenseNet (LigthAutoML) + bagging catboost (x3).