Skip to content

Данный проект выполнен в процессе обучения в Яндекс Практикум по программе Специалист Data Science +. Проект посвящен прогнозированию оттока клиентов банка на основе исторических данных.

Notifications You must be signed in to change notification settings

olgashipkova/Churn-forecast

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Churn-forecast

Описание проекта

Из Банка Х стали уходить клиенты. Наблюдается ежемесячный отток, который становится заметным. По мнению маркетологов сохранение текущих клиентов дешевле, чем привлечение новых.

Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Анализируются исторические данные о поведении клиентов и расторжении договоров с банком.

Метрика, использованная в проекте F1- score (F1-мера). F1- score (F1-мера) - агрегируюшая метрика, позволяющая параллельно контролировать полноту и точность и являющаяся средним гармоническим полноты и точности. Полнота и точность оченивают качество прогноза положительного класса с разных позиций. Recall описывает, насколько хорошо модель распознает классы, при этом Precision выявляет ситуацию, когда положительные метрики присваиваются излишне часто. Когда полнота или точность близки к нулю, то к 0 приближается и само среднее гармоническое. Пороговое значение метрики F1-score - 0.59.

Источник данных: https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling

Описание данных

Данные находятся в файле Churn.csv (англ. «отток клиентов»).

Признаки

  • RowNumber — индекс строки в данных
  • CustomerId — уникальный идентификатор клиента
  • Surname — фамилия
  • CreditScore — кредитный рейтинг
  • Geography — страна проживания
  • Gender — пол
  • Age — возраст
  • Tenure — сколько лет человек является клиентом банка
  • Balance — баланс на счёте
  • NumOfProducts — количество продуктов банка, используемых клиентом
  • HasCrCard — наличие кредитной карты
  • IsActiveMember — активность клиента
  • EstimatedSalary — предполагаемая зарплата

Целевой признак

  • Exited — факт ухода клиента

Выводы

В рамках проекта исследованы четыре типа моделей для задачи классификации, позволяющие на основании исторических данных о поведении клиентов и расторжении договоров с банком спрогнозировать уйдёт клиент из банка в ближайшее время или нет. Исследованные модели: решающее дерево, случайный лес, логистическая регрессия и градиентный бустинг. Наилучшая модель по результатам исследования - случайный лес со следующими гиперпараметрами: 'max_depth': 9, 'min_samples_leaf': 2, 'min_samples_split': 6, 'n_estimators': 31. Техника, которая была использована для устранения дисбаланса классов, взвешивание классов. На тестовой выборке для данной модели получено значение F1-score- 0.636 при пороговом значении для проекта - 0.59, что превышает пороговое значение на 0.046; AUC-ROC для данной модели- 0.868, что значительно превышает данный показатель для случайной модели - 0.5. Проведен тест модели на адекватность. Используя данную модель Банк Х может прогнозировать уход клиентов банка.

About

Данный проект выполнен в процессе обучения в Яндекс Практикум по программе Специалист Data Science +. Проект посвящен прогнозированию оттока клиентов банка на основе исторических данных.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages