当前位置: 首页 > news >正文

IBM-Waston电信客户流失归因分析报告


1-分析报告摘要

(1)-分析目的

本项目旨在研究IBM-Wastion电信客户流失的主要影响因素,为降低用户流失率、输出留存策略提供数据支持。

(2)-主要工作
  1. 数据预览与清洗

    • 数据预览:对所选的电信客户数据集(7043条样本数),通过前期的数据预览、确认每个字段的业务含义与数据类型
    • 数据清洗:依次检查数据集是否存在缺失值、异常值与重复值,完成清洗后得到7032条有效样本,涵盖了用户属性、产品服务、合同及消费等多维特征
  2. 探索性分析(EDA)
    通过多维度对比分析发现:

    • 用户属性:老年单身无抚养责任入网时间小于1年的用户具有更高的流失率(如图2所示)

    • 服务因素:使用光纤上网的用户流失率最高,为41.89%(相较平均流失率高出15.31%),而增值服务(如安全服务、技术支持)可显著降低流失率(降幅可达42%以上),详见图3、图4

    • 合同与付款方式:

      • 在合同类型中,月付合同用户流失率(42.71%)远高于年付用户(2.85%-11.28%);
      • 在付款方式中,使用电子支票付款的用户流失率最高(45.29%),明显高于其他付款类型的用户(15.25%-19.20%),详见图5
    • 消费模式:流失用户呈现出月费高总消费低的特征,且入网时间为1-6月的高消费用户流失风险最高(如图6、图7所示)

  3. 模型构建与归因分析

    • 建立GBDT用户流失预测模型(测试集召回率0.55,F1分数0.59)
    • 通过SHAP模型计算特征贡献度,通过帕累托分析识别出累积贡献度为79.84%的Top11核心影响因素(如图8、图9所示),主要包括:
      • 合约类型(月付合同特征的贡献度最高,为0.72),是影响用户流失的最核心因素
      • 光纤上网及其他增值服务等因素次之
(3)-核心结论与留存策略
  • 短期合约​​是影响用户流失的最核心因素,建议设计合约升级优惠方案
  • 增值服务可有效降低流失率,故可以将其与​基础服务​​(如光纤上网、多线路电话服务)绑定为优惠套餐
  • 电子支票用户​​流失明显偏高,可针对性开展画像分析或者支付体验的优化

下面将从数据集的基本介绍出发,依次介绍数据处理与分析的各流程具体结果。
全文对应的代码获取方式为:IBM-Wastion电信客户流失分析项目_全代码实现


2-数据概述

本项目所采用数据集来自Kaggle平台的真实数据集,数据获取方式为:Telco Customer Churn
该数据的样本数量为7043,每条样本均包含21个特征,具体为:

子类别属性编号属性名称数据类型备注
用户属性基础信息1.1用户IDobject用户唯一标识
1.2用户性别object
1.3用户年龄分组int年轻/年老
家庭状态1.4用户是否已婚object
1.5用户是否需要抚养责任object
时间维度1.6用户入网时间int单位:月
用户行为产品服务2.1是否购买电话服务object
2.2电话服务是否有多条线路object
2.3是否办理网络服务object
2.4是否办理网络安全服务object
2.5是否办理在线备份object
2.6是否办理设备保护object
2.7是否办理技术支持object
2.8是否办理电视服务object
2.9是否办理电影服务object
消费与合同2.10月消费float
2.11总消费object需转为float
2.12合约签订类型object
2.13是否申请纸质账单object
2.14付款方式object
目标变量客户状态3.1用户是否流失object二元标签(是/否)

3-数据清洗结果

清洗类型影响字段问题描述处理措施处理行数处理状态
缺失值TotalCharges存在缺失值(占比0.1562%)删除缺失行11行已处理
异常值连续型的MonthlyCharges值域范围[18.25, 118.75]保留原始数据-无异常
连续型的TotalCharges值域范围[18.80, 8684.80]保留原始数据-无异常
其余object型数据均无异常取值/无违反业务逻辑无需处理-无异常
重复值customerID数据类型为object,无重复值无需处理-无重复

4-数据探索性分析

4.1-用户流失情况的总览:

在这里插入图片描述
整体的流失用户占比为26.58%,对于分类问题属于类别不平衡问题.

4.2-用户属性对流失率的影响:

在这里插入图片描述

从图2-流失率在5种用户属性的差异在,可以初步得出以下结论:

  1. 不同性别的用户,流失情况基本一致
性别流失率差异
26.96%
26.20%-0.76%
  1. 老年用户的流失率高于年轻用户
年龄流失率差异
老年41.68%
年轻23.65%-18.03%
  1. 单身用户的流失率高于已婚用户
婚姻状态流失率差异
单身32.98%
已婚19.72%-13.26%
  1. 承担抚养责任的用户流失率更高
抚养责任流失率差异
无需抚养31.28%
需抚养15.53%-15.75%
  1. 随着用户入网时间的增加,用户流失率呈降低趋势
入网时长流失率与上一行流失率的差异
1-6个月53.33%
6-12月35.89%-17.44%
1-2年28.71%-7.18%
2-4年20.39%-8.32%
4-6年9.51%-10.88%

4.3-用户行为对流失率的分析:

a-电话服务对用户流失的影响

在这里插入图片描述

针对电话服务及其流失率的差异,可初步得到以下结论:

  1. 办理电话服务的用户,流失率略高于未开通用户
服务类型办理状态流失率差异
电话服务未办理25.00%基准
办理26.75%+1.75%
  1. 在办理电话服务的用户中,多线路的用户流失率高于单线路用户

    表明多线路服务未达用户预期,反而加剧用户流失
线路状态流失率差异
无电话服务25.00%基准
单线路25.08%+0.08%
多线路28.65%+3.65%

b-网络服务对用户流失的影响

在这里插入图片描述
而在网络服务中可初步得出以下结论::

  1. 网络服务中使用光纤上网的用户流失率最高,表明光纤服务质量存在一定的不足
网络基础服务流失率与平均流失率(26.58%)的差异
光纤41.89%+15.31%
DSL19.00%-7.58%
无网络服务7.43%%-19.15%
  1. 开通增值服务可有效降低用户流失率
服务类型开通状态流失率相对降幅
技术支持未开通41.65%
开通15.20%-64.51%
设备保护未开通39.14%
开通22.54%-42.41%
在线备份未开通39.94%
开通21.57%-45.99%
  1. 开通流媒体服务对降低流失率的影响较低,但开通后的流失率仍然略高于平均水平
    因此相关服务也存在一定问题
服务类型开通状态流失率相对降幅
电视服务未开通33.54%
开通30.11%-10.23%
电影服务未开通33.73%
开通29.95%-11.21%

c-合同及付款类型对用户流失的影响

在这里插入图片描述
从合同签订类型及用户付款方式中可以得出:

  1. 合同签订时长与流失率呈现较强的负相关性,

    其中签订月付合同的用户,流失率显著高于水平,需要重点关注
合同类型流失率与平均流失率(26.58%)的差异
月付42.71%+16.13%
1年期合同11.28%-15.3%
2年期合同2.85%-23.73%
  1. 选择纸质账单的用户流失率更低
账单方式流失率差异
无纸化账单33.59%
纸质账单16.38%-17.21%
  1. 付款方式的自动化程度越高,用户流失率越低
付款方式流失率差异
电子支票45.29%基准
邮寄支票19.20%-26.09%
银行自动转账16.73%-28.56%
信用卡自动付款15.25%-30.04%

d-消费金额对用户流失的影响

在这里插入图片描述
从用户的月费及总消费的对比中,可初步得到如下结论:

  1. 流失用户的月费中位数高于非流失用户:
    其中流失用户的月费主要集中在60-110区间,而未流失用户的月费则集中在10-40区间
指标未流失用户流失用户差异
月费中位数64.4576.65+12.20
  1. 流失用户的总消费中位数低于非流失用户
指标未流失用户流失用户差异
消费中位数1683.60703.55-980.05
上界(Q3+1.5×IQR)9793.585626.50-4167.08

其中虽然流失用户的总消费数额中,存在高于上界的离群值(占比6%),但流失用户总消费的上界也低.

目前仅从消费维度难以得到有效结论,故下面将结合用户入网时间与月费/总消费(对其按四分位数分箱处理,每个区间右端点即为对应次序的分位数)作进一步分析:
在这里插入图片描述

将用户消费数额结合入网时间进行分析,可初步得出:

  1. 用户流失率与入网时间呈负相关,与消费数额则呈正相关
    例如,对于入网时间<1年、月消费数额>月费中位数70.3的用户中,流失率高达54.23%-77.50%,
    因此需要重点关注月付的高消费用户

  2. 长期高消费用户依然存在流失风险
    例如,对于入网时间1-2年、月消费数额>月费中位数70.3的用户中,流失率高达40.30%-54.12%
    因此对高消费用户需要持续维护

5-用户流失预测模型构建

5.1-构造数据集

  • 特征编码:
    对本数据集中的类别型字段采用独热编码
    而数值型字段采用分箱+标签编码处理(根据对升序排序的数据,进行等距分箱处理,并按照对应的数值大小进行编码)
  • 标签编码:
    标签列(流失/留存)采用(1/0)编码,对流失客户与非流失客户均按8:2划分训练集与测试集.

5.2-最优分类器的筛选

本文选择了常见的6类树模型,对比这些模型在测试集的召回率与F1分数,结果如下表所示:

模型名称测试召回率(Recall)测试F1分数
GBDT0.54550.5913
LightGBM0.53480.5722
AdaBoost0.52140.5693
XGBoost0.53210.5528
RF0.47860.5188
DT0.50000.5054

最终根据测试集结果,将GBDT作为最优模型.
(注:本项目重点在于识别用户流失的核心因素,为业务决策提供数据支持,而非建立高精度预测模型,因此后续未对GBDT模型参数进行调优.)

6-识别用户流失的核心影响因素

6.1-特征贡献度的帕累托分析

基于GBDT模型,采用SHAP计算测试集中不同因素的特征贡献度
并依据帕累托法则识别出影响用户流失的Top11核心因素,结果如图8所示:

在这里插入图片描述

6.2-用户流失核心因素的解读

上述Top11核心因素,对于GBDT模型判定用户是否流失的具体影响如图9所示:

  1. 左列纵轴的11个因素根据特征贡献度大小(对应下方横轴的SHAP value值的大小),自上而下降序排序:
    例如排在首行的’Contract_Month-to-month’,对于模型表示影响其决策分类的最重要特征,而对于业务则代表影响用户流失的最核心因素
  2. 右列纵轴的’Feature value’则代表了左列纵轴中每个因素本身的数值大小:
    特征数值越大,对应颜色越红
    在这里插入图片描述

因此对于图9的解读,可参考下面两个例子:

  • 对于取值为’1/0’的离散型特征,如Contract_Two_Year/合约是否为两年期’、‘​​InternetService_Fiber optic/是否办理光纤上网​’等:
    例如,当’Contract_Two_Year’=1(为高数值)时,代表用户合同类型是两年期:
    对应图中红色密集分布区域→此时SHAP value<0,表示模型倾向于预测为’负类’/对应本项目业务场景中的’留存

  • 对于经过分箱处理,且根据数据大小进行标签编码的数值特征,如’MonthlyPay_Code/ 月消费额(等距分箱后) ‘:
    当’MonthlyPay_Code’的数值越高时,代表用户的月消费数额越高:
    对应图中红色密集分布区域→此时SHAP value>0,表示模型倾向于预测为’正类’/对应本项目业务场景中的’流失

因此上述Top11核心因素贡献度及对应的业务含义则下表所示:

影响客户流失的Top11关键因素业务含义特征贡献度对应业务逻辑与流失的关系
Contract_Month-to-month是否为月付合同(1/0)0.7233合同类型为月付,倾向于流失
Tenure_Code用户入网时间(等距分箱后)0.4239入网时间越长,倾向于留存
InternetService_Fiber optic是否办理光纤上网服务(1/0)0.3074办理光纤上网服务,倾向于流失
Contract_Two year是否为两年期合约(1/0)0.2658合同类型为两年期,倾向于留存
OnlineSecurity_No是否办理安全服务(1/0)0.2350办理安全服务,倾向于留存
TechSupport_No是否办理技术支持(1/0)0.1856办理技术支持服务,倾向于留存
PaymentMethod_Electronic check是否用电子支票付款(1/0)0.1594使用电子支票付款,倾向于流失
StreamingMovies_Yes是否电影服务(1/0)0.1157办理电影服务,倾向于流失
MultipleLines_No是否办理多线路服务(1/0)0.1065办理多线路服务,倾向于流失
StreamingTV_Yes是否办理电视服务(1/0)0.1032办理电视服务,倾向于流失
MonthlyCharges_Code月消费额(等距分箱后)0.0830月消费额越高,倾向于流失

6.3-用户留存策略

对于影响用户流失的Top11核心影响因素,综合考虑特征贡献度与业务逻辑,得到最终结论如下:

  1. 短期合约是影响用户流失的最大驱动因素

    签约类型为月付合同的用户流失率为42.71%,为平均流失率26.58%的1.61倍,而特征贡献度为0.72,也是最重要的影响因素.且用户流失率与入网时长呈负相关。
    为此可设计合约升级优惠服务,鼓励用户转为季度/年度套餐,通过提高入网时间降低流失率.

  2. 基础服务存在不足,建议绑定增值服务

  • 基础服务中的电话多线路服务、光纤上网服务的流失率分别为28.65%、41.89%,为平均流失率的1.07、1.58倍,可以考虑排查:
    电话多线路服务的收费是否过高?或者光纤服务的网速不满足用户使用需求?
  • 办理增值服务后,可显著降低用户流失率.
    对比无增值服务,开通技术支持/设备保护/在线备份后,流失率降幅分别为64.51%/42.41%/45.99%(详见图4)
    因此可尝试推出:光纤上网+技术支持等增值服务的绑定优惠套餐,或相关增值服务的首月免费试用.
  1. 使用电子支票付款的用户,流失率异常偏高,需针对性分析

    付款方式为电子支票的用户,流失率为45.29%,为平均流失率的1.70倍,但特征贡献度较低,为0.16,表明其高流失率可能受其他因素的交叉影响.
    因此后续可以对该类用户开展画像分析,定位该群体高流失率的主要原因,以针对性地制定策略.

文章转载自:

http://cIUz8f9a.zxwqt.cn
http://3PDVnTzM.zxwqt.cn
http://BAVSPIhQ.zxwqt.cn
http://1FKxCsMJ.zxwqt.cn
http://ABmqz1Dv.zxwqt.cn
http://KbfMgF4T.zxwqt.cn
http://BtcFJD3A.zxwqt.cn
http://CZ33H5P5.zxwqt.cn
http://1kcE39pG.zxwqt.cn
http://0DGdjB6G.zxwqt.cn
http://h0XdPRCC.zxwqt.cn
http://DxwyyYoz.zxwqt.cn
http://WEjIRv0j.zxwqt.cn
http://lgxXdTRJ.zxwqt.cn
http://1EPqixKS.zxwqt.cn
http://AOveAhxD.zxwqt.cn
http://Cw5kEpxy.zxwqt.cn
http://Xf1c3g5T.zxwqt.cn
http://Tas26jPV.zxwqt.cn
http://6mVZGacg.zxwqt.cn
http://Ic7GzmXx.zxwqt.cn
http://qoKNF623.zxwqt.cn
http://AOWojaaU.zxwqt.cn
http://YhLGftzM.zxwqt.cn
http://6Q5JDiMQ.zxwqt.cn
http://Ck6tLcOQ.zxwqt.cn
http://BQnIm9X0.zxwqt.cn
http://jrlAGxrd.zxwqt.cn
http://GvggoWyC.zxwqt.cn
http://ux5kLsGN.zxwqt.cn
http://www.dtcms.com/a/384830.html

相关文章:

  • 江协科技STM32课程笔记(二)
  • CAD多面体密堆积_圆柱体试件3D插件
  • 【IoTDB】时序数据库选型指南:工业大数据场景下的技术突围
  • Python TensorFlow的CNN-LSTM-GRU集成模型在边缘物联网数据IoT电动汽车充电站入侵检测应用
  • TensorFlow Lite Micro 流式关键词识别(KWS) - 完整使用指南
  • 塔能科技:一家“用软件定义硬件”的精准节能公司,正在重新定义行业
  • 基于 CoT 思维链协调多 MCP 工具:依托亚马逊云科技服务打造全流程智能的 Amazon Redshift 运维体系
  • TensorFlow Lite 全面解析:端侧部署方案与PyTorch Mobile深度对比
  • 【机器学习】用 TensorFlow 实现词向量训练全流程
  • C# --- 使用定时任务实现日志的定时聚合
  • Origin如何将格点色阶条进化为渐变色阶条
  • 非关系数据库(NoSQL):所需软件与环境配置全指南
  • 计算机网络1
  • 字幕编辑工具推荐,Subtitle Edit v4.0.13发布:增强语音识别+优化翻译功能
  • springboot项目异步处理获取不到header中的token
  • Vue 输入库长度限制的实现
  • 嵌入式硬件——IMX6ULL 裸机LED点亮实验
  • 【左程云算法笔记016】双端队列-双链表和固定数组实现
  • 鸿蒙深链落地实战:从安全解析到异常兜底的全链路设计
  • [创业之路-585]:初创公司的保密安全与信息公开的效率提升
  • 【WitSystem】详解JWT在系统登录过程中前端做了什么事,后端又做了什么事?
  • 力扣(LeetCode) ——217. 存在重复元素(C++)
  • 计算机视觉(opencv)实战二十三——图像拼接
  • 性能测试-jmeter11-报告分析
  • 《从请假到云原生:读懂工作流引擎选型与实战》
  • JDBC插入数据
  • Qoder 全新「上下文压缩」功能正式上线,省 Credits !
  • FPGA时序约束(五)--衍生时钟约束
  • 【C语言】第八课 输入输出与文件操作​​
  • 滤波器模块选型指南:关键参数与实用建议