IBM-Waston电信客户流失归因分析报告
1-分析报告摘要
(1)-分析目的
本项目旨在研究IBM-Wastion电信客户流失的主要影响因素,为降低用户流失率、输出留存策略提供数据支持。
(2)-主要工作
-
数据预览与清洗
- 数据预览:对所选的电信客户数据集(7043条样本数),通过前期的数据预览、确认每个字段的业务含义与数据类型
- 数据清洗:依次检查数据集是否存在缺失值、异常值与重复值,完成清洗后得到7032条有效样本,涵盖了用户属性、产品服务、合同及消费等多维特征
-
探索性分析(EDA)
通过多维度对比分析发现:-
用户属性:老年、单身、无抚养责任及入网时间小于1年的用户具有更高的流失率(如图2所示)
-
服务因素:使用光纤上网的用户流失率最高,为41.89%(相较平均流失率高出15.31%),而增值服务(如安全服务、技术支持)可显著降低流失率(降幅可达42%以上),详见图3、图4
-
合同与付款方式:
- 在合同类型中,月付合同用户流失率(42.71%)远高于年付用户(2.85%-11.28%);
- 在付款方式中,使用电子支票付款的用户流失率最高(45.29%),明显高于其他付款类型的用户(15.25%-19.20%),详见图5
-
消费模式:流失用户呈现出月费高、总消费低的特征,且入网时间为1-6月的高消费用户流失风险最高(如图6、图7所示)
-
-
模型构建与归因分析
- 建立GBDT用户流失预测模型(测试集召回率0.55,F1分数0.59)
- 通过SHAP模型计算特征贡献度,通过帕累托分析识别出累积贡献度为79.84%的Top11核心影响因素(如图8、图9所示),主要包括:
- 合约类型(月付合同特征的贡献度最高,为0.72),是影响用户流失的最核心因素
- 光纤上网及其他增值服务等因素次之
- 合约类型(月付合同特征的贡献度最高,为0.72),是影响用户流失的最核心因素
(3)-核心结论与留存策略
- 短期合约是影响用户流失的最核心因素,建议设计合约升级优惠方案
- 增值服务可有效降低流失率,故可以将其与基础服务(如光纤上网、多线路电话服务)绑定为优惠套餐
- 电子支票用户流失明显偏高,可针对性开展画像分析或者支付体验的优化
下面将从数据集的基本介绍出发,依次介绍数据处理与分析的各流程具体结果。
全文对应的代码获取方式为:IBM-Wastion电信客户流失分析项目_全代码实现
2-数据概述
本项目所采用数据集来自Kaggle平台的真实数据集,数据获取方式为:Telco Customer Churn
该数据的样本数量为7043,每条样本均包含21个特征,具体为:
子类别 | 属性编号 | 属性名称 | 数据类型 | 备注 | |
---|---|---|---|---|---|
用户属性 | 基础信息 | 1.1 | 用户ID | object | 用户唯一标识 |
1.2 | 用户性别 | object | |||
1.3 | 用户年龄分组 | int | 年轻/年老 | ||
家庭状态 | 1.4 | 用户是否已婚 | object | ||
1.5 | 用户是否需要抚养责任 | object | |||
时间维度 | 1.6 | 用户入网时间 | int | 单位:月 | |
用户行为 | 产品服务 | 2.1 | 是否购买电话服务 | object | |
2.2 | 电话服务是否有多条线路 | object | |||
2.3 | 是否办理网络服务 | object | |||
2.4 | 是否办理网络安全服务 | object | |||
2.5 | 是否办理在线备份 | object | |||
2.6 | 是否办理设备保护 | object | |||
2.7 | 是否办理技术支持 | object | |||
2.8 | 是否办理电视服务 | object | |||
2.9 | 是否办理电影服务 | object | |||
消费与合同 | 2.10 | 月消费 | float | ||
2.11 | 总消费 | object | 需转为float | ||
2.12 | 合约签订类型 | object | |||
2.13 | 是否申请纸质账单 | object | |||
2.14 | 付款方式 | object | |||
目标变量 | 客户状态 | 3.1 | 用户是否流失 | object | 二元标签(是/否) |
3-数据清洗结果
清洗类型 | 影响字段 | 问题描述 | 处理措施 | 处理行数 | 处理状态 |
---|---|---|---|---|---|
缺失值 | TotalCharges | 存在缺失值(占比0.1562%) | 删除缺失行 | 11行 | 已处理 |
异常值 | 连续型的MonthlyCharges | 值域范围[18.25, 118.75] | 保留原始数据 | - | 无异常 |
连续型的TotalCharges | 值域范围[18.80, 8684.80] | 保留原始数据 | - | 无异常 | |
其余object型数据 | 均无异常取值/无违反业务逻辑 | 无需处理 | - | 无异常 | |
重复值 | customerID | 数据类型为object,无重复值 | 无需处理 | - | 无重复 |
4-数据探索性分析
4.1-用户流失情况的总览:
整体的流失用户占比为26.58%,对于分类问题属于类别不平衡问题.
4.2-用户属性对流失率的影响:
从图2-流失率在5种用户属性的差异在,可以初步得出以下结论:
- 不同性别的用户,流失情况基本一致
性别 | 流失率 | 差异 |
---|---|---|
女 | 26.96% | |
男 | 26.20% | -0.76% |
- 老年用户的流失率高于年轻用户
年龄 | 流失率 | 差异 |
---|---|---|
老年 | 41.68% | |
年轻 | 23.65% | -18.03% |
- 单身用户的流失率高于已婚用户
婚姻状态 | 流失率 | 差异 |
---|---|---|
单身 | 32.98% | |
已婚 | 19.72% | -13.26% |
- 承担抚养责任的用户流失率更高
抚养责任 | 流失率 | 差异 |
---|---|---|
无需抚养 | 31.28% | |
需抚养 | 15.53% | -15.75% |
- 随着用户入网时间的增加,用户流失率呈降低趋势
入网时长 | 流失率 | 与上一行流失率的差异 |
---|---|---|
1-6个月 | 53.33% | |
6-12月 | 35.89% | -17.44% |
1-2年 | 28.71% | -7.18% |
2-4年 | 20.39% | -8.32% |
4-6年 | 9.51% | -10.88% |
4.3-用户行为对流失率的分析:
a-电话服务对用户流失的影响
针对电话服务及其流失率的差异,可初步得到以下结论:
- 办理电话服务的用户,流失率略高于未开通用户
服务类型 | 办理状态 | 流失率 | 差异 |
---|---|---|---|
电话服务 | 未办理 | 25.00% | 基准 |
办理 | 26.75% | +1.75% |
- 在办理电话服务的用户中,多线路的用户流失率高于单线路用户
表明多线路服务未达用户预期,反而加剧用户流失
线路状态 | 流失率 | 差异 |
---|---|---|
无电话服务 | 25.00% | 基准 |
单线路 | 25.08% | +0.08% |
多线路 | 28.65% | +3.65% |
b-网络服务对用户流失的影响
而在网络服务中可初步得出以下结论::
- 网络服务中使用光纤上网的用户流失率最高,表明光纤服务质量存在一定的不足
网络基础服务 | 流失率 | 与平均流失率(26.58%)的差异 |
---|---|---|
光纤 | 41.89% | +15.31% |
DSL | 19.00% | -7.58% |
无网络服务 | 7.43%% | -19.15% |
- 开通增值服务可有效降低用户流失率
服务类型 | 开通状态 | 流失率 | 相对降幅 |
---|---|---|---|
技术支持 | 未开通 | 41.65% | |
开通 | 15.20% | -64.51% | |
设备保护 | 未开通 | 39.14% | |
开通 | 22.54% | -42.41% | |
在线备份 | 未开通 | 39.94% | |
开通 | 21.57% | -45.99% |
- 开通流媒体服务对降低流失率的影响较低,但开通后的流失率仍然略高于平均水平
因此相关服务也存在一定问题
服务类型 | 开通状态 | 流失率 | 相对降幅 |
---|---|---|---|
电视服务 | 未开通 | 33.54% | |
开通 | 30.11% | -10.23% | |
电影服务 | 未开通 | 33.73% | |
开通 | 29.95% | -11.21% |
c-合同及付款类型对用户流失的影响
从合同签订类型及用户付款方式中可以得出:
- 合同签订时长与流失率呈现较强的负相关性,
其中签订月付合同的用户,流失率显著高于水平,需要重点关注
合同类型 | 流失率 | 与平均流失率(26.58%)的差异 |
---|---|---|
月付 | 42.71% | +16.13% |
1年期合同 | 11.28% | -15.3% |
2年期合同 | 2.85% | -23.73% |
- 选择纸质账单的用户流失率更低
账单方式 | 流失率 | 差异 |
---|---|---|
无纸化账单 | 33.59% | |
纸质账单 | 16.38% | -17.21% |
- 付款方式的自动化程度越高,用户流失率越低
付款方式 | 流失率 | 差异 |
---|---|---|
电子支票 | 45.29% | 基准 |
邮寄支票 | 19.20% | -26.09% |
银行自动转账 | 16.73% | -28.56% |
信用卡自动付款 | 15.25% | -30.04% |
d-消费金额对用户流失的影响
从用户的月费及总消费的对比中,可初步得到如下结论:
- 流失用户的月费中位数高于非流失用户:
其中流失用户的月费主要集中在60-110区间,而未流失用户的月费则集中在10-40区间
指标 | 未流失用户 | 流失用户 | 差异 |
---|---|---|---|
月费中位数 | 64.45 | 76.65 | +12.20 |
- 流失用户的总消费中位数低于非流失用户
指标 | 未流失用户 | 流失用户 | 差异 |
---|---|---|---|
消费中位数 | 1683.60 | 703.55 | -980.05 |
上界(Q3+1.5×IQR) | 9793.58 | 5626.50 | -4167.08 |
其中虽然流失用户的总消费数额中,存在高于上界的离群值(占比6%),但流失用户总消费的上界也低.
目前仅从消费维度难以得到有效结论,故下面将结合用户入网时间与月费/总消费(对其按四分位数分箱处理,每个区间右端点即为对应次序的分位数)作进一步分析:
将用户消费数额结合入网时间进行分析,可初步得出:
-
用户流失率与入网时间呈负相关,与消费数额则呈正相关
例如,对于入网时间<1年、月消费数额>月费中位数70.3的用户中,流失率高达54.23%-77.50%,
因此需要重点关注月付的高消费用户 -
长期高消费用户依然存在流失风险
例如,对于入网时间1-2年、月消费数额>月费中位数70.3的用户中,流失率高达40.30%-54.12%
因此对高消费用户需要持续维护
5-用户流失预测模型构建
5.1-构造数据集
- 特征编码:
对本数据集中的类别型字段采用独热编码
而数值型字段采用分箱+标签编码处理(根据对升序排序的数据,进行等距分箱处理,并按照对应的数值大小进行编码) - 标签编码:
标签列(流失/留存)采用(1/0)编码,对流失客户与非流失客户均按8:2划分训练集与测试集.
5.2-最优分类器的筛选
本文选择了常见的6类树模型,对比这些模型在测试集的召回率与F1分数,结果如下表所示:
模型名称 | 测试召回率(Recall) | 测试F1分数 |
---|---|---|
GBDT | 0.5455 | 0.5913 |
LightGBM | 0.5348 | 0.5722 |
AdaBoost | 0.5214 | 0.5693 |
XGBoost | 0.5321 | 0.5528 |
RF | 0.4786 | 0.5188 |
DT | 0.5000 | 0.5054 |
最终根据测试集结果,将GBDT作为最优模型.
(注:本项目重点在于识别用户流失的核心因素,为业务决策提供数据支持,而非建立高精度预测模型,因此后续未对GBDT模型参数进行调优.)
6-识别用户流失的核心影响因素
6.1-特征贡献度的帕累托分析
基于GBDT模型,采用SHAP计算测试集中不同因素的特征贡献度
并依据帕累托法则识别出影响用户流失的Top11核心因素,结果如图8所示:
6.2-用户流失核心因素的解读
上述Top11核心因素,对于GBDT模型判定用户是否流失的具体影响如图9所示:
- 左列纵轴的11个因素根据特征贡献度大小(对应下方横轴的SHAP value值的大小),自上而下降序排序:
例如排在首行的’Contract_Month-to-month’,对于模型表示影响其决策分类的最重要特征,而对于业务则代表影响用户流失的最核心因素 - 右列纵轴的’Feature value’则代表了左列纵轴中每个因素本身的数值大小:
特征数值越大,对应颜色越红
因此对于图9的解读,可参考下面两个例子:
-
对于取值为’1/0’的离散型特征,如Contract_Two_Year/合约是否为两年期’、‘InternetService_Fiber optic/是否办理光纤上网’等:
例如,当’Contract_Two_Year’=1(为高数值)时,代表用户合同类型是两年期:
对应图中红色密集分布区域→此时SHAP value<0,表示模型倾向于预测为’负类’/对应本项目业务场景中的’留存’ -
对于经过分箱处理,且根据数据大小进行标签编码的数值特征,如’MonthlyPay_Code/ 月消费额(等距分箱后) ‘:
当’MonthlyPay_Code’的数值越高时,代表用户的月消费数额越高:
对应图中红色密集分布区域→此时SHAP value>0,表示模型倾向于预测为’正类’/对应本项目业务场景中的’流失’
因此上述Top11核心因素贡献度及对应的业务含义则下表所示:
影响客户流失的Top11关键因素 | 业务含义 | 特征贡献度 | 对应业务逻辑与流失的关系 |
---|---|---|---|
Contract_Month-to-month | 是否为月付合同(1/0) | 0.7233 | 合同类型为月付,倾向于流失 |
Tenure_Code | 用户入网时间(等距分箱后) | 0.4239 | 入网时间越长,倾向于留存 |
InternetService_Fiber optic | 是否办理光纤上网服务(1/0) | 0.3074 | 办理光纤上网服务,倾向于流失 |
Contract_Two year | 是否为两年期合约(1/0) | 0.2658 | 合同类型为两年期,倾向于留存 |
OnlineSecurity_No | 是否未办理安全服务(1/0) | 0.2350 | 办理安全服务,倾向于留存 |
TechSupport_No | 是否未办理技术支持(1/0) | 0.1856 | 办理技术支持服务,倾向于留存 |
PaymentMethod_Electronic check | 是否用电子支票付款(1/0) | 0.1594 | 使用电子支票付款,倾向于流失 |
StreamingMovies_Yes | 是否电影服务(1/0) | 0.1157 | 办理电影服务,倾向于流失 |
MultipleLines_No | 是否未办理多线路服务(1/0) | 0.1065 | 办理多线路服务,倾向于流失 |
StreamingTV_Yes | 是否办理电视服务(1/0) | 0.1032 | 办理电视服务,倾向于流失 |
MonthlyCharges_Code | 月消费额(等距分箱后) | 0.0830 | 月消费额越高,倾向于流失 |
6.3-用户留存策略
对于影响用户流失的Top11核心影响因素,综合考虑特征贡献度与业务逻辑,得到最终结论如下:
-
短期合约是影响用户流失的最大驱动因素
签约类型为月付合同的用户流失率为42.71%,为平均流失率26.58%的1.61倍,而特征贡献度为0.72,也是最重要的影响因素.且用户流失率与入网时长呈负相关。
为此可设计合约升级优惠服务,鼓励用户转为季度/年度套餐,通过提高入网时间降低流失率. -
基础服务存在不足,建议绑定增值服务
- 基础服务中的电话多线路服务、光纤上网服务的流失率分别为28.65%、41.89%,为平均流失率的1.07、1.58倍,可以考虑排查:
电话多线路服务的收费是否过高?或者光纤服务的网速不满足用户使用需求? - 办理增值服务后,可显著降低用户流失率.
对比无增值服务,开通技术支持/设备保护/在线备份后,流失率降幅分别为64.51%/42.41%/45.99%(详见图4)
因此可尝试推出:光纤上网+技术支持等增值服务的绑定优惠套餐,或相关增值服务的首月免费试用.
- 使用电子支票付款的用户,流失率异常偏高,需针对性分析
付款方式为电子支票的用户,流失率为45.29%,为平均流失率的1.70倍,但特征贡献度较低,为0.16,表明其高流失率可能受其他因素的交叉影响.
因此后续可以对该类用户开展画像分析,定位该群体高流失率的主要原因,以针对性地制定策略.