当前位置：首页 > news >正文

Python 数据智能实战 (7)：智能流失预警 - 融合文本反馈

news 2025/7/1 16:56:27

写在前面

—— 不再错过关键预警！结合用户行为与 LLM 文本洞察，构建更精准的流失预测模型

在之前的探索中，我们学习了如何利用大语言模型 (LLM) 对用户评论进行深度挖掘，提取情感、发现主题，并将非结构化的文本信息转化为有价值的特征 (如 Embeddings)。

现在，我们要将这些新获得的技能应用到电商领域最关键、最具挑战性的任务之一：用户流失预测 (Customer Churn Prediction)。

用户流失是悬在所有电商企业头上的“达摩克利斯之剑”。获取新客户的成本远高于维护老客户，因此，及早、准确地识别出有流失倾向的用户并采取有效的挽留措施，对企业的持续增长至关重要。

传统的流失预测模型通常依赖于 结构化的用户行为数据和交易数据：

Recency ®: 最近一次购买距今天数。
Frequency (F): 一段时间内的购买次数。
Monetary (M): 一段时间内的购买总金额。
活动指标: 登录频率、页面浏览时长、购物车添加次数、优惠券使用率等。
用户属性: 注册时长、用户等级、地域等。

基于这些特征，我们可以使用 Scikit-learn 中的 分类算法 (如逻辑回归、决策树、随机森林、支持向量机、梯度提升树等) 来构建预测模型，判断一个用户在未来某个时间段内是否会流失。

这些方法确实有效，但往往存在一个“盲点”：

行为滞后性: 当用户的购买频率下降、登录次数减少时，可能已经处于流失的边缘，挽留的黄金窗口期可能已经错过。
忽略“无声”的信号: 很多时候，用户的流失并非悄无声息。他们可能在 用户评论 中表达了对产品的不满，在 客服沟通 中抱怨了糟糕的体验，在 社交媒体 上吐槽了物流的延迟。这些 散落在文本数据中的负面信号，蕴含着极强的流失预警信息，但传统模型往往无法捕捉。
难以区分相似行为背后的不同原因: 两个同样“低频低消费”的用户，一个可能是价格敏感型、偶尔薅羊毛的用户，另一个可能是曾经的高价值用户、但近期因为一次糟糕的购物体验而心生去意。传统模型很难区分这两种情况。

如何才能在用户行为发生显著变化之前，就捕捉到那些“无声”的流失信号，提升预测的准确性和时效性呢？

答案正是：融合 LLM 对用户文本反馈的深度理解！

本篇博客，我们将实战演练：

构建一个基于传统行为特征的基准流失预测模型。
演示如何利用 LLM 从用户评论或反馈文本中提取关键特征 (例如：负面情感强度、特定抱怨主题标签)。
将 LLM 提取的文本特征与传统行为特征合并。
构建一个融合了文本特征的增强版流失预测模型。
对比评估两个模型的性能，验证 LLM 特征带来的效果提升。

通过本篇实战，你将掌握一种将“用户行为”与“用户心声”相结合的、更强大的流失预测建模方法，让你能够更早、更准地识别高风险用户，为精细化的用户挽留策略提供数据支撑！

一、基础：构建传统流失预测模型

首先，我们需要一个基于传统结构化特征的基准模型，作为后续比较的基础。

1. 数据准备

假设我们有一个 df_user_features DataFrame，包含了用户的行为特征、交易特征以及一个表示未来是否流失的目标变量 Churn (1 表示流失, 0 表示未流失)。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression # 使用逻辑回归作为简单基准
from sklearn.ensemble import RandomForestClassifier # 使用随机森林作为另一个基准/增强模型
from sklearn.metrics import accuracy_score, classification_report, roc_auc_score, confusion_matrix# 模拟用户特征数据
user_data = {'CustomerID': [f'C{i:03d}' for i in range(1, 101)],'Recency': np.random.randint(1, 365, 100),'Frequency': np.random.randint(1, 50, 100),'Monetary': np.random.uniform(50, 5000, 100),'AvgOrderValue': lambda df: df['Monetary'] / df['Frequency'], # 计算平均订单价值'LoginDaysLast30': np.random.randint(0, 30, 100),'UsedCouponLast30': np.random.randint(0, 2, 100), # 0 or 1# 目标变量：模拟流失情况 (通常基于未来一段时间是否活跃/购买)# 这里简单模拟，假设高 Recency, 低 Frequency/Monetary 更可能流失'Churn': [1 if r > 180 and f < 10 and m < 1000 else 0 for r, f, m in zip(np.random.randint(1, 365, 100), np.random.randint(1, 50