当前位置：首页 > news >正文

基础分类决策树

news 2025/8/21 14:41:06

一、数据预处理：模型效果的 “基石”

两个案例共同印证了 “数据质量决定模型上限” 的真理。在泰坦尼克号项目中，原始数据存在大量缺失值 —— 如 “Age”（年龄）缺失率约 20%、“Cabin”（船舱）缺失率超 77%，若直接删除缺失样本会导致数据量骤减，影响模型泛化能力。通过对比 “用中位数填充年龄”“按乘客等级（Pclass）分组填充年龄” 两种方案，我发现后者更符合逻辑（如头等舱乘客年龄普遍更高），最终使模型准确率提升约 5%。而在红酒质量预测中，数据无缺失值，但特征间量纲差异极大（如 “酒精含量” 范围为 8-14，“硫酸盐” 范围为 0.3-2.8），若不进行标准化处理，会导致随机森林、SVM 等模型过度偏向数值大的特征。通过 Z-score 标准化将所有特征缩放到均值为 0、标准差为 1 的区间后，模型 MAE（平均绝对误差）显著降低，证明了 “消除量纲影响” 对回归类任务的重要性。

同时，特征工程的 “针对性” 是关键。泰坦尼克号案例中，“Name” 字段看似无意义，但提取其中的 “头衔”（如 Mr.、Mrs.、Miss.）并转化为分类特征后，模型能捕捉到性别与社会地位的潜在关联（如 Miss. 存活率高于 Mr.）；而红酒质量预测中，通过计算 “酸度比率”（柠檬酸 / 总酸度）、“酒精 - 密度乘积” 等衍生特征，有效强化了化学成分间的交互关系，让模型更精准地识别 “高酒精 + 低密度” 这类优质红酒的特征组合。

二、模型选择与调优：平衡 “拟合” 与 “泛化”

不同任务的核心目标差异，决定了模型选择的方向。泰坦尼克号生存预测是二分类任务，重点在于 “准确率” 与 “召回率” 的平衡 —— 若仅追求高准确率，可能遗漏大量本可存活的乘客（如儿童、女性）。通过对比逻辑回归、决策树、随机森林三种模型，我发现：逻辑回归解释性强，能清晰得出 “女性存活概率是男性的 3 倍”“头等舱乘客存活概率高于三等舱 50%” 等结论，但对非线性特征（如 “年龄 - 舱位” 的交互影响）捕捉不足；决策树虽能拟合非线性关系，却易出现过拟合（如将 “某乘客的特殊姓名后缀” 作为判断依据）；而随机森林通过集成多棵决策树，既保留了对非线性特征的捕捉能力，又通过 “特征随机选择”“样本随机抽样” 降低了过拟合风险，最终测试集准确率达到 83%，且召回率（正确预测存活的比例）提升至 78%，兼顾了预测精度与实际意义。

红酒质量预测则是多分类（质量评分 1-10 分）或回归任务，核心是 “减少预测偏差”。由于红酒质量受化学成分影响呈现连续且复杂的关联，线性回归难以拟合；而 K 近邻（KNN）模型对局部数据敏感，易受异常值（如某瓶红酒因检测误差导致 “酒精含量异常高”）干扰；最终选择梯度提升树（XGBoost），通过迭代优化弱分类器，有效降低了模型的偏差与方差，不仅将预测评分与真实评分的平均误差控制在 0.5 分以内，还能通过特征重要性分析，明确 “酒精含量”“挥发性酸度”“硫酸盐” 是影响红酒质量的 Top3 因素，与行业常识高度吻合，验证了模型的合理性。

此外，超参数调优是提升模型性能的关键步骤。在两个案例中，我均采用 “网格搜索 + 交叉验证” 的方法：如泰坦尼克号的随机森林，通过遍历 “决策树数量（n_estimators）”“最大深度（max_depth）”“最小样本分裂数（min_samples_split）” 等参数组合，发现当 n_estimators=200、max_depth=8 时，模型在 5 折交叉验证中的平均准确率最高；而红酒质量的 XGBoost 模型，通过调整 “学习率（learning_rate=0.1）”“树的数量（n_estimators=150）”，避免了模型在训练集上的过拟合，使测试集误差进一步降低 12%。

三、结果分析：从 “预测” 到 “洞察”

机器学习的价值不仅在于 “准确预测”，更在于通过结果反推业务逻辑。在泰坦尼克号案例中，模型的特征重要性排序显示 “性别”“舱位等级”“年龄” 是影响生存的前三大因素，这与历史事实中 “妇女和儿童优先登救生艇”“头等舱乘客拥有优先逃生权” 的背景完全一致，说明模型不仅学会了 “预测”，更捕捉到了事件背后的人文逻辑；而通过混淆矩阵分析，我发现模型对 “三等舱男性” 的存活预测误差较大，进一步挖掘数据后发现，部分三等舱男性因协助他人逃生延迟登艇，却被模型误判为 “低存活概率”，这一发现也为后续优化（如增加 “是否协助他人” 的特征假设）提供了方向。

红酒质量预测的结果则直接具备商业价值。模型明确的 “高酒精含量（12.5% 以上）+ 低挥发性酸度（0.6 以下）” 优质红酒特征，可指导酒庄调整酿造工艺；同时，对 “评分 6-7 分” 的红酒预测准确率最高（92%），而对 “评分 1-2 分（劣质）” 和 “9-10 分（顶级）” 的预测误差较大，这一结论提示：若需针对顶级红酒做精准筛选，需补充更多高端红酒样本，解决数据分布不均衡的问题。

四、总结与反思：机器学习的 “道” 与 “术”

通过这两个案例的实践，我深刻认识到：机器学习不是 “调包跑模型” 的机械操作，而是 “数据理解 - 特征工程 - 模型选择 - 结果验证” 的闭环思维。首先，业务理解是前提—— 若不了解泰坦尼克号的历史背景，就无法想到提取 “头衔” 特征；若不熟悉红酒酿造知识，也难以构建 “酸度比率” 等有效衍生特征。其次，数据驱动需兼顾逻辑—— 当模型结果与常识冲突时（如某红酒 “高酒精却低评分”），需优先检查数据是否存在异常（如检测错误），而非盲目信任模型。最后，模型没有 “最优”，只有 “最适合”—— 逻辑回归虽简单，却在解释性要求高的场景中优于复杂模型；XGBoost 虽强大，却需更多计算资源与调优时间，需根据任务目标（精度、效率、解释性）灵活选择。

未来学习中，我将进一步探索 “不平衡数据处理”（如泰坦尼克号中存活样本仅占 38%）、“模型可解释性工具”（如 SHAP、LIME）的应用，同时尝试将两个案例的方法论迁移到其他场景（如客户流失预测、产品质量检测），真正实现从 “学会” 到 “会用” 的跨越。

查看全文

http://www.dtcms.com/a/339211.html