当前位置: 首页 > news >正文

分类与回归算法(一)- 模型评价指标

文章目录

  • 一、常用的分类与回归算法
    • 1. 常用分类算法
    • 1.2 常用回归算法
  • 二、分类模型评价指标
    • 1. 混淆矩阵(Confusion Matrix)
    • 2. 准确率(Accuracy)
      • 2.1 核心定义
      • 2.2 计算公式
      • 2.3 关键特点
      • 2.4 适用场景
    • 3. 精确率(Precision)
      • 3.1 核心定义
      • 3.2 计算公式
      • 3.3 关键特点
      • 3.4 适用场景
    • 4. 召回率(Recall)
      • 4.1 核心定义
      • 4.2 计算公式
      • 4.3 关键特点
      • 4.4 适用场景
      • 4.5 精确率与召回率的权衡
    • 5. F1分数(F1-Score)
      • 5.1 核心定义
      • 5.2 计算公式
      • 5.3 关键特点
      • 5.4 适用场景
    • 6. ROC曲线与AUC值
      • 6.1 ROC曲线(Receiver Operating Characteristic Curve)
        • 6.1.1 核心定义
        • 6.1.2 关键指标推导
        • 6.1.3 曲线绘制逻辑
        • 6.1.4 曲线解读
      • 6.2 AUC值(Area Under ROC Curve)
        • 6.2.1 核心定义
        • 6.2.2 数值解读
        • 6.2.3 适用场景
      • 6.2.4 优势总结
  • 三、回归模型评价指标
    • 1. 绝对误差与相对误差
      • 1.1 绝对误差(Absolute Error, AE)
        • 1.1.1 核心定义
        • 1.1.2 计算公式
        • 1.1.3 特点与应用
      • 1.2 相对误差(Relative Error, RE)
        • 1.2.1 核心定义
        • 1.2.2 计算公式
        • 1.2.3 特点与应用
    • 2. 平均绝对误差(Mean Absolute Error, MAE)
      • 2.1 核心定义
      • 2.2 计算公式
      • 2.3 关键特点
      • 2.4 适用场景
    • 3. 均方误差(Mean Squared Error, MSE)
      • 3.1 核心定义
      • 3.2 计算公式
      • 3.3 关键特点
      • 3.4 适用场景
    • 4. 均方根误差(Root Mean Squared Error, RMSE)
      • 4.1 核心定义
      • 4.2 计算公式
      • 4.3 关键特点
      • 4.4 适用场景
    • 5. 平均绝对百分误差(Mean Absolute Percentage Error, MAPE)
      • 5.1 核心定义
      • 5.2 计算公式
      • 5.3 关键特点
      • 5.4 适用场景
    • 6. 决定系数(Coefficient of Determination, \(R^2^\))
      • 6.1 核心定义
      • 6.2 计算公式
      • 6.3 数值解读
      • 6.4 关键特点
      • 6.5 适用场景
      • 6.6 调整后\(R^2^\)(补充)


一、常用的分类与回归算法

分类与回归算法的核心差异在于预测目标的类型,但两者均遵循“数据拟合-规律学习-预测应用”的逻辑。以下分别介绍两类任务中应用最广泛的经典算法。

1. 常用分类算法

分类算法的目标是构建输入特征→离散类别的映射关系,需兼顾准确率、泛化能力与可解释性。

算法名称核心原理适用场景优点缺点
逻辑回归(LR)通过Sigmoid函数将线性回归输出((z=w^Tx+b))映射到[0,1]区间,输出正类概率,结合阈值判定类别1. 二分类任务(如用户流失预测、疾病诊断)
2. 需快速训练与强解释性场景(如金融风控)
1. 模型结构简单,易理解
2. 可解释性强(系数体现特征重要性)
3. 训练速度快,资源消耗低
1. 无法处理特征与类别间的非线性关系
2. 对数据中的异常值敏感
决策树(DT)以“特征分裂”为核心,递归选择信息增益最大/Gini系数最小的特征,划分数据为高纯度子集,形成树形结构(叶节点为类别)1. 特征与类别呈非线性关系场景
2. 需可视化解释场景(如电商购买决策分析)
3. 无需复杂数据预处理(可直接处理类别型特征)
1. 决策逻辑直观,易可视化
2. 抗噪声能力较强
3. 无需特征归一化/标准化
1. 易过拟合(需通过剪枝优化)
2. 对数据微小变化敏感,稳定性差
支持向量机(SVM)在特征空间寻找“最大间隔超平面”分隔样本;通过核函数(如线性核、RBF核)将低维非线性问题映射到高维线性可分空间1. 小样本、高维数据场景(如文本分类)
2. 对泛化能力要求高的场景(如图像局部特征分类)
1. 泛化能力强,不易过拟合
2. 对小样本数据友好
3. 高维数据下表现优秀
1. 训练速度慢,不适用于百万级以上样本
2. 核函数选择依赖经验,调参难度大
随机森林(RF)基于集成学习思想,通过Bootstrap采样生成多棵决策树,每棵树用部分特征训练;最终通过投票(分类)输出结果,降低单树过拟合风险1. 非线性分类任务
2. 需平衡准确率与鲁棒性场景(如医疗数据分类)
3. 特征维度较高但样本量中等的场景
1. 抗过拟合能力强
2. 对异常值不敏感
3. 可输出特征重要性,辅助特征筛选
1. 模型复杂,单棵树决策逻辑难解释
2. 训练时间长于单棵决策树,资源消耗高

1.2 常用回归算法

回归算法的目标是构建输入特征→连续数值的映射,需重点关注预测值与真实值的误差大小。

算法名称(英文缩写)核心原理适用场景优点缺点
线性回归(LR)假设特征与目标值线性相关,通过最小化残差平方和求解线性方程(y=w_1x_1+…+w_nx_n+b)中的参数1. 特征与目标值线性相关场景(如房屋面积→房价、广告投入→销售额)
2. 需快速获取基础预测结果(如初步业务预测)
1. 模型简单,易理解
2. 可解释性强(系数直接反映特征影响程度)
1. 无法处理非线性关系
2. 对特征多重共线性敏感(需通过正则化优化)
岭回归(Ridge)与Lasso回归线性回归的正则化改进:
- 岭回归:损失函数加入L2正则项((\lambda\sum w_i^2)),缓解共线性
- Lasso回归:损失函数加入L1正则项((\lambda\sum w_i)),实现特征选择
1. 岭回归:特征存在多重共线性场景(如身高与体重相关的人体数据预测)
2. Lasso回归:需简化模型、筛选关键特征(如用户消费金额预测)
1. 解决线性回归的过拟合与共线性问题
2. Lasso可自动实现特征选择
1. 需通过交叉验证调优正则化参数(\lambda)
2. 仍无法直接处理强非线性关系
决策树回归(DTR)与分类决策树结构类似,叶节点为连续值;以MSE或MAE最小为目标分裂特征,使子节点目标值更接近1. 特征与目标值非线性相关场景(如温度、湿度→农作物产量)
2. 需处理混合类型特征(如数值型年龄+类别型职业)
1. 可捕捉非线性关系
2. 无需数据归一化/标准化
3. 决策逻辑直观
1. 易过拟合(需剪枝优化)
2. 对数据微小波动敏感,稳定性差
梯度提升树(GBDT)基于boosting集成思想,迭代训练弱回归器(多为决策树),每棵树修正前一轮误差,最终叠加结果1. 需高精度预测场景(如股票收益率、用户生命周期价值预测)
2. 特征与目标值非线性且关系复杂的任务
1. 预测精度高
2. 对非线性关系拟合能力强
1. 训练速度慢(串行训练)
2. 易过拟合(需调优学习率、树深度等参数)

二、分类模型评价指标

分类模型的评价需结合“预测准确性”“类别平衡单一指标无法全面反映模型性能,需多指标协同分析。

1. 混淆矩阵(Confusion Matrix)

混淆矩阵是二分类任务中对“预测结果与真实结果”的交叉统计,定义4个核心指标:

  • TP(True Positive):真实为正类,预测为正类(正确预测的正样本);
  • TN(True Negative):真实为负类,预测为负类(正确预测的负样本);
  • FP(False Positive):真实为负类,预测为正类(误判为正的负样本,也称“假阳性”);
  • FN(False Negative):真实为正类,预测为负类(误判为负的正样本,也称“假阴性”)。

所有分类评价指标均基于混淆矩阵计算,例如二分类混淆矩阵结构如下:

预测正类预测负类
真实正类TPFN
真实负类FPTN

2. 准确率(Accuracy)

2.1 核心定义

准确率是所有样本中“预测结果与真实结果一致”的比例,反映模型的整体分类正确性,是最直观的评价指标之一。

2.2 计算公式

基于混淆矩阵推导,公式为:
Accuracy=正确预测的样本数总样本数=TP+TNTP+TN+FP+FNAccuracy = \frac{正确预测的样本数}{总样本数} = \frac{TP + TN}{TP + TN + FP + FN}Accuracy=总样本数正确预测的样本数=TP+TN+FP+FNTP+TN

2.3 关键特点

  • 优点:计算简单、含义直观,适合快速判断模型的基础性能;
  • 局限性:在类别不平衡场景下完全失效。例如“疾病诊断”中,若99%样本为健康人(负类),模型即使将所有样本预测为“健康”,准确率仍能达到99%,但完全无法识别患病患者(正类),无实际业务价值。

2.4 适用场景

仅适用于类别分布均衡的场景,如“普通用户/会员用户分类”(两类样本比例接近1:1)、“图片风格分类”(不同风格图片数量差异小)等。

3. 精确率(Precision)

3.1 核心定义

精确率(也称“查准率”)是“预测为正类的样本中,真实为正类”的比例,聚焦正类预测结果的准确性,避免“假阳性”对业务的影响。

3.2 计算公式

Precision=真实正类且预测正类的样本数预测为正类的总样本数=TPTP+FPPrecision = \frac{真实正类且预测正类的样本数}{预测为正类的总样本数} = \frac{TP}{TP + FP}Precision=预测为正类的总样本数真实正类且预测正类的样本数=TP+FPTP

3.3 关键特点

  • 精确率越高,说明“预测为正类的样本中,真正的正类占比越高”,即“少犯错、不冤枉负类”;
  • 仅关注“预测正类”的准确性,对“预测负类”的表现无直接反映。

3.4 适用场景

需严格控制“假阳性”的业务场景,例如:

  • 垃圾邮件分类:避免将正常邮件(负类)误判为垃圾邮件(正类),导致用户错过重要信息;
  • 金融风控:避免将正常用户(负类)误判为风险用户(正类),影响用户体验;
  • 电商商品推荐:避免推荐用户不感兴趣的商品(假阳性推荐),降低用户反感度。

4. 召回率(Recall)

4.1 核心定义

召回率(也称“查全率”)是“真实为正类的样本中,被预测为正类”的比例,聚焦正类样本的覆盖能力,避免“假阴性”对业务的影响。

4.2 计算公式

Recall=真实正类且预测正类的样本数真实为正类的总样本数=TPTP+FNRecall = \frac{真实正类且预测正类的样本数}{真实为正类的总样本数} = \frac{TP}{TP + FN}Recall=真实为正类的总样本数真实正类且预测正类的样本数=TP+FNTP

4.3 关键特点

  • 召回率越高,说明“真正的正类样本被识别出来的比例越高”,即“不漏掉正类”;
  • 仅关注“真实正类”的覆盖度,对“真实负类”的误判情况无直接反映。

4.4 适用场景

需严格控制“假阴性”的业务场景,例如:

  • 疾病诊断:避免将患病患者(正类)误判为健康人(负类),导致延误治疗;
  • 欺诈交易检测:避免漏掉欺诈交易(正类),减少企业资金损失;
  • 地震/火灾风险预测:避免漏判潜在风险(正类),保障生命财产安全。

4.5 精确率与召回率的权衡

两者呈负相关关系:提高精确率会导致召回率下降,反之亦然。例如:

  • 若想让“垃圾邮件分类”的精确率更高(少误判正常邮件),需设置更严格的判定阈值,可能会漏掉部分模糊的垃圾邮件(召回率下降);
  • 若想让“疾病诊断”的召回率更高(不漏掉患者),需设置更宽松的判定阈值,可能会将部分健康人误判为患者(精确率下降)。

5. F1分数(F1-Score)

5.1 核心定义

F1分数是精确率(Precision)与召回率(Recall)的调和平均数,用于综合评价两者的均衡性,避免因单一指标优异而掩盖另一指标的缺陷。

5.2 计算公式

调和平均数的特点是“对较小值更敏感”,若Precision或Recall中有一个极低,F1分数会显著降低,从而避免“偏科模型”被高估。公式为:
F1=2×Precision×RecallPrecision+RecallF1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}F1=2×Precision+RecallPrecision×Recall

5.3 关键特点

  • F1分数的取值范围为[0,1],越接近1说明模型的Precision与Recall越均衡且优秀;
  • 当Precision与Recall相等时,F1分数等于两者的数值(例如Precision=0.8、Recall=0.8,则F1=0.8);
  • 若其中一个指标接近0(如Precision=0.9、Recall=0.1),F1分数会被拉低至0.18,直观反映模型的“偏科”问题。

5.4 适用场景

适用于“无法明确优先保证Precision还是Recall”的场景,例如:

  • 客户投诉分类:既需避免将正常反馈误判为投诉(控制FP,保证Precision),也需避免漏掉真实投诉(控制FN,保证Recall),此时需用F1分数平衡两者;
  • 文本情感分析:既需准确识别正面/负面情感(保证Precision),也需覆盖所有情感倾向样本(保证Recall),F1分数是核心评价指标。

6. ROC曲线与AUC值

6.1 ROC曲线(Receiver Operating Characteristic Curve)

6.1.1 核心定义

ROC曲线是通过调整分类阈值,绘制不同阈值下“真阳性率(TPR)”与“假阳性率(FPR)”的关系曲线,直观反映模型在“识别正类”与“避免误判负类”之间的平衡能力。

6.1.2 关键指标推导

基于混淆矩阵,先定义两个基础指标:

  • 真阳性率(TPR):即召回率(Recall),反映正类的覆盖能力,公式为:TPR=TPTP+FNTPR = \frac{TP}{TP + FN}TPR=TP+FNTP
  • 假阳性率(FPR):真实为负类的样本中,被预测为正类的比例,反映对负类的误判程度,公式为:FPR=FPFP+TNFPR = \frac{FP}{FP + TN}FPR=FP+TNFP
6.1.3 曲线绘制逻辑
  1. 模型输出每个样本的“正类概率”(如逻辑回归的Sigmoid输出);
  2. 从高到低依次取不同的概率作为“分类阈值”(例如阈值=0.9、0.8、…、0.1);
  3. 对每个阈值,计算对应的TPR和FPR;
  4. 以FPR为横轴、TPR为纵轴,将所有(FPR, TPR)点连接,形成ROC曲线。
6.1.4 曲线解读
  • 理想曲线:紧贴左上角(FPR接近0,TPR接近1),说明模型能以极低的假阳性率,实现极高的正类覆盖;
  • 随机猜测曲线:沿对角线分布(TPR=FPR),此时模型性能与“抛硬币”一致,无实用价值;
  • 曲线对比:若A模型的ROC曲线完全“包裹”B模型的曲线,说明A模型性能优于B模型。

6.2 AUC值(Area Under ROC Curve)

6.2.1 核心定义

AUC值是ROC曲线下方的面积,取值范围为[0.5,1],用于量化ROC曲线的性能,避免仅通过图形主观判断的偏差。

6.2.2 数值解读
  • AUC=0.5:模型性能与随机猜测一致(如随机输出正类概率),无业务价值;
  • 0.5 < AUC < 0.7:模型性能较差,需优化特征或算法;
  • 0.7 < AUC < 0.9:模型性能良好,可满足多数业务需求;
  • AUC > 0.9:模型性能优秀,对正类与负类的区分能力极强。
6.2.3 适用场景

类别不平衡场景的“黄金指标”,例如:

  • 罕见疾病诊断(正类样本占比<1%)、信用卡欺诈检测(正类样本占比<0.1%):此时准确率完全失效,而AUC能有效反映模型对少数正类的识别能力;
  • 模型对比场景:当多个模型的ROC曲线交叉时,通过AUC值的大小可直接判断性能优劣(AUC大的模型更优)。

6.2.4 优势总结

  • 对类别不平衡不敏感:仅关注“正类概率的相对排序”,而非绝对阈值;
  • 可比较性强:不同模型的AUC值可直接横向对比,无需考虑阈值差异;
  • 稳定性高:受极端样本(如少量异常值)的影响较小,结果更可靠。

三、回归模型评价指标

回归模型的核心是预测真实值的偏差程度,不同指标对误差的敏感度、计算逻辑及适用场景存在显著差异。

1. 绝对误差与相对误差

绝对误差与相对误差是回归模型误差分析的“基础单元”,用于描述单个样本的预测偏差,是后续衍生指标(如平均绝对误差)的计算基础。

1.1 绝对误差(Absolute Error, AE)

1.1.1 核心定义

绝对误差是“单个样本预测值与真实值的绝对值差”,反映单个预测结果的“绝对偏差大小”,不考虑偏差方向(如“预测值比真实值高5”与“低5”的绝对误差相同)。

1.1.2 计算公式

设某样本的真实值为(yiy_iyi),模型预测值为(y^i\hat{y}_iy^i),则该样本的绝对误差为:
AE=∣yi−y^i∣AE = |y_i - \hat{y}_i|AE=yiy^i

1.1.3 特点与应用
  • 特点:计算简单,直观反映单个样本的偏差程度,单位与目标值一致(如预测房价时,AE=5万元代表该样本预测偏差为5万元);
  • 应用:多用于单个样本的误差分析(如“某套房屋预测价与真实价的偏差”),或作为后续“平均绝对误差”的计算组件,不直接用于整体模型评价。

1.2 相对误差(Relative Error, RE)

1.2.1 核心定义

相对误差是“绝对误差与真实值的比值”,用于衡量“偏差占真实值的比例”,解决了“绝对误差无法横向对比不同量级样本”的问题。

1.2.2 计算公式

为避免真实值(y_i=0)时无意义,通常取绝对值计算,公式为:
RE=∣yi−y^iyi∣RE = \left| \frac{y_i - \hat{y}_i}{y_i} \right|RE=yiyiy^i
若需以百分比形式呈现(更易理解),可进一步转化为:
相对误差(%)=∣yi−y^iyi∣×100%相对误差(\%)= \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\%相对误差(%=yiyiy^i×100%

1.2.3 特点与应用
  • 特点:无量纲(无单位),可横向对比不同量级样本的偏差程度。例如:预测“100万元房价”时AE=5万元,相对误差为5%;预测“10万元二手车价”时AE=2万元,相对误差为20%,虽前者绝对误差更大,但后者偏差占比更高,模型对二手车价的预测精度更差;
  • 应用:适用于“样本目标值量级差异大”的场景,如“同时预测10万元家电与1000万元设备的价格”,通过相对误差判断模型对不同量级样本的预测稳定性。

2. 平均绝对误差(Mean Absolute Error, MAE)

2.1 核心定义

平均绝对误差是“所有样本绝对误差的平均值”,反映模型预测结果的“整体平均偏差水平”,是最直观的回归评价指标之一。

2.2 计算公式

设总样本数为(n),则:
MAE=1n∑i=1n∣yi−y^i∣MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|MAE=n1i=1nyiy^i

2.3 关键特点

  • 优点
    1. 对异常值不敏感:因使用“绝对值”计算,避免了异常值(如极端大偏差样本)的误差被平方放大(对比均方误差),结果更稳健;
    2. 单位与目标值一致:如预测“日销售额”时,MAE=2000元代表模型平均每天预测偏差为2000元,业务解读性强;
  • 缺点
    1. 无法区分偏差方向:仅反映“偏差大小”,不体现“预测值整体偏高还是偏低”;
    2. 损失函数不可导:若以MAE为目标函数训练模型(如线性回归),在误差=0处存在不可导点,需用次梯度方法优化,计算效率略低于均方误差。

2.4 适用场景

适用于“对异常值敏感较低”或“需直观理解平均偏差”的场景,例如:

  • 日常用电量预测:偶尔极端天气导致的异常用电数据(如高温天用电量骤增),不应过度影响模型整体评价;
  • 商品库存需求预测:需明确“平均每天预测偏差多少件”,以便制定库存补货策略,MAE的单位(件)可直接指导业务。

3. 均方误差(Mean Squared Error, MSE)

3.1 核心定义

均方误差是“所有样本误差的平方的平均值”,通过“平方”放大了大误差的权重,更聚焦于“减少极端偏差样本的影响”。

3.2 计算公式

MSE=1n∑i=1n(yi−y^i)2MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2MSE=n1i=1n(yiy^i)2

3.3 关键特点

  • 优点
    1. 对大误差惩罚更重:平方项会显著放大极端偏差的影响(如某样本误差=10,平方后=100;误差=1,平方后=1),能强制模型优先降低大偏差,适合对“极端错误零容忍”的场景;
    2. 损失函数可导:在整个定义域内光滑可导,便于使用梯度下降等高效优化算法训练模型(如线性回归、神经网络),是最常用的回归损失函数之一;
  • 缺点
    1. 对异常值敏感:异常值的平方误差会大幅拉高MSE,导致指标结果偏离模型真实性能(例如100个样本中99个误差=1,1个误差=100,MSE≈100,远高于真实平均偏差);
    2. 单位不直观:单位是目标值的平方(如预测房价时,MSE=25万元²),需进一步开方(转化为均方根误差)才能与目标值单位一致,业务解读性较弱。

3.4 适用场景

适用于“需严格控制极端偏差”的场景,例如:

  • 自动驾驶速度预测:若模型对车速的预测偏差过大(如实际车速60km/h,预测为30km/h),可能导致交通事故,需通过MSE优先降低此类大偏差;
  • 药物剂量预测:剂量偏差过大会影响疗效甚至危及生命,需用MSE惩罚极端错误,确保模型预测精度。

4. 均方根误差(Root Mean Squared Error, RMSE)

4.1 核心定义

均方根误差是“均方误差的平方根”,解决了MSE单位不直观的问题,同时保留了“惩罚大误差”的特性,是回归任务中“兼顾直观性与大误差惩罚”的首选指标。

4.2 计算公式

RMSE=1n∑i=1n(yi−y^i)2=MSERMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2} = \sqrt{MSE}RMSE=n1i=1n(yiy^i)2=MSE

4.3 关键特点

  • 优点
    1. 单位与目标值一致:继承了MAE的直观性(如预测房价时,RMSE=5万元代表模型整体偏差水平为5万元),同时保留了MSE对大误差的惩罚能力;
    2. 综合性能均衡:既避免了MAE对大误差“不敏感”的问题,也解决了MSE“单位不直观”的缺陷,是多数回归场景的“默认评价指标”;
  • 缺点:仍对异常值敏感(因基于MSE计算),若数据中存在大量极端值,需先处理异常值再使用RMSE评价。

4.4 适用场景

适用于“需平衡直观性与大误差惩罚”的多数回归任务,例如:

  • 房价预测:既需直观了解“平均偏差多少万元”,也需控制极端偏差(如豪宅预测偏差过大);
  • 电商销售额预测:需明确“平均每天偏差多少元”,同时避免大促期间销售额预测严重失准(影响库存与供应链)。

5. 平均绝对百分误差(Mean Absolute Percentage Error, MAPE)

5.1 核心定义

平均绝对百分误差是“所有样本相对误差的平均值”,以“百分比”形式量化模型的“相对偏差水平”,适合对比不同量级或不同任务的模型性能。

5.2 计算公式

为避免真实值(y_i=0)导致分母为0,实际应用中常加入极小值(\epsilon)(如(10^{-8})),公式为:
MAPE=1n∑i=1n∣yi−y^iyi+ϵ∣×100%MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i - \hat{y}_i}{y_i + \epsilon} \right| \times 100\%MAPE=n1i=1nyi+ϵyiy^i×100%
若数据中无(y_i=0)的样本,可简化为:
MAPE=1n∑i=1n∣yi−y^iyi∣×100%MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\%MAPE=n1i=1nyiyiy^i×100%

5.3 关键特点

  • 优点
    1. 无量纲且直观:以百分比形式呈现(如MAPE=5%代表模型平均相对偏差为5%),可横向对比不同任务的模型性能(如同时对比“房价预测”与“家电销量预测”的精度);
    2. 业务解读性强:百分比形式更符合业务逻辑(如“销售额预测偏差5%”比“偏差2000元”更易被决策者理解);
  • 缺点
    1. 对接近0的真实值敏感:若某样本(yiy_iyi)极小(如预测“某小众商品日销量=1件”),即使绝对误差=1,相对误差也为100%,会大幅拉高MAPE;
    2. 无法处理(yiy_iyi=0)的样本:需提前过滤或填充(yiy_iyi=0)的样本,否则公式无意义。

5.4 适用场景

适用于“样本目标值量级差异大”或“需跨任务对比模型”的场景,例如:

  • 多品类商品销量预测:同时预测“日销量1000件的服装”与“日销量10件的饰品”,MAPE可统一用百分比对比两者的预测精度;
  • 跨行业模型对比:对比“金融领域的股价预测”与“零售领域的客流预测”,MAPE的无量纲特性使其成为唯一可行的横向对比指标。

6. 决定系数(Coefficient of Determination, (R2))

6.1 核心定义

决定系数(也称“R平方”)用于衡量“模型能解释目标值变异的比例”,取值范围为((−∞-\infty, 1]),反映模型的“拟合优度”——即模型相比“简单用目标值平均值预测”的提升程度。

6.2 计算公式

需先定义两个关键平方和:

  • 总平方和(Total Sum of Squares, SST):反映目标值本身的变异程度(即“不用模型时的固有偏差”),公式为(SST = ∑i=1n(yi−yˉ)2\sum_{i=1}^n (y_i - \bar{y})^2i=1n(yiyˉ)2),其中(yˉ\bar{y}yˉ)是所有样本的目标值平均值;
  • 残差平方和(Residual Sum of Squares, SSE):反映模型预测的偏差程度(即“用模型后的剩余偏差”),公式为(SSE = ∑i=1n(yi−y^i)2\sum_{i=1}^n (y_i - \hat{y}_i)^2i=1n(yiy^i)2)。

决定系数的计算公式为:
R2=1−SSESSTR^2 = 1 - \frac{SSE}{SST}R2=1SSTSSE

6.3 数值解读

  • (R2 = 1):模型完美拟合所有样本,SSE=0(预测值与真实值完全一致),模型能100%解释目标值的变异;
  • (R2 = 0):模型预测结果与“直接用目标值平均值预测”一致(SSE=SST),模型无任何解释力;
  • (R2 < 0):模型性能极差,甚至不如“用平均值预测”(SSE > SST),通常因模型选择错误(如用线性模型拟合强非线性数据)或数据预处理不当导致。

6.4 关键特点

  • 优点
    1. 量化模型解释力:直接反映模型相比“基准模型(平均值)”的提升,是判断模型是否“有用”的核心指标;
    2. 适用于模型对比:相同任务下,(R^2)越大的模型拟合优度越高,无需考虑目标值单位;
  • 缺点
    1. 易受样本量影响:添加无关特征可能导致(R2)轻微上升(即使特征无实际意义),需用“调整后(R2)”(Adjusted (R2))修正;
    2. 对异常值敏感:极端值会拉高SST,可能导致(R2)虚高(如异常值使SST增大,(\frac{SSE}{SST})减小,(R2)上升)。

6.5 适用场景

适用于“需评估模型解释力”或“判断模型是否优于基准”的场景,例如:

  • 经济学数据分析:如“GDP影响因素分析”,需明确“模型中的特征(如消费、投资)能解释多少比例的GDP变异”;
  • 模型迭代优化:对比不同版本模型的(R2),判断优化是否有效(如添加新特征后(R2)从0.6提升至0.8,说明模型解释力显著增强)。

6.6 调整后(R2)(补充)

为解决“添加无关特征导致(R2)虚高”的问题,调整后(R2)引入了“特征数量”的惩罚项,公式为:
AdjustedR2=1−SSE/(n−k−1)SST/(n−1)Adjusted\ R^2 = 1 - \frac{SSE/(n - k - 1)}{SST/(n - 1)}Adjusted R2=1SST/(n1)SSE/(nk1)
其中(k)是模型的特征数量。当添加无关特征时,(k)增大,调整后(R^2)可能下降,更能真实反映模型性能,适合多特征回归场景(如线性回归、逻辑回归)。

http://www.dtcms.com/a/560923.html

相关文章:

  • 浙江十大建筑公司排名用v9做网站优化
  • 江门网站建设自助建站站内seo和站外seo区别
  • 嵌入式Linux:线程同步(自旋锁)
  • RHCE复习第一次作业
  • 2025年山西省职业院校技能大赛应用软件系统开发赛项竞赛样题
  • 铁路机车乘务员心理健康状况的研究进展
  • 人才市场官方网站装修公司网站平台
  • Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
  • 【软件安全】什么是AFL(American Fuzzy Lop)基于覆盖率引导的模糊测试工具?
  • 山西省最新干部调整佛山网站建设优化
  • 背包DP合集
  • Docker 拉取镜像:SSL 拦截与国内镜像源失效问题解决
  • full join优化改写经验
  • 软件测试:黑盒测试用例篇
  • 【Linux】Linux第一个小程序 - 进度条
  • ubuntu新增用户
  • 青州市网站建设长沙招聘网58同城招聘发布
  • 江苏中南建设集团网站是多少长沙互联网网站建设
  • 从零开始的云原生之旅(十一):压测实战:验证弹性伸缩效果
  • 民宿网站的建设wordpress gallery
  • 【开题答辩全过程】以 广州网红点打卡介绍网站为例,包含答辩的问题和答案
  • Taro 源码浅析
  • Chart.js 混合图:深度解析与应用技巧
  • redis 大key、热key优化技巧|空间存储优化|调优技巧(一)
  • 监视你的脚本:自动 Linux 活动审计
  • 15.1.2.linux常见操作用例
  • 【Java Web学习 | 第五篇】CSS(4) -盒子模型
  • ubuntu samba 快速安装启用
  • 【数据结构】用顺序表实现通讯录
  • cpp / c++零基础就业学习一站式学习平台