当前位置：首页 > news >正文

「机器学习笔记3」机器学习常用评价指标全解析

news 2025/10/5 10:21:59

在机器学习项目中，我们常遇到这样的困惑：模型训练得“又快又稳”，可实际效果到底好不好？答案藏在评价指标里——它们是量化模型性能的“标尺”，不仅能帮我们判断模型是否解决了实际问题，更能指导优化方向。今天我们就系统梳理机器学习中最核心的几类评价指标，从回归到分类、从排序到场景化任务，一次性搞懂它们的定义、逻辑与应用。

一、回归任务：预测连续值的“误差刻度”

回归任务的目标是预测连续数值（比如房价、温度、销量），核心是最小化预测值与真实值的误差。常用指标围绕“误差”展开，但对误差的处理方式不同：

1. 平均绝对误差（MAE, Mean Absolute Error）

定义：预测值 $p_i$ 与真实值 $y_i$ 绝对误差的均值，公式为：

$MAE=\frac{1}{n}\sum_{i=1}^n|y_i-p_i|$

特点：对异常值不敏感（绝对误差不会放大离群点的影响），适合重视“平均误差”的场景（比如预测普通住宅房价，偶尔的高价房误差不会太干扰整体判断）。

2. 均方误差（MSE, Mean Squared Error）

定义：误差平方的均值，公式为：

$\frac{1}{n}\sum_{i=1}^n (y_i-p_i)^2$

特点：惩罚大误差（平方操作放大了离群点的错误），适合需要“避免严重失误”的场景（比如预测桥梁承重，一次大的误差可能导致安全隐患）。

3. 均方根误差（RMSE, Root Mean Squared Error）

定义：MSE的平方根，公式为：

$\sqrt{MSE} =\sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-p_i)^2}$

特点：与原数据单位一致，更直观（比如房价用“万元”作单位，RMSE直接表示“预测误差约±X万元”）。

二、分类任务：判断对错的“精准度平衡术”

分类任务的目标是将样本划分为不同类别（比如“垃圾邮件/正常邮件”“癌症阳性/阴性”），核心是平衡“找对正例”和“不漏正例”的能力：

1. 基础指标：准确率与错误率

准确率（Accuracy）：正确预测的样本比例, 即“预测正确的样本数”占“总样本数”的比例，公式为：

$\frac{1}{n}\sum_{i=1}^nI(y_i=p_i)$

错误率（Error Rate）：1 - 准确率，即错误预测的比例。
局限：当数据不平衡时（比如99%的健康人、1%的癌症患者），高准确率可能是“假象”——模型把所有样本都预测为“健康”，准确率也能达到99%，但完全漏掉了癌症患者。

2. 精确率（Precision）与召回率（Recall）

真实标签	预测标签 p=1	预测标签 p=0
y = 1	TP (True Positive, 真正例, 真阳性)	FN (False Negative, 假反例, 假阴性)
y = 0	FP (False Positive, 假正例, 假阳性)	TN (True Negative, 真反例, 真阴性)

TP（True Positive，真正例/真阳性）：真实标签是正类（y=1），模型预测也是正类（p=1），即正确识别出的正例数量。
FN（False Negative，假反例/假阴性）：真实标签是正类（y=1），但模型预测为负类（p=0），即错误地将正例判断为负例的数量。
FP（False Positive，假正例/假阳性）：真实标签是负类（y=0），但模型预测为正类（p=1），即错误地将负例判断为正例的数量。
TN（True Negative，真反例/真阴性）：真实标签是负类（y=0），模型预测也是负类（p=0），即正确识别出的负例数量
精确率：预测为正例的样本中，真正是正例的比例（“找对的概率”），公式为：

$Precision=\frac{TP}{FP+TP}$

（比如推荐系统里，“推荐的商品中用户真正点击的比例”，高精确率意味着少推荐无关内容。）

召回率：所有正例样本中，被模型找到的比例（“不漏的概率”），公式为：

$Recall=\frac{TP}{TP+FN}$
（比如疾病筛查里，“所有癌症患者中被模型检测出来的比例”，高召回率意味着少漏诊。）

3. Fβ分数：平衡精确率与召回率

定义：精确率和召回率的加权调和平均，公式为：

$F_\beta = \frac{(1 + \beta^2) \cdot Precision \cdot Recall}{\beta^2 \cdot Precision + Recall}$

应用：β=1时是F1分数（平衡两者）；β>1时重视召回率（比如癌症筛查）；β<1时重视精确率（比如广告推荐）。

$F_1 = \frac{2 \cdot Precision \cdot Recall}{Precision + Recall} = \frac{2TP}{2TP + FP + FN}$

4. AUC：ROC曲线下的“模型区分力”

ROC曲线：以假正例率（FPR = FP/(FP+TN)）为横轴，真正例率（TPR = Recall）为纵轴，不同分类阈值下的性能曲线。
AUC：ROC曲线下的面积，范围0~1。越接近1，模型区分正例和负例的能力越强（比如信用评分模型，AUC高意味着能更好地区分“好客户”和“坏客户”）。
简便计算：通过对排序后的样本计算TPR和FPR的累积，取曲线下面积（无需手动调整阈值）。

三、排序任务：排列顺序的“合理性度量”

排序任务的目标是将样本按相关性或重要性排列（比如搜索引擎结果、商品推荐），核心是让“更相关的样本排前面”。常用指标关注“位置”和“相关性”：

1. DCG：折扣累积增益

定义：衡量排序列表的“有用性”，增益随位置增加而折扣（越靠前的样本贡献越大）。常见公式有两种：
- 折损函数版： $DCGp=rel1+∑i=2prelilog2iDCG_p=rel_1+\sum_{i=2}^p\frac{rel_i}{log_2i}$ （ $rel_i$ 是第i个样本的相关性得分，比如1=不相关，2=相关，3=高度相关）；
- 指数版： $DCGp=∑i=1p2reli−1log⁡(1+i)DCG_p = \sum_{i=1}^{p} \frac{2^{rel_i} - 1}{\log(1 + i)}$ （放大高相关性样本的贡献）。
示例：排序列表的相关性为[3, 2, 1]，用指数版计算：

$DCG_3 = \frac{2^3 - 1}{\log 2} + \frac{2^2 - 1}{\log 3} + \frac{2^1 - 1}{\log 4} \approx \frac{7}{0.69} + \frac{3}{1.10} + \frac{1}{1.39} \approx 10.14 + 2.73 + 0.72 \approx 13.59$

2. NDCG：归一化DCG

定义：用理想排序的DCG归一化DCG，解决不同列表间的可比性问题，公式为：

$NDCG_p=\frac{DCG_p}{IDCG_p}$
（ $IDCG_p$ 是“将样本按相关性从高到低排序”的DCG值）。

特点：范围0~1，越接近1，排序越合理（比如搜索引擎结果，NDCG=0.9意味着比理想排序仅差10%）。

四、特定任务：场景化的“定制标尺”

有些任务有独特的评价需求，衍生出了专用指标：

1. BLEU：机器翻译与对话生成的“n-gram匹配度”

定义：检测模型输出中的n-gram（比如1-gram是单个词，2-gram是两个词的短语）是否在参考译文中出现，核心是“用参考译文的n-gram覆盖度衡量质量”。
计算步骤：

统计模型译文中的n-gram精度（比如1-gram精度=模型译文中出现在参考译文的词数/模型译文总词数）；
引入BP惩罚因子：处理模型译文过短的问题，公式为：

$\begin{cases} 1 & 若模型长度 \leq 参考长度 \\ \exp\left(1 - \frac{参考长度}{模型长度}\right) & 否则 \end{cases}$

BLEU分数=BP × n-gram精度的几何平均。

示例：参考译文是“how are you”，模型译文是“you you”：
- 1-gram精度=(1+0)/2=0.5（“you”出现2次，但参考译文只有1次，所以计1次）；
- 模型长度=2 ≤ 参考长度=3，BP=1；
- BLEU(n=1)=0.5 × 1=0.5。
扩展：常用n=4（BLEU-4），结合平滑因子处理“零精度”问题（比如模型译文没有任何n-gram在参考译文中，此时平滑后精度不为0）。