当前位置：首页 > news >正文

关键词解释：F1值（F1 Score）

news 2025/11/17 6:17:04

一、什么是 F1 值？

F1 值（F1 Score），又称 F1 分数 或 F-measure，是一种用于衡量分类模型性能的综合指标。它结合了两个关键指标：

精确率（Precision）
召回率（Recall）

并取它们的调和平均数（Harmonic Mean），以平衡两者的重要性。

✅ 公式： $F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$

二、基础概念回顾

在二分类任务中，我们通常将预测结果分为四种情况：

类型	定义
真正例（True Positive, TP）	预测为正类，实际也为正类
假正例（False Positive, FP）	预测为正类，实际为负类（误报）
真负例（True Negative, TN）	预测为负类，实际也为负类
假负例（False Negative, FN）	预测为负类，实际为正类（漏报）

1. 精确率（Precision）

表示预测为正类的样本中，有多少是真正的正类。

$\text{Precision} = \frac{TP}{TP + FP}$

🔍 关注：“我预测的正类有多准？”

2. 召回率（Recall）

表示所有实际为正类的样本中，有多少被正确预测出来了。

$\text{Recall} = \frac{TP}{TP + FN}$

🔍 关注：“我能找出多少真正的正类？”

三、为什么需要 F1 值？

❌ 单独使用准确率的问题

在类别不平衡的数据集中，仅用准确率（Accuracy）会误导判断。

📌 示例：
数据集中 95% 是正常邮件，5% 是垃圾邮件；
模型把所有邮件都预测为“正常”，准确率达到 95%；
但完全无法识别垃圾邮件，这显然是失败的！

✅ F1 值的优势

F1 值同时考虑了：

精确率：避免太多误报（FP）；
召回率：避免太多漏报（FN）；

因此，在以下场景中特别有用：

医疗诊断（如癌症检测）；
垃圾邮件过滤；
异常检测；
金融欺诈识别。

四、F1 值的数学推导与变形

1. 调和平均数 vs 算术平均数

调和平均数对极小值更敏感，能有效防止一个值很低时整体分数过高。

例如：

Precision = 0.8，Recall = 0.2 → F1 ≈ 0.33
若用算术平均：(0.8+0.2)/2 = 0.5 → 明显高估

2. 推导过程

从调和平均公式出发：

$H = \frac{2}{\frac{1}{a} + \frac{1}{b}} = \frac{2ab}{a+b}$

代入 $( a = \text{Precision}, b = \text{Recall} )$ ，即得：

$F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$

五、实际案例分析

📊 案例背景：垃圾邮件分类

假设某模型对 25 封邮件进行分类，其中：

类别	数量
实际垃圾邮件	10
实际非垃圾邮件	15

场景一：初始分类结果

类型	数量
TP	8
FP	2
FN	3
TN	17

计算：

Precision = $\frac{8}{8+2} = 0.8$
Recall = $\frac{8}{8+3} = 0.73$
F1 = $2 \cdot \frac{0.8 \cdot 0.73}{0.8 + 0.73} \approx 0.76$

✅ F1 = 0.76

场景二：提高分类阈值（减少 FP）

类型	数量
TP	7
FP	1
FN	4
TN	18

Precision = $\frac{7}{7+1} = 0.875$
Recall = $\frac{7}{7+4} = 0.636$
F1 = $2 \cdot \frac{0.875 \cdot 0.636}{0.875 + 0.636} \approx 0.73$

✅ F1 = 0.73 → 下降！说明虽然精确率上升，但召回率下降太多。

场景三：降低分类阈值（减少 FN）

类型	数量
TP	9
FP	3
FN	2
TN	16

Precision = $\frac{9}{9+3} = 0.75$
Recall = $\frac{9}{9+2} = 0.818$
F1 = $2 \cdot \frac{0.75 \cdot 0.818}{0.75 + 0.818} \approx 0.78$

✅ F1 = 0.78 → 上升！说明在牺牲少量精确率的情况下，提高了召回率，整体效果更好。

六、F1 值的变体

除了标准 F1，还有其他 Fβ 分数，允许调整精确率和召回率的权重：

$F_\beta = (1 + \beta^2) \cdot \frac{\text{Precision} \cdot \text{Recall}}{\beta^2 \cdot \text{Precision} + \text{Recall}}$

F1： $( \beta = 1 )$ ，等权对待；
F2： $( \beta = 2 )$ ，更重视召回率（适合漏报代价高的场景）；
F0.5： $( \beta = 0.5 )$ ，更重视精确率（适合误报代价高的场景）。

七、代码实现（Python）

from sklearn.metrics import precision_score, recall_score, f1_score
import numpy as np# 示例数据
y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 0]  # 真实标签
y_pred = [1, 0, 1, 0, 0, 1, 1, 0, 1, 1]  # 预测标签# 计算各项指标
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)print(f"Precision: {precision:.3f}")
print(f"Recall: {recall:.3f}")
print(f"F1 Score: {f1:.3f}")

输出：

Precision: 0.750
Recall: 0.800
F1 Score: 0.774

八、总结：F1 值的核心价值

特点	说明
✅ 综合性强	同时反映精确率和召回率
✅ 适用于不平衡数据	避免准确率误导
✅ 支持阈值调优	通过 F1 找到最佳分类阈值
✅ 广泛应用	医疗、金融、NLP、安防等领域