NLP自然语言处理性能评估指标
1. 分类类任务(如情感分析、垃圾邮件识别)
常用指标:
准确率(Accuracy):预测正确的比例
精确率(Precision):预测为正的里面有多少是真的
召回率(Recall):真正的正样本被预测出来多少
F1 值:Precision 和 Recall 的调和平均
多分类时常用 宏平均 (Macro-F1)、加权平均 (Weighted-F1)
👉 例子:情感分析 “积极/消极”
2. 序列标注任务(如命名实体识别 NER、词性标注 POS)
常用指标:
Token-level Accuracy:逐个 token 是否预测正确
Precision / Recall / F1:基于实体整体,而不是单个字/词
NER 里最常见的是 Micro-F1
👉 例子:
文本:“I live in Beijing”
预测:“Beijing” → LOC(地名)
如果错标成 ORG(组织),就算错。
3. 机器翻译 / 文本生成
常用指标:
BLEU(最常用):看生成句子和参考译文的 n-gram 重叠
ROUGE(常用于摘要):看生成和参考的重叠(召回为主)
METEOR:考虑词形变化和同义词
chrF:基于字符 n-gram,更适合形态丰富语言
COMET / BERTScore(近年来流行):基于深度语义表示的评估
👉 例子:
参考译文: "I love you"
系统输出: "I like you"
BLEU 可能给个分数 0.7(因为有词重叠)
BERTScore 可能更高(因为 “love” 和 “like” 语义接近)
4. 信息检索 / 问答(QA, IR)
常用指标:
MRR(Mean Reciprocal Rank):排名靠前的答案是否正确
NDCG(Normalized Discounted Cumulative Gain):考虑排序质量
Exact Match (EM):答案是否完全匹配
F1(QA 中):预测答案和标准答案的重叠度
5. 语言模型(LM, 生成类)
常用指标:
困惑度(Perplexity, PPL):衡量模型预测下一个词的好坏(越低越好)
人类评价:流畅性、可读性、相关性(尤其是大模型)
✅ 总结大图:
分类 → Accuracy, F1
序列标注 → F1
翻译/摘要 → BLEU, ROUGE, BERTScore
问答/检索 → EM, F1, MRR, NDCG
语言模型 → Perplexity, 人类评价