当前位置：首页 > news >正文

NLP自然语言处理性能评估指标

news 2025/9/29 8:37:40

1. 分类类任务（如情感分析、垃圾邮件识别）

常用指标：

准确率（Accuracy）：预测正确的比例
精确率（Precision）：预测为正的里面有多少是真的
召回率（Recall）：真正的正样本被预测出来多少
F1 值：Precision 和 Recall 的调和平均
多分类时常用 宏平均 (Macro-F1)、加权平均 (Weighted-F1)

👉 例子：情感分析 “积极/消极”

2. 序列标注任务（如命名实体识别 NER、词性标注 POS）

常用指标：

Token-level Accuracy：逐个 token 是否预测正确
Precision / Recall / F1：基于实体整体，而不是单个字/词
NER 里最常见的是 Micro-F1

👉 例子：
文本：“I live in Beijing”
预测：“Beijing” → LOC（地名）
如果错标成 ORG（组织），就算错。

3. 机器翻译 / 文本生成

常用指标：

BLEU（最常用）：看生成句子和参考译文的 n-gram 重叠
ROUGE（常用于摘要）：看生成和参考的重叠（召回为主）
METEOR：考虑词形变化和同义词
chrF：基于字符 n-gram，更适合形态丰富语言
COMET / BERTScore（近年来流行）：基于深度语义表示的评估

👉 例子：
参考译文： "I love you"
系统输出： "I like you"

BLEU 可能给个分数 0.7（因为有词重叠）
BERTScore 可能更高（因为 “love” 和 “like” 语义接近）

4. 信息检索 / 问答（QA, IR）

常用指标：

MRR（Mean Reciprocal Rank）：排名靠前的答案是否正确
NDCG（Normalized Discounted Cumulative Gain）：考虑排序质量
Exact Match (EM)：答案是否完全匹配
F1（QA 中）：预测答案和标准答案的重叠度

5. 语言模型（LM, 生成类）

常用指标：

困惑度（Perplexity, PPL）：衡量模型预测下一个词的好坏（越低越好）
人类评价：流畅性、可读性、相关性（尤其是大模型）

✅ 总结大图：

分类 → Accuracy, F1
序列标注 → F1
翻译/摘要 → BLEU, ROUGE, BERTScore
问答/检索 → EM, F1, MRR, NDCG
语言模型 → Perplexity, 人类评价

查看全文

http://www.dtcms.com/a/419224.html

零基础从头教学Linux（Day 43）

网站后期维护协议企业网站建立哪

k8s 兼容摩尔线程

网站建设人员工作计划网站定制设计价目表

RKD论文阅读

导航类网站模板自己怎么做一个企业官网

广东平台网站建设制作青岛网站设计怎么选

如何破除迷信思维掌握ROS1/ROS2机器人学习的唯物主义

桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡

C++聊天系统从零到一：CMake构建系统-企业级C++项目的构建利器

折扣影票api？如何选择对接渠道？

移动网站优化宁波企业网站制作公司

Oracle 闪回过期后的解决方法

慧博云通受邀参加全球数字贸易博览会，两大出海案例入选“数贸故事”

暴雨山洪灾害的发生与防治虚拟仿真实验

【精品资料鉴赏】400页可编辑word 软件系统通用技术方案及实施方案

学网站开发要多少钱高端品牌手机有哪些

阿里网站怎么建设苏州网站制作排名优化

List容器（上）实战探索解析

旅游做的视频网站二手网站排名

灯带富晟 HID发收源码 C# 三色灯源码和演示 C++

怎么建设自己的论坛网站wordpress修改footer

Python 中四种高级特征缩放技术详解：超越标准化的数据预处理

TypeScript语法（类型注解:、类型断言as、联合类型|、类型守卫typeof、交叉类型、类型别名type、类型保护is）

做网站时版权怎么写新型网络营销推广方式

机器学习——朴素贝叶斯详解

2025汽车芯片有哪些看点，将会带来哪些黑科技？

管道机器人（in-pipe / in-line）避障

建设监理有限责任公司网站怎么做微信点击网站打赏看片

LeetCode:79.跳跃游戏Ⅱ

1. 分类类任务（如情感分析、垃圾邮件识别）

2. 序列标注任务（如命名实体识别 NER、词性标注 POS）

3. 机器翻译 / 文本生成

4. 信息检索 / 问答（QA, IR）

5. 语言模型（LM, 生成类）

相关文章：