当前位置: 首页 > news >正文

NLP自然语言处理性能评估指标

1. 分类类任务(如情感分析、垃圾邮件识别)

常用指标:

  • 准确率(Accuracy):预测正确的比例

  • 精确率(Precision):预测为正的里面有多少是真的

  • 召回率(Recall):真正的正样本被预测出来多少

  • F1 值:Precision 和 Recall 的调和平均

  • 多分类时常用 宏平均 (Macro-F1)加权平均 (Weighted-F1)

👉 例子:情感分析 “积极/消极”


2. 序列标注任务(如命名实体识别 NER、词性标注 POS)

常用指标:

  • Token-level Accuracy:逐个 token 是否预测正确

  • Precision / Recall / F1:基于实体整体,而不是单个字/词

  • NER 里最常见的是 Micro-F1

👉 例子:
文本:“I live in Beijing”
预测:“Beijing” → LOC(地名)
如果错标成 ORG(组织),就算错。


3. 机器翻译 / 文本生成

常用指标:

  • BLEU(最常用):看生成句子和参考译文的 n-gram 重叠

  • ROUGE(常用于摘要):看生成和参考的重叠(召回为主)

  • METEOR:考虑词形变化和同义词

  • chrF:基于字符 n-gram,更适合形态丰富语言

  • COMET / BERTScore(近年来流行):基于深度语义表示的评估

👉 例子:
参考译文: "I love you"
系统输出: "I like you"

  • BLEU 可能给个分数 0.7(因为有词重叠)

  • BERTScore 可能更高(因为 “love” 和 “like” 语义接近)


4. 信息检索 / 问答(QA, IR)

常用指标:

  • MRR(Mean Reciprocal Rank):排名靠前的答案是否正确

  • NDCG(Normalized Discounted Cumulative Gain):考虑排序质量

  • Exact Match (EM):答案是否完全匹配

  • F1(QA 中):预测答案和标准答案的重叠度


5. 语言模型(LM, 生成类)

常用指标:

  • 困惑度(Perplexity, PPL):衡量模型预测下一个词的好坏(越低越好)

  • 人类评价:流畅性、可读性、相关性(尤其是大模型)


总结大图

  • 分类 → Accuracy, F1

  • 序列标注 → F1

  • 翻译/摘要 → BLEU, ROUGE, BERTScore

  • 问答/检索 → EM, F1, MRR, NDCG

  • 语言模型 → Perplexity, 人类评价

http://www.dtcms.com/a/419224.html

相关文章:

  • 零基础从头教学Linux(Day 43)
  • 网站后期维护协议企业网站建立哪
  • k8s 兼容摩尔线程
  • 网站建设人员工作计划网站定制设计价目表
  • RKD论文阅读
  • 导航类网站模板自己怎么做一个企业官网
  • 广东平台网站建设制作青岛网站设计怎么选
  • 如何破除迷信思维掌握ROS1/ROS2机器人学习的唯物主义
  • 桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
  • C++聊天系统从零到一:CMake构建系统-企业级C++项目的构建利器
  • 折扣影票api?如何选择对接渠道?
  • 移动网站优化宁波企业网站制作公司
  • Oracle 闪回过期后的解决方法
  • 慧博云通受邀参加全球数字贸易博览会,两大出海案例入选“数贸故事”
  • 暴雨山洪灾害的发生与防治虚拟仿真实验
  • 【精品资料鉴赏】400页可编辑word 软件系统通用技术方案及实施方案
  • 学网站开发要多少钱高端品牌手机有哪些
  • 阿里网站怎么建设苏州网站制作排名优化
  • List容器(上)实战探索解析
  • 旅游做的视频网站二手网站排名
  • 灯带富晟 HID发收 源码 C# 三色灯源码和演示 C++
  • 怎么建设自己的论坛网站wordpress修改footer
  • Python 中四种高级特征缩放技术详解:超越标准化的数据预处理
  • TypeScript语法(类型注解:、类型断言as、联合类型|、类型守卫typeof、交叉类型、类型别名type、类型保护is)
  • 做网站时版权怎么写新型网络营销推广方式
  • 机器学习——朴素贝叶斯详解
  • 2025汽车芯片有哪些看点,将会带来哪些黑科技?
  • 管道机器人(in-pipe / in-line)避障
  • 建设监理有限责任公司网站怎么做微信点击网站打赏看片
  • LeetCode:79.跳跃游戏Ⅱ