当前位置: 首页 > news >正文

LLM中BLEU 指标、ROUGE 指标、PPL指标

在大语言模型(LLM, Large Language Models)中,评估文本生成质量是核心任务之一。三种常见的评估指标是:

  • BLEU(Bilingual Evaluation Understudy)

  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

  • PPL(Perplexity,困惑度)

它们分别从不同角度衡量模型生成的文本与参考文本的相似度或语言流畅性。下面分别进行详细讲解:


一、BLEU 分数(BLEU Score)

1. 定义

BLEU 是一种基于 n-gram 精确匹配的指标,主要用于机器翻译任务,也用于文本摘要、对话生成等任务。

2. 计算方法

核心思想:比较**生成文本(candidate)参考文本(reference)**之间的 n-gram 重叠。

计算公式:

BLEU = BP × exp(∑w_n × log(p_n))
  • p_n:n-gram 的精确匹配率(从 1-gram 到 4-gram)

  • w_n:每个 n-gram 的权重,常设为均值(如 0.25)

  • BP(Brevity Penalty):简洁惩罚项,防止模型生成过短文本

3. 特点

  • 优点:

    • 简单高效,可自动化评估

    • 与人工评估有一定相关性

  • 缺点:

    • 不考虑语义,只衡量表面 n-gram

    • 对词序敏感,无法处理同义表达


二、ROUGE 指标

1. 定义

ROUGE 是召回导向的自动摘要评估指标,主要衡量生成文本是否覆盖了参考答案中的关键词或短语

2. 常见指标种类

  • ROUGE-N:n-gram 的召回率(最常见的是 ROUGE-1 和 ROUGE-2)

  • ROUGE-L:最长公共子序列(LCS)的覆盖率

  • ROUGE-W:加权最长公共子序列

  • ROUGE-S:跳跃式双字匹配(Skip-Bigram)

3. 示例计算(ROUGE-1)

假设:

  • 参考文本:"The cat is on the mat"

  • 生成文本:"The cat sat on the mat"

ROUGE-1 的召回 = (匹配的 unigram 数 / 参考文本中的 unigram 数)

4. 特点

  • 更关注召回率,适合摘要任务

  • 能一定程度捕捉语义(如 LCS)

  • 不适合只看精度的生成任务


三、PPL(Perplexity,困惑度)

1. 定义

PPL 衡量语言模型对一个句子的“困惑程度”,值越小表示模型越确信自己的预测,生成质量越高

PPL 的定义:

PPL = exp(- (1/N) * ∑ log P(w_i))

其中:

  • N:句子长度

  • P(w_i):语言模型对第 i 个词的预测概率

2. 特点

  • 常用于评估语言建模能力(如 GPT)

  • 仅适用于有概率输出的模型

  • 不是基于参考文本对比,而是衡量模型生成句子的自洽性

3. 使用场景

  • 测试 GPT/BERT 语言模型预训练效果

  • 对比不同训练轮数的模型质量


四、对比总结

指标类型衡量方式适用任务是否需要参考文本优缺点
BLEU精确匹配n-gram 精确匹配机器翻译、对话简单高效,但不理解语义
ROUGE召回为主关键词召回、LCS等文本摘要更适合长文本匹配
PPL概率模型评估模型输出概率的熵值语言模型训练评估自洽性,不比较句子内容


五、补充说明

  1. BLEU 和 ROUGE 是外部评估指标,关注生成文本与真实文本的相似度;

  2. PPL 是内部指标,用于评估模型本身的语言建模能力;

  3. 在 LLM 训练阶段,通常先用 PPL 评估模型训练是否收敛;

  4. 在 LLM 下游任务中(如问答、摘要),则使用 BLEU/ROUGE/METEOR/BERTScore 等指标进行质量评估。

http://www.dtcms.com/a/305419.html

相关文章:

  • MySQL图解索引篇
  • 7.29 Java SE(Java高级 P191-P199)
  • Linux 线程概念与控制
  • 继续打卡day6
  • SpringJDBC源码初探-DataSource类
  • 理解“无界队列”与“有界队列”及其适用场景
  • BigemapPro吸附功能 | 绘图共点共边,标绘从此无缝衔接!
  • 【Python】数据可视化之聚类图
  • 进阶向:Manus AI与多语言手写识别
  • 大模型量化004
  • 机器学习-贝叶斯函数(理解版)
  • Xmind 2025下载与保姆级安装教程
  • 数据库-索引
  • Python Day17 常用模块 和 加解密操作 及例题分析
  • window weblogic 解锁
  • Java 9 新特性解析
  • 《零基础入门AI:传统机器学习入门(从理论到Scikit-Learn实践)》
  • 36.Manacher 算法
  • 【n8n】如何跟着AI学习n8n【01】:定制AI老师
  • 【Linux】pthread学习笔记
  • scrapy框架新浪新闻
  • 使用JSON Schema 的 dependencies 实现 LLM 工具调用的参数约束
  • C 语言基础第16天:指针补充
  • 粒子群优化算法(Particle Swarm Optimization, PSO) 求解二维 Rastrigin 函数最小值问题
  • Mysql缓冲池和LRU
  • 关注 Yocto项目实战教程
  • PyCharm插件开发与定制指南:打造个性化开发环境
  • C++ 模板类型传递可行性检测指南
  • 3D打印喷头的基本结构
  • 区间DP求解策略详解