当前位置：首页 > news >正文

LLM中BLEU 指标、ROUGE 指标、PPL指标

news 2025/8/1 11:53:16

在大语言模型（LLM, Large Language Models）中，评估文本生成质量是核心任务之一。三种常见的评估指标是：

BLEU（Bilingual Evaluation Understudy）
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）
PPL（Perplexity，困惑度）

它们分别从不同角度衡量模型生成的文本与参考文本的相似度或语言流畅性。下面分别进行详细讲解：

一、BLEU 分数（BLEU Score）

1. 定义

BLEU 是一种基于 n-gram 精确匹配的指标，主要用于机器翻译任务，也用于文本摘要、对话生成等任务。

2. 计算方法

核心思想：比较**生成文本（candidate）和参考文本（reference）**之间的 n-gram 重叠。

计算公式：

BLEU = BP × exp(∑w_n × log(p_n))

p_n：n-gram 的精确匹配率（从 1-gram 到 4-gram）
w_n：每个 n-gram 的权重，常设为均值（如 0.25）
BP（Brevity Penalty）：简洁惩罚项，防止模型生成过短文本

3. 特点

优点：
- 简单高效，可自动化评估
- 与人工评估有一定相关性
缺点：
- 不考虑语义，只衡量表面 n-gram
- 对词序敏感，无法处理同义表达

二、ROUGE 指标

1. 定义

ROUGE 是召回导向的自动摘要评估指标，主要衡量生成文本是否覆盖了参考答案中的关键词或短语。

2. 常见指标种类

ROUGE-N：n-gram 的召回率（最常见的是 ROUGE-1 和 ROUGE-2）
ROUGE-L：最长公共子序列（LCS）的覆盖率
ROUGE-W：加权最长公共子序列
ROUGE-S：跳跃式双字匹配（Skip-Bigram）

3. 示例计算（ROUGE-1）

假设：

参考文本："The cat is on the mat"
生成文本："The cat sat on the mat"

ROUGE-1 的召回 = （匹配的 unigram 数 / 参考文本中的 unigram 数）

4. 特点

更关注召回率，适合摘要任务
能一定程度捕捉语义（如 LCS）
不适合只看精度的生成任务

三、PPL（Perplexity，困惑度）

1. 定义

PPL 衡量语言模型对一个句子的“困惑程度”，值越小表示模型越确信自己的预测，生成质量越高。

PPL 的定义：

PPL = exp(- (1/N) * ∑ log P(w_i))

其中：

N：句子长度
P(w_i)：语言模型对第 i 个词的预测概率

2. 特点

常用于评估语言建模能力（如 GPT）
仅适用于有概率输出的模型
不是基于参考文本对比，而是衡量模型生成句子的自洽性

3. 使用场景

测试 GPT/BERT 语言模型预训练效果
对比不同训练轮数的模型质量

四、对比总结

指标	类型	衡量方式	适用任务	是否需要参考文本	优缺点
BLEU	精确匹配	n-gram 精确匹配	机器翻译、对话	是	简单高效，但不理解语义
ROUGE	召回为主	关键词召回、LCS等	文本摘要	是	更适合长文本匹配
PPL	概率模型评估	模型输出概率的熵值	语言模型训练	否	评估自洽性，不比较句子内容

五、补充说明

BLEU 和 ROUGE 是外部评估指标，关注生成文本与真实文本的相似度；
PPL 是内部指标，用于评估模型本身的语言建模能力；
在 LLM 训练阶段，通常先用 PPL 评估模型训练是否收敛；
在 LLM 下游任务中（如问答、摘要），则使用 BLEU/ROUGE/METEOR/BERTScore 等指标进行质量评估。

http://www.dtcms.com/a/305419.html

相关文章：

MySQL图解索引篇

7.29 Java SE（Java高级 P191-P199）

Linux 线程概念与控制

继续打卡day6

SpringJDBC源码初探-DataSource类

理解“无界队列”与“有界队列”及其适用场景

BigemapPro吸附功能 | 绘图共点共边，标绘从此无缝衔接！

【Python】数据可视化之聚类图

进阶向:Manus AI与多语言手写识别

大模型量化004

机器学习－贝叶斯函数（理解版）

Xmind 2025下载与保姆级安装教程

数据库-索引

Python Day17 常用模块和加解密操作及例题分析

window weblogic 解锁

Java 9 新特性解析

《零基础入门AI：传统机器学习入门（从理论到Scikit-Learn实践）》

36.Manacher 算法

【n8n】如何跟着AI学习n8n【01】：定制AI老师

【Linux】pthread学习笔记

scrapy框架新浪新闻

使用JSON Schema 的 dependencies 实现 LLM 工具调用的参数约束

C 语言基础第16天：指针补充

粒子群优化算法（Particle Swarm Optimization, PSO）求解二维 Rastrigin 函数最小值问题

Mysql缓冲池和LRU

关注 Yocto项目实战教程

PyCharm插件开发与定制指南：打造个性化开发环境

C++ 模板类型传递可行性检测指南

3D打印喷头的基本结构

区间DP求解策略详解