当前位置: 首页 > news >正文

BLEU评估指标

一、介绍

用于评估模型生成的句子和实际句子差异的指标,取值在[0,1],匹配度高就距离1近,反之距离0近。这个指标计算代价小,容易理解,与语言无关,与人类评价结果高度相关。

BLEU主要基于n-gram匹配(连续的n个词)的精确率,并结合**短句惩罚(Brevity Penalty, BP)**来调整长度差异的影响。

公式:BP为惩罚系数

二、计算步骤

对于每个n-gram(如1-gram到4-gram):

  • 精确率:机器翻译中与参考翻译匹配的n-gram数量 / 机器翻译中总n-gram数量。
  • 修正精确率:为避免重复n-gram的干扰,对每个n-gram的匹配次数取参考翻译中的最小上限
    例如:若机器翻译中某个词出现3次,而参考翻译中最多出现2次,则匹配次数计为2。

若机器翻译长度c没有参考翻译长度r长,那么就惩罚:

 

最后带入公式。

三、示例代码

from nltk.translate.bleu_score import sentence_bleu
# prefect match,reference是target,candidate是预测输出的
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']
score = sentence_bleu(reference, candidate)
print(score)

输出1.0

如果是9个单词,4-gram,那么计算BLEU就是四分之一乘以一个词算的时候的准确率,然后两个词,三个词,四个词。就比如9个单词,有8个能对应上,那么公式就是:

从上到下分别是4gram,1-gram,2-gram:

http://www.dtcms.com/a/66627.html

相关文章:

  • 静态程序分析
  • 网络安全和文档的关系
  • 【高项】信息系统项目管理师(五)项目范围管理【3分】
  • CSS 知识点总结1
  • 在ArcGIS中对图斑进行自上而下从左往右编号
  • 制造业数字化转型,汽车装备制造企业数字化转型案例,智能制造数字化传统制造业数字化制造业数字化转型案例
  • 【运维】服务器系统从centos7重装为ubuntu22.04
  • 医院本地化DeepSeek R1对接混合数据库技术实战方案研讨
  • 使用Python在Word中生成多种不同类型的图表
  • 2020年SCI1区TOP:自适应粒子群算法MPSO,深度解析+性能实测
  • AI智能代码疫苗技术,赋能数字化应用内生安全自免疫
  • QT:非模态使用WA_DeleteOnClose避免内存泄漏
  • ESP32C3 ADC 检测电压
  • 【 Fail2ban 使用教程】
  • 力扣——两数相加
  • 每日一题--数据库
  • 建筑兔零基础自学记录45|获取高德/百度POI-1
  • 前端面试:富文本编辑器里面如何在划词选择的文本上添加右键菜单?
  • 心理状态的微妙变化
  • 网关的详细介绍
  • qemu的usb前后端处理
  • 十四、Vue 项目工程化:从 ESLint 到 CI/CD 的最佳实践
  • 前端项目部署方案
  • 阿里云服务器购买及环境搭建宝塔部署springboot和vue项目
  • python-leetcode-叶子相似的树
  • 【MySQL】MySQL是如何传输数据的?
  • day3
  • 算法手记3
  • 人工智能与我何干
  • MinIO问题总结(持续更新)