当前位置: 首页 > news >正文

BLEU评估指标

一、介绍

用于评估模型生成的句子和实际句子差异的指标,取值在[0,1],匹配度高就距离1近,反之距离0近。这个指标计算代价小,容易理解,与语言无关,与人类评价结果高度相关。

BLEU主要基于n-gram匹配(连续的n个词)的精确率,并结合**短句惩罚(Brevity Penalty, BP)**来调整长度差异的影响。

公式:BP为惩罚系数

二、计算步骤

对于每个n-gram(如1-gram到4-gram):

  • 精确率:机器翻译中与参考翻译匹配的n-gram数量 / 机器翻译中总n-gram数量。
  • 修正精确率:为避免重复n-gram的干扰,对每个n-gram的匹配次数取参考翻译中的最小上限
    例如:若机器翻译中某个词出现3次,而参考翻译中最多出现2次,则匹配次数计为2。

若机器翻译长度c没有参考翻译长度r长,那么就惩罚:

 

最后带入公式。

三、示例代码

from nltk.translate.bleu_score import sentence_bleu
# prefect match,reference是target,candidate是预测输出的
reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']]
candidate = ['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']
score = sentence_bleu(reference, candidate)
print(score)

输出1.0

如果是9个单词,4-gram,那么计算BLEU就是四分之一乘以一个词算的时候的准确率,然后两个词,三个词,四个词。就比如9个单词,有8个能对应上,那么公式就是:

从上到下分别是4gram,1-gram,2-gram:

相关文章:

  • 静态程序分析
  • 网络安全和文档的关系
  • 【高项】信息系统项目管理师(五)项目范围管理【3分】
  • CSS 知识点总结1
  • 在ArcGIS中对图斑进行自上而下从左往右编号
  • 制造业数字化转型,汽车装备制造企业数字化转型案例,智能制造数字化传统制造业数字化制造业数字化转型案例
  • 【运维】服务器系统从centos7重装为ubuntu22.04
  • 医院本地化DeepSeek R1对接混合数据库技术实战方案研讨
  • 使用Python在Word中生成多种不同类型的图表
  • 2020年SCI1区TOP:自适应粒子群算法MPSO,深度解析+性能实测
  • AI智能代码疫苗技术,赋能数字化应用内生安全自免疫
  • QT:非模态使用WA_DeleteOnClose避免内存泄漏
  • ESP32C3 ADC 检测电压
  • 【 Fail2ban 使用教程】
  • 力扣——两数相加
  • 每日一题--数据库
  • 建筑兔零基础自学记录45|获取高德/百度POI-1
  • 前端面试:富文本编辑器里面如何在划词选择的文本上添加右键菜单?
  • 心理状态的微妙变化
  • 网关的详细介绍
  • 广州模板建站平台/石家庄疫情最新消息
  • 北京好的网站制作/近期时事新闻10条
  • 那个网站的机票做便宜/免费优化
  • 淘宝领券网站怎么做/免费seo网站推广
  • 成都网站推广营销设计/怎样有效的做网上宣传
  • 做网站网页尺寸是多少/营销宝