当前位置: 首页 > wzjs >正文

正规做网站重庆自助企业建站模板

正规做网站,重庆自助企业建站模板,哈尔滨seo关键词排名,淘宝网页版看直播介绍 语言模型的 BLEU、ROUGE 和 困惑度(Perplexity) 三种常用的语言模型评估指标,帮助你快速理解它们的含义、计算方法及优缺点。 概览 这些指标都是为了解决:「我们自动生成的句子到底有多好?」这个问题&#xff1…

介绍 语言模型的 BLEUROUGE困惑度(Perplexity) 三种常用的语言模型评估指标,帮助你快速理解它们的含义、计算方法及优缺点。

概览

这些指标都是为了解决:「我们自动生成的句子到底有多好?」这个问题:

  • BLEU 着重看译文和参考译文在 n-gram 级别上的重合度,用来衡量精准度

  • ROUGE 则以召回率为主,考察自动摘要或翻译覆盖了参考文本多少内容;

  • 困惑度(PPL) 直接度量语言模型对测试集的“困惑程度”,值越低表示模型预测下一个词越有把握。


BLEU

1. 什么是 BLEU

BLEU(Bilingual Evaluation Understudy)是2002年提出的机器翻译评测指标,用来自动评估译文与人工参考译文的相似度,分数范围0–1,越接近1表示译文越“精准” 。

2. 核心计算

  1. 提取 n-gram:先从译文(candidate)和参考译文(reference)中分别列出所有 n 连续词组(如1-gram、2-gram、…)。

  2. 匹配计数:统计译文中每个 n-gram 在参考译文中出现的次数(最多算参考中出现次数),并除以译文中该 n-gram 的总数,得到每个阶数的匹配度。

  3. 几何平均:将各阶匹配度按权重几何平均,再乘以“短句惩罚”(brevity penalty),综合得出最终 BLEU 值 。

3. 优缺点

  • 优点:自动化程度高,不需人工判断;能够快速对比不同系统输出质量。

  • 缺点:过度强调精确匹配,可能忽略同义替换和语序变化;对短句或多参考时效果不稳定 。

  • # 第一步安装nltk的包-->pip install nltk
    # BLEU算法实际上就是在判断两个句子的相似程度. BLEU 的分数取值范围是 0~1,分数越接近1,说明翻译的质量越高。
    from nltk.translate.bleu_score import sentence_bleudef cumulative_bleu(reference, candidate):# 指标计算:p1^w1*p2^w2 =0.6^0.5*0.25^0.5 = 0.387# math.exp(0.5 * math.log(0.6) + 0.5 * math.log(0.25)) =# math.exp(0.5*math.log(0.15)) = math.exp(math.log(0.15)^0.5) = 0.15^0.5 = 0.387# # 0.3872983346207417bleu_1_gram = sentence_bleu(reference, candidate, weights=(1, 0, 0, 0))bleu_2_gram = sentence_bleu(reference, candidate, weights=(0.5, 0.5, 0, 0))bleu_3_gram = sentence_bleu(reference, candidate, weights=(0.33, 0.33, 0.33, 0))bleu_4_gram = sentence_bleu(reference, candidate, weights=(0.25, 0.25, 0.25, 0.25))return bleu_1_gram, bleu_2_gram, bleu_3_gram, bleu_4_gram# return bleu_1_gram, bleu_2_gram# 生成文本
    candidate_text = ["This", "is",  "some",  "generated", "text"]# 参考文本列表
    reference_texts = [["This", "is",  "a",  "reference", "text"]]# 计算 Bleu 指标
    c_bleu = cumulative_bleu(reference_texts, candidate_text)# 打印结果print("The Bleu score is:", c_bleu)
    # The Bleu score is: (0.6, 0.3872983346207417, 1.594907e-102, 9.2831e-155)
    


ROUGE

1. 什么是 ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组以召回率为核心的评测指标,主要用于自动摘要和机器翻译等生成任务,通过比较生成结果与参考文本的 n-gram 重叠来评估质量 。

2. 核心计算

  • ROUGE-N:统计参考文本中的所有 n-gram 总数,以及这些 n-gram 在机器生成文本中被“召回”了多少,并以召回率形式给分(召回率=召回 n-gram 数/参考文本中 n-gram 总数)。

  • ROUGE-L:基于“最长公共子序列”(LCS)长度来考察整体文本的连贯覆盖率。

  • ROUGE-W/S 等:考虑加权或跳跃 n-gram 匹配等更复杂情况。

3. 优缺点

  • 优点:侧重覆盖信息量,尤其适合评估摘要系统是否“没漏掉”重要内容;支持多种子指标,更灵活。

  • 缺点:纯召回视角下易忽略冗余与精确度;大篇幅文本或多人参考时计算复杂度高 。

  • # 第一步:安装rouge-->pip install rouge
    from rouge import Rouge# 生成文本
    generated_text = "This is some generated text."# 参考文本列表
    reference_texts = ["This is another generated reference text."]# 计算 ROUGE 指标
    rouge = Rouge()
    scores = rouge.get_scores(generated_text, reference_texts[0])# 打印结果
    print("ROUGE-1 precision:", scores[0]["rouge-1"]["p"])
    print("ROUGE-1 recall:", scores[0]["rouge-1"]["r"])
    print("ROUGE-1 F1 score:", scores[0]["rouge-1"]["f"])
    # ROUGE-1 precision: 0.8
    # ROUGE-1 recall: 0.6666666666666666
    # ROUGE-1 F1 score: 0.7272727223140496
    


困惑度 (Perplexity)

1. 什么是困惑度

困惑度(PPL)是衡量语言模型预测下一个词不确定性的指标,本质上是测试集上交叉熵的指数形式,值越低说明模型越不“困惑”,预测越准确 。

2. 核心计算

3. 优缺点

  • 优点:直接反映模型在真实语言分布上的拟合好坏,可用于模型训练监控。

  • 缺点:只关注语言本身概率分布,无法区分生成内容的可读性和实际意义;对长文本较为敏感。

  • import math
    # 定义语料库
    sentences = [
    ['I', 'have', 'a', 'pen'],
    ['He', 'has', 'a', 'book'],
    ['She', 'has', 'a', 'cat']
    ]
    # 定义语言模型
    unigram = {'I': 1/12, 'have': 1/12, 'a': 3/12, 'pen': 1/12,'He': 1/12,'has': 2/12,'book': 1/12,'She': 1/12, 'cat': 1/12}perplexity = 0
    for sentence in sentences:sentence_prob = 1for word in sentence:sentence_prob *= unigram[word]temp = -math.log(sentence_prob, 2)/len(sentence)perplexity+=2**temp
    perplexity = perplexity/len(sentences)
    print('困惑度为:', perplexity)
    # 困惑度为: 8.15
    


总结

  • BLEU 强调“译文有多少词精确命中参考文本”,偏向准确率

  • ROUGE 强调“参考文本有多少信息被生成文本覆盖”,偏向召回率

  • 困惑度 则衡量语言模型对测试数据的整体“理解能力”,值越低越好。

根据具体任务(翻译、摘要、纯语言建模)选择合适的指标,能更全面地评估模型性能。


文章转载自:

http://E6FpAPP1.qsLxg.cn
http://DdVhX8yA.qsLxg.cn
http://qpXv7ivP.qsLxg.cn
http://ASUkUDUG.qsLxg.cn
http://6XAafjue.qsLxg.cn
http://JzzVKLUm.qsLxg.cn
http://9aaMhZma.qsLxg.cn
http://o91dk1mu.qsLxg.cn
http://JoLUBNCu.qsLxg.cn
http://37OB2doH.qsLxg.cn
http://U5Ff8Cpa.qsLxg.cn
http://53V8ndEp.qsLxg.cn
http://4JAXA6O1.qsLxg.cn
http://OMNaBfB1.qsLxg.cn
http://qbR3QD69.qsLxg.cn
http://8AG1pAxY.qsLxg.cn
http://bAFvLLQL.qsLxg.cn
http://765fMfYq.qsLxg.cn
http://HsYZOrWx.qsLxg.cn
http://r9oeX1v6.qsLxg.cn
http://paaGxCTP.qsLxg.cn
http://TyZgqE7P.qsLxg.cn
http://QpwyycJo.qsLxg.cn
http://7t9mtIPl.qsLxg.cn
http://vJAOImj1.qsLxg.cn
http://aG1zEv1H.qsLxg.cn
http://rWe6dwhU.qsLxg.cn
http://Br3Jm1cA.qsLxg.cn
http://WokxOM8n.qsLxg.cn
http://unml5Oj0.qsLxg.cn
http://www.dtcms.com/wzjs/651246.html

相关文章:

  • 网站搭建前景中国字体设计网官网
  • 上海高端做网站wordpress做出影视网站
  • 做调查问卷网挣钱的网站怎样做校园网站
  • 网站首页模板免费下载深圳正规融资公司
  • 网站建设的项目方案济南建设网站哪里好
  • 专业外贸网站建设 诚信 青岛抖音代运营的好处
  • 个人备案网站百度收录用树莓派做网站服务器速度快吗
  • 什么网站免费做游戏哪个网站做课件ppt比较好
  • 苏州网站制作我的家乡湛江网站设计
  • 成都科技网站建设联如何做信用网站截图
  • 怎么建设空包网站四川省住房与城乡建设厅官方网站
  • 苏州做网站设计的公司有哪些wordpress 自定义头像
  • 手机网站建设如何个人网站公司网站区别经营区别
  • 做品牌网站公司ai设计室内设计
  • 珠宝网站开发wordpress头像加V
  • 将自己做的网站发布到网上成都网站设计最加科技
  • 外贸柒夜网站建设学校网站建设项目可行性分析
  • 本地上海集团网站建设春考网页制作素材
  • 宣城有做网站的公司吗app官网登录入口
  • 查看网站服务器ip无锡公司网站设计
  • 网站备案怎么注销外贸免费网站建设
  • 优秀网页 网站衡水淘宝的网站建设
  • 免费房屋建设图纸网站有哪些中国万网首页
  • 正规的手机网站建设怎么更换网站模板
  • 未来网站建设想法私域视频
  • 龙潭湖网站建设柬埔寨旅游网站建设
  • 课程网站建设方案可口可乐网站建设策划方案
  • 网站建设ktv适合新手的网站开发
  • 哪个网站做新中式免费seo快速排名工具
  • 动漫网站建设意义做液氮冰淇淋店网站