当前位置: 首页 > news >正文

wordpress is ssl网络优化首先要有网站

wordpress is ssl,网络优化首先要有网站,网站建设公司比较好的有哪些,wordpress 设置登陆界面在构建现代信息检索系统(如 RAG、问答系统、搜索引擎、推荐系统)时,评估检索器的性能是至关重要的一步。选择合适的评估指标能帮助我们准确判断系统的优劣,进而优化排序、召回质量和用户体验。本文将系统性地介绍主流检索指标&…

在构建现代信息检索系统(如 RAG、问答系统、搜索引擎、推荐系统)时,评估检索器的性能是至关重要的一步。选择合适的评估指标能帮助我们准确判断系统的优劣,进而优化排序、召回质量和用户体验。本文将系统性地介绍主流检索指标,包括其原理、示例和适用场景。

1. BLEU(Bilingual Evaluation Understudy)

用途:主要用于机器翻译、文本生成等任务,评估生成文本与参考文本的相似程度。

原理:

BLEU 基于n-gram 匹配,计算生成文本中有多少 n-gram 与参考文本中的 n-gram 匹配。

  • 支持 1-gram 到 4-gram 的加权平均。

  • 引入了brevity penalty(简短惩罚),防止模型生成非常短但准确的片段得高分。

式简化版

  • p_n: 第 n 阶 n-gram 的精确率

  • w_n: 权重,通常为均分

  • BP: brevity penalty

示例:

参考句子

the cat is on the mat

生成句子

the cat is on mat

1-gram 匹配:5 个词中有 4 个匹配("the", "cat", "is", "on")
2-gram 匹配:4 个 2-gram 中有 2 个匹配("the cat", "cat is")
BLEU 分数:约 0.75(简化计算)

2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

用途:主要用于文本摘要、问答等生成任务。

原理:

ROUGE 更侧重于召回率(recall),衡量参考答案中有多少 n-gram 被生成答案覆盖。

常见变体:

  • ROUGE-N:n-gram 的召回率(如 ROUGE-1,ROUGE-2)

  • ROUGE-L:最长公共子序列(LCS)

  • ROUGE-W:带权 LCS

ROUGE-1 的定义与公式

ROUGE-1 衡量的是生成文本中与参考文本之间 unigram(单词)级别的重叠。它强调的是召回率(Recall)

变量说明:

  • 重叠的 unigram 数量:生成文本中与参考文本匹配的单词数(不重复计数)

  • 参考文本中的 unigram 总数:参考答案总共有多少个词

示例:

参考文本

the cat is on the mat

生成文本

the cat is on mat

  • 参考文本的 unigram 数:6(the, cat, is, on, the, mat)

  • 去重参考文本(可选,不常用):5(the, cat, is, on, mat)

  • 重叠 unigram 数量:5(the, cat, is, on, mat)

注意:默认情况下 ROUGE-1 计算的是召回率(也有变体计算 F1 分数或 Precision)

3. MRR(Mean Reciprocal Rank)

用途:常用于信息检索、问答系统中,用于衡量正确答案在候选列表中的排名。

原理:

对于每个查询,计算第一个相关(正确)答案的排名的倒数,然后对所有查询取平均。

  • rank_i:第 i 个查询中,第一个正确答案的排名

示例:

假设有三个查询:

  1. 正确答案在第 1 位 → reciprocal = 1

  2. 正确答案在第 3 位 → reciprocal = 1/3

  3. 正确答案在第 2 位 → reciprocal = 1/2

4. MAP(Mean Average Precision)是什么?

MAP 是衡量多个检索结果中,相关项排序整体质量的指标
它不仅考虑你是否找到了正确答案,还关注它们的排名位置和完整性

MAP 的评估原理(分两步):

第一步:计算 Average Precision(AP)

对于每个查询,AP 是该查询中多个正确答案的「加权精确率」,越早出现越高权重。

具体计算方式:

  • R:该查询的相关文档总数(即 ground truth 数量)

  • n:检索结果的总数(比如 top 10)

  • P(k):前 k个结果中的 precision(准确率)

  • rel(k):如果第 k 个结果是相关的,为 1;否则为 0

注意:只有当第 k 个文档是相关时,才把 P(k) 纳入计算

第二步:对多个查询取平均 → 得到 Mean Average Precision

示例讲解(一个查询)

假设检索返回以下结果(10 个文档):

[0, 1, 0, 1, 1, 0, 0, 0, 1, 0]

对应的 ground truth 中有 4 个相关文档(在位置 2、4、5、9)

步骤:

Rankrel(k)P(k)
10-
211/2 = 0.5
30-
412/4 = 0.5
513/5 = 0.6
6–80-
914/9 ≈ 0.444

MAP 的优势

  • 更全面地评价所有正确答案的排序质量

  • 非常适用于:

    • 信息检索

    • 问答系统(多个候选文档)

    • 文本匹配

    • 推荐系统

5. nDCG:Rerank 排序的首选指标

原理:
nDCG 考虑排名靠前的正确答案更重要,尤其适合有相关性等级的任务。

  • rel_i 是该位置文档的“相关性标签”(如 0,1,2,或 soft score)

  • IDCG 是最理想排序的 DCG(即把正确的放最前面)

  • 非常适合用于判断:是否把正确文档排在前面,排得越前,分越高

举个例子

假设 Ground Truth 有两个正确文档(doc2 和 doc4),我们 rerank 后得到如下排序:

[doc4, doc1, doc2, doc5, doc3]

我们给出以下 relevance 分数(0-1 表示是否相关):

relevance = [1, 0, 1, 0, 0]

那么:

  • MRR = 1/1 = 1.0(doc4 是第 1 个就是正确答案)

  • MAP = (1/1 + 2/3)/2 ≈ 0.83

  • nDCG@5 = 1.761 / 1.861 ≈ 0.946

 可以看出:nDCG 给了高度评价,因为两个相关项都排得靠前。

6. Precision@k

原理:
衡量前 k 个结果中正确文档的比例。

公式:

示例:
Top-5 结果中有 3 个正确:Precision@5 = 3/5 = 0.6

适用范围:

  • 精度导向的检索评估

  • 推荐系统

7. Recall@k

原理:
衡量 top-k 中找到了所有正确答案的比例。

公式:

示例:
正确答案有 4 个,top-10 中命中 3 个。
Recall@10 = 3/4 = 0.75

适用范围:

  • 重召回优先的任务,如 QA 文档覆盖

8. Hit@k

原理:
前 k 个结果中是否命中至少一个正确答案。

公式:

示例:
Top-3 命中 doc2:Hit@3 = 1

适用范围:

  • 快速评估检索是否"有用"

检索器评估常用指标一览

指标衡量内容是否考虑多个正确答案排名敏感常用于
Recall@k前 k 个中是否覆盖了所有正确答案✅ 是❌ 否QA, RAG 检索评估
Precision@k前 k 个中有多少是正确的✅ 是❌ 否检索与召回
MRR第一个正确答案排名的倒数❌ 否(只看第一个)✅ 是QA 单答案
MAP所有正确答案的排名质量✅ 是✅ 是多答案检索任务
nDCG@k正确答案分数随排名衰减的加权值✅ 是(带权)✅ 是检索排序优化
Hit@kTop-k 中是否至少包含一个正确答案✅ 是(但不计精度)❌ 否简易评估

http://www.dtcms.com/a/467976.html

相关文章:

  • ASP.NET2.0网站开发全程解析想要去国外网站买东西怎么做
  • 台州做网站电话百度排名 网站标题
  • 适合大型网站的流量套餐物流公司网站源码
  • 高端网站建设的方案wordpress编辑文章很慢
  • 网站降权原因电影网站模板html
  • 网站搭建服务合同网站友情链接
  • 做外贸网站好的公司中英文网站模板
  • 电子商务网站如何设计手机制作报价单app
  • 做义工的同城网站网站做次级页面
  • 网站开发学些什么网站开发盈利
  • 南阳做网站收费服装logo设计
  • 网站平台建设是什么企业主页设计
  • 网站列表页怎么做的安徽营销型网站建设
  • 广州白云区网站建设厦门网站建设680
  • 吉林智能网站建设找哪家曼朗策划响应式网站建设
  • 艺友网站建设潍坊专业建站
  • 求个网站这么难吗2022年贴吧企业如何进行网站建设
  • 做网站的公司违约怎么处理wwr下载建设网站
  • 平顶山 网站建设公司商城开源
  • 网站开发项目团队人员提供网站建设方案ppt
  • 电子商务网站的主要评价指标有淮安做网站公司
  • 做网站栏目是什么意思个人网页主页
  • 锦州网站建设更好新农宝网站建设方案
  • 网站建设维护公司地址wordpress和微博相册
  • 做食品的采购员常用网站棋牌网站搭建公司
  • 有什么网站可以做微信app阿里云淘宝客网站建设教程
  • wap网站排名有了域名后怎样做网站
  • 陈塘庄网站建设济宁住房和城乡建设厅网站
  • 宠物网站设计模板内部网站建设拓扑
  • 如何在招聘网站上选个好公司做销售网站开发的编程语言