当前位置: 首页 > news >正文

归因问答-如何进行人类评估

输入:用户问题q

输出:参考答案a、来自问题相关原始文章的一个段落p。

如何评估该问答对是否被正确归因,以下是论文arributed qa论文提到的标准人类评估过程。

1)需求: 给定问题q、答案a和相关段落p,判断问题q和答案a是否可以归因于段落p;

2)具体为: 针对1给出的要素,评审员要求回答在问题q的上下文中

         a. 您是否能理解LLM响应对(a, p)提供的信息。

         b. LLM提供的答案a是否完全由文档段落c支持。

3)如果两个问题的回答都是yes,则(q, a, p)被认为是可以归因。

假设测试系统中n个问题q1, q2, ..., qn,对于每个问题qi,ri表示存在ri个评估者共同评估问题qi。

采用如上评估过程,如果大部分的评估者认为q1被正确地回答和归因则g(xi)=0,否则为0。

所以,该测试系统的精度定义如下。

\displaystyle E[g] = \frac{1}{n} \sum_{i=1}^{n}h(x_i, g(x_i), r_i)

人工评估精度反映了该测试系统中,被大部分评估者认为可归因的问题所占的比例。

reference

---

问答归因测试集 - Attributed QA

https://blog.csdn.net/liliang199/article/details/148890539

Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models

https://arxiv.org/pdf/2212.08037

Measuring Attribution in Natural Language Generation Models

[2112.12870] Measuring Attribution in Natural Language Generation Models

相关文章:

  • 桌面小屏幕实战课程:DesktopScreen 11 SPI 水墨屏
  • Docker安装Mysql、配置文件挂载、修改Mysql编码
  • Spark 之 QueryStage
  • 高标准通信国际接轨,Ethercat与PROFINET网关实现全自动化生产线
  • 【Pandas】pandas DataFrame first_valid_index
  • 大厂测开实习和小厂开发实习怎么选
  • 使用 ReAct 框架在 Ollama 中实现本地代理(Agent)
  • moduo之缓冲区Buffer
  • Ubuntu网络数据包发送工具大全
  • MT4完全操作指南:从零基础到EA自动交易
  • LLM复杂记忆存储-多会话隔离案例实战
  • 高斯混合模型(Gaussian Mixture Model, GMM)
  • Spark SQL to_json 函数介绍
  • Riverpod原理解析(实现一个自己的Riverpod)
  • 蜂鸟代理IP+云手机:跨境电商多账号运营的“隐形风控引擎”
  • 从提示工程(Prompt Engineering)到上下文工程(Context Engineering)
  • C++ 第三阶段:语言改进 - 第四节:nullptr vs NULL
  • Reactor Handle
  • MessagesPlaceholder和多轮AI翻译助手实战
  • ubuntu 远程桌面 xrdp + frp