归因问答-如何进行人类评估
输入:用户问题q
输出:参考答案a、来自问题相关原始文章的一个段落p。
如何评估该问答对是否被正确归因,以下是论文arributed qa论文提到的标准人类评估过程。
1)需求: 给定问题q、答案a和相关段落p,判断问题q和答案a是否可以归因于段落p;
2)具体为: 针对1给出的要素,评审员要求回答在问题q的上下文中
a. 您是否能理解LLM响应对(a, p)提供的信息。
b. LLM提供的答案a是否完全由文档段落c支持。
3)如果两个问题的回答都是yes,则(q, a, p)被认为是可以归因。
假设测试系统中n个问题q1, q2, ..., qn,对于每个问题qi,ri表示存在ri个评估者共同评估问题qi。
采用如上评估过程,如果大部分的评估者认为q1被正确地回答和归因则g(xi)=0,否则为0。
所以,该测试系统的精度定义如下。
人工评估精度反映了该测试系统中,被大部分评估者认为可归因的问题所占的比例。
reference
---
问答归因测试集 - Attributed QA
https://blog.csdn.net/liliang199/article/details/148890539
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models
https://arxiv.org/pdf/2212.08037
Measuring Attribution in Natural Language Generation Models
[2112.12870] Measuring Attribution in Natural Language Generation Models