当前位置: 首页 > news >正文

介绍FRAMES:一个统一的检索增强生成评估框架

引言

大型语言模型(LLMs)在认知任务上取得了显著进步,检索增强生成(RAG)技术成为提升模型性能的重要方法。然而,现有的评估方法往往孤立地测试模型的检索能力、事实性和推理能力,无法全面反映模型在真实场景中的表现。为了解决这一问题,谷歌DeepMind和哈佛大学的研究团队提出了FRAMES(Factuality, Retrieval, And reasoning MEasurement Set),这是一个高质量的数据集,旨在统一评估RAG系统的核心能力。

FRAMES的核心特点

FRAMES数据集包含824个具有挑战性的多跳问题,每个问题需要整合多个维基百科文章的信息才能回答。这些问题覆盖了历史、体育、科学、动物、健康等多个领域,并涉及以下五种推理类型:

  1. 数值推理:涉及计数、比较或计算。
  2. 表格推理:需要分析维基百科中的表格或信息框。
  3. 多重约束:问题包含多个约束条件,其交集指向唯一答案。
  4. 时间推理:涉及时间线的推理。
  5. 后处理:在收集所有必要事实后,需要进行特定处理(如单位转换或格式调整)。

FRAMES的独特之处在于它首次将事实性、检索能力和推理能力整合到一个统一的评估框架中,填补了现有基准测试的空白。

数据集构建过程

研究团队首先尝试通过LLM生成合成数据,但发现超过30%的问题存在幻觉或错误。因此,他们转向人工标注,由专家团队设计问题,并确保每个问题需要2到15篇维基百科文章才能回答。此外,团队还实施了严格的质量检查,包括:

  • 验证答案的正确性和基于维基百科的可靠性。
  • 添加时间上下文以避免歧义(例如“截至2024年8月1日”)。
  • 避免二元答案问题,防止模型通过随机猜测获得高分。

实验结果

研究团队对多个先进LLM(如Gemini-Pro、Gemini-Flash、Gemma2等)进行了评估,结果如下:

  1. 单步评估

    • 在没有检索的情况下,Gemini-Pro的准确率仅为0.408。
    • 通过BM25检索相关文章后,准确率提升至0.474。
    • 当提供所有相关文章(Oracle Prompt)时,准确率达到0.729,但模型在数值推理、表格推理和后处理任务上仍表现不佳。
  2. 多步评估

    • 通过多步检索和推理,模型的准确率显著提升至0.66(接近Oracle性能)。
    • 改进的关键在于为模型提供搜索规划指令,例如避免重复查询和分步思考。

意义与未来方向

FRAMES为RAG系统的评估提供了更全面的基准,揭示了当前模型在复杂推理任务上的局限性。未来研究方向包括:

  • 开发更高效的检索策略(如基于ColBERT或SimCSE的密集检索器)。
  • 提升模型的推理能力(如通过过程监督或蒸馏技术)。
  • 扩展数据集以涵盖更多领域和动态信息。

结论

FRAMES是评估RAG系统的重要一步,它不仅帮助研究者更准确地衡量模型性能,还为改进检索和推理能力提供了明确方向。随着RAG技术在现实应用中的普及,这样的综合评估框架将变得越来越重要。

数据集链接:Hugging Face
论文作者:Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey等

http://www.dtcms.com/a/97494.html

相关文章:

  • Python入门学习笔记 - 从环境搭建到基础语法
  • 【Java SE】包装类 Byte、Short、Integer、Long、Character、Float、Double、Boolean
  • JDBC删除与查询
  • PLC协议
  • 动态代理模式实现与对比(JDK、CGLIB、Spring AOP)
  • vue数据两个相同的参数对比只显示一个
  • HarmonyOS主题管理工具封装:动态切换、持久化存储与常见问题解析
  • sourcetree中的“master“,“origin/master“,“origin/HEAD“这三个图标都是什么意思?GIT 超详细➕通俗易懂版本
  • Unity中对象池(Object Pool)技术解析与实现
  • 【聚合函数、分组、排序笔记】
  • SSE单向消息推送(get请求)
  • 神经网络 - 前馈神经网络(FNN)、全连接神经网络(FCNN)和卷积神经网络(CNN)的区别与联系
  • MySQL的多表查询
  • 软考《信息系统运行管理员》- 6.1 信息系统安全概述
  • Oracle数据库数据编程SQL<2.2 DDL 视图、序列>
  • lxd-dashboard 图形管理LXD/LXC
  • Processor System Reset IP 核 v5.0(vivado)
  • Allegro界面颜色改变设置
  • Qt应用系统托盘区域显示、托盘菜单示例
  • 快速排序不啦不啦
  • 嵌入式Linux网络编程:UNIX Domain Socket进程间通信(IPC)
  • Maven版本统一管理
  • 如何在Webpack中配置别名路径?
  • Google开源机器学习框架TensorFlow探索更多ViT优化
  • Ubuntu 系统无法远程连接?完整排查指南与解决方案
  • RedHat7.6_x86_x64服务器(最小化安装)搭建使用记录(二)
  • 51c自动驾驶~合集15
  • Modbus协议开发入门
  • LangChain基础系列之LLM接口详解:从原理到实战的全攻略
  • OSI 七层模型和四层模型(TCP/IP 模型)