当前位置: 首页 > news >正文

R1-Searcher使用强化学习增强语言模型解决问题的搜索能力

R1-Searcher:Incentivizing the Search Capability in LLMs via Reinforcement Learning 2025.3

https://github.com/RUCAIBox/R1-Searcher

针对的问题:

现有大型推理模型在时间敏感或知识密集型问题上通常仅使用模型内部知识,导致回答不准确甚至出现幻觉。

思路:

让模型自行学会“何时检索+ 如何利用结果”。

实现方法:

纯 RL、不需要过程奖励或冷启动的蒸馏;激励大语言模型在推理过程中主动调用外部检索系统,提升解答能力。训练分为两个阶段:

第一阶段专注于让模型学会如何正确地发起检索请求。奖励包括两部分:检索奖励和格式奖励。

检索奖励:
请添加图片描述
n代表检索次数。

格式奖励:

请添加图片描述

正确的格式为:

第一阶段鼓励模型发起检索操作,并不关心模型答案的正确性。

第二阶段专注模型答案的正确性,让模型有效利用检索结果来回答问题。奖励包括答案奖励和格式奖励。

答案奖励:

利⽤了ground-truth 答案和预测答案的 F1 分数:

格式奖励:

相比于第一阶段的格式奖励,第二阶段加大了对格式的惩罚力度。

实验结果:

算法采用REINFORCE++。Backbone使用Qwen2.5-7B和Llam-3.1-8B,训练采用的是本地检索数据库。

请添加图片描述

其中HotpotQA和2Wiki是训练数据,Bambogle是域外数据。实验表明,GRPO在域外数据上表现好。REINFORCE++在域内数据上表现好。

在线搜索的扩展:

使用在线检索测试域外数据,具体,使用 Google API 检索网页,并用 GPT-4o-mini 总结长网页内容后融入推理模型。

[?为什么还要额外引入一个摘要模型,他自己不会总结吗]

作者给出的解释:经过CoT训练的模型(无论是sft还是rl),总结能力都会有所下降。

RL vs SFT请添加图片描述

面对不确定的问题,RL倾向于利用检索来寻找答案,而SFT则倾向于利用模型内部不正确的知识进行回答。

总结:

论文提出了⼀种将 RAG 与 RL 相结合的 R1-Searcher 框架。该框架采⽤两阶段结果监督 RL方法,通过设计的奖励机制,使模型能够在推理过程中学习调用外部搜索引擎以获取相关知识。所提出的方法完全依赖于RL ,允许模型通过探索自主学习,而不需要任何指令微调冷启动。它展示了从域内训练数据集推⼴到域外测试数据集的能力,同时无缝切换到在线搜索以获取最新信息。

http://www.dtcms.com/a/263270.html

相关文章:

  • WebSocket 的核心原理和工作流程
  • 前端Vue面试八股常考题(一)
  • 企业流程知识:《超越再造:以流程为中心的组织如何改变我们的工作和生活》读书笔记
  • 力扣面试150(7/150)
  • 【c/c++2】多线程,动静态库,信号,socket
  • 如何让宿主机完全看不到Wi-Fi?虚拟机独立联网隐匿上网实战!
  • 【知识图谱构建系列7】:结果评价(1)
  • 可编辑39页PPT | 数字化工厂蓝图整体框架建设举措建设路径实施路线规划建设方案
  • 从入门到精通:npm、npx、nvm 包管理工具详解及常用命令
  • Microsoft Edge 打开无反应、打开后显示兼容性问题、卸载重装 解决方案。一键卸载Microsoft Edge 。
  • 卫朋:华为流程体系拆解系列——IPD流程L1-L6分级导入实战演练
  • android BottomSheet及AlertDialog的几种material3 常见ui的用法
  • vue上传各种文件,并预览组件,(预览,下载),下载resources目录下文件
  • vmware 17 安装win11 24h2
  • 【解析】 微服务测试工具Parasoft SOAtest如何为响应式架构助力?
  • MongoDB 常见查询语法与命令详解
  • 设计模式精讲 Day 19:观察者模式(Observer Pattern)
  • 自由学习记录(64)
  • 傅里叶变换理解
  • Instruct-GPT奖励模型的损失函数与反向传播机制解析
  • opencv入门(1)环境变量配置
  • FOC中V/F启动和I/F启动的区别
  • 零成本接入+企业级部署:2025年AI大模型实战指南
  • 企业自建云概念解读|私有云、专有云、混合云、分布式云、企业云
  • 【零基础学AI】第14讲:支持向量机实战 - 文本分类系统
  • 华为云 Flexus+DeepSeek 征文|基于 Dify 平台开发智能客服 AI Agent 的完整实战指南
  • python+uniapp基于微信小程序蜀味道江湖餐饮管理系统nodejs+java
  • 矩阵方程 线性代数
  • 微服务架构下的JWT深度实践:从原理到安全最佳实践
  • CppCon 2018 学习:An allocator is a handle to a heap Lessons learned from std::pmr