当前位置: 首页 > news >正文

设计logo网站生成器个人电脑做网站服务器网站

设计logo网站生成器,个人电脑做网站服务器网站,做网站需要会写代码6,网站备案密码ReSearch:强化学习赋能大模型,推理与搜索的创新融合 大语言模型(LLMs)的推理能力不断提升,却在与外部搜索结合处理复杂问题时遇阻。本文提出的ReSearch框架,借助强化学习让LLMs学会将搜索融入推理&#xf…

ReSearch:强化学习赋能大模型,推理与搜索的创新融合

大语言模型(LLMs)的推理能力不断提升,却在与外部搜索结合处理复杂问题时遇阻。本文提出的ReSearch框架,借助强化学习让LLMs学会将搜索融入推理,无需推理步骤的监督数据。实验效果惊艳,快来一探究竟它如何突破困境、提升性能!

论文标题
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
来源
arXiv:2503.19470v2 [cs.AI] + https://arxiv.org/abs/2503.19470

代码

https://github.com/Agent-RL/ReCall

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

在当今人工智能领域,大语言模型(LLMs)取得了显著进展,它不仅能依靠自身内部知识,还能借助外部搜索工具检索信息,检索增强生成(RAG)技术也因此备受关注。然而,LLMs在实际应用中仍面临挑战。一方面,许多现实问题复杂,需要多步推理,可设计有效的多步RAG策略却很困难。另一方面,现有多步RAG方法依赖手动提示或启发式规则,扩展性差,且标注推理步骤成本高。此外,强化学习虽能提升推理能力,但在结合推理与外部知识检索方面探索不足。

研究问题

  1. 训练LLMs在信息检索时进行交互式推理是研究难题,现有多步RAG方法多依赖手动设计提示或启发式规则,不仅费力,对更复杂问题还缺乏扩展性。

  2. 在多步RAG框架中标注推理步骤,成本高且耗时,实际操作困难。

  3. 目前基于强化学习提升LLMs推理能力的方法,大多聚焦内部推理,对推理与外部知识检索的有效结合探索不足。

主要贡献

1. 创新框架设计:提出ReSearch框架,将搜索操作视为推理链的一部分,通过强化学习训练LLMs基于文本思考决定何时及如何搜索,且无需推理步骤的监督数据,这与以往方法显著不同。

2. 模型训练与效果验证:在不同规模的Qwen模型上训练ReSearch,在多跳问答基准测试中,相比基线模型有显著性能提升,且仅在一个数据集上训练就能在多个基准测试中表现良好,展现出强大的泛化能力。

3. 推理能力激发:分析训练过程发现,ReSearch能自然激发LLMs的反思和自我纠正等高级推理能力,且不依赖预定义的启发式规则。

方法论精要

在探索大语言模型(LLMs)与外部搜索高效协同的道路上,ReSearch提出了一套别具一格的方法体系,核心在于将搜索操作巧妙融入推理过程,借助强化学习让LLMs自主学会合理运用搜索进行推理。

1. 核心算法/框架: 采用 Group Relative Policy Optimization(GRPO)算法训练 LLMs。在这个框架中,推理链由文本思考(<think></think>)、搜索查询(<search></search>)和检索结果(<result></result>)组成,搜索操作与文本思考相互作用。

2. 关键参数: GRPO算法中有几个关键参数起着至关重要的作用。裁剪比率(ϵ)防止模型在训练过程中“跑偏”,确保训练的稳定性;KL散度系数(β)避免模型策略偏离参考策略太远,保证模型在优化过程中始终保持一定的“稳健性”。这些参数相互配合,共同引导LLMs在训练中不断优化推理与搜索的协同策略。

3. 创新性技术组合: ReSearch的创新之处在于,将搜索操作深度嵌入推理链中。在这个推理链里,不仅有文本思考(用标记),还有搜索查询(<search></search>)和检索结果(<result></result>)。模型会根据前面文本思考的内容,决定何时进行搜索以及搜索什么内容,而搜索结果又会反过来影响后续的文本思考。在计算损失时,ReSearch会对检索结果进行mask处理,避免训练策略偏向检索结果。

4. 实验验证: 使用四个多跳问答基准测试数据集:HotpotQA、2WikiMultiHopQA、MuSiQue 和 Bamboogle。选取两个简单基线(No RAG 和 Naive RAG)以及两个改进多步 RAG 的方法(Iter - RetGen 和 IRCoT)进行对比。这样选取是因为涵盖了直接生成答案、简单检索生成和先进多步 RAG 策略等不同类型,能全面评估 ReSearch 的性能。

实验洞察

性能优势: 在多个多跳问答基准测试中,ReSearch的表现远超各类基线模型。具体数据如下:

  • 对于Qwen2.5-7B模型,在衡量回答与正确答案完全匹配程度的Exact Match指标上,相比表现最佳的基线模型,平均提升幅度高达15.81%。在使用LLM-as-a-Judge这种借助其他大语言模型来评判答案正确性的指标中,其平均提升更是达到17.56%。
  • Qwen2.5-32B模型同样表现出色,在Exact Match指标上平均提升14.82%,在LLM-as-a-Judge指标上平均提升15.46% 。这表明ReSearch能让模型在不同规模下,都更精准地应对复杂问题,给出高质量答案。

动态性分析: 在训练ReSearch模型的过程中,能观察到模型在推理和搜索策略上的有趣变化:

  • 响应长度变化:整体而言,模型的响应长度呈增长态势。以32B模型为例,训练初期因其内部储备知识丰富,倾向于依赖自身生成知识来作答,使得响应较长。随着训练推进,在奖励信号的指引下,模型更多地借助搜索获取信息,响应长度先有所缩短,随后又因对搜索和推理配合的熟练运用而再次变长。
  • 搜索操作次数增加:训练期间,模型的搜索操作次数不断增多。这意味着模型逐渐掌握了通过多次迭代搜索来收集信息的技巧,以应对复杂多跳问题,提升问题解决效率。

消融研究: 为探究ReSearch框架各组件的作用,研究人员开展了消融实验,从多个关键指标进行分析:

  • 模型行为调整:实验发现模型能够依据奖励信号灵活调整推理和搜索行为。当得到积极奖励时,会强化当前策略;反之,则尝试改变策略,证明奖励机制能有效引导模型优化。
  • 指令调整的优势:对比不同模型,经过指令调整的模型在训练初期就能获得更高奖励,后续性能提升也更为显著,体现了指令调整对模型训练的积极作用。
  • 综合指标验证:通过对响应长度、搜索操作次数、训练和验证奖励等指标的综合分析,充分验证了ReSearch框架中各组件在提升模型性能方面的有效性,它们相互协作,共同促进模型能力的提升。
http://www.dtcms.com/a/561784.html

相关文章:

  • 49.渗透-Yakit-基础模块应用(爆破与未授权检测)
  • Taro 开发快速入门手册
  • html5网络公司网站模板wordpress 左右翻页
  • Python GUI 编程(Tkinter)
  • 外贸商业网站建设重庆专业的网站建设公司
  • 做怎么样的网站好wordpress 技术类主题
  • Java 大视界 -- Java 大数据在智能政务公共资源交易数据分析与监管中的应用
  • 雅思口语主题
  • 江门网站江苏建设厅长
  • 多模态数据湖对接 AI 训练的技术方案
  • 计算机组成原理核心知识点梳理
  • 天津手机网站建设制作省级别网站建设方案
  • 家政服务网站建设方案宁波网站建设就业方向
  • 网站程序的设计费用网站添加wordpress博客
  • 第三方接口请求
  • 个人网站做装修可以吗网页游戏网站排名
  • C语言字符串及其函数
  • 网站设计公司-信科网络有什么免费建网站
  • Nestjs框架: 微服务容器化部署与网络通信解决方案
  • 北京网络网站建设公司手机必备app
  • 苏州网站建设公司电话网站无法连接mysql
  • 五.docker环境搭建实例
  • 网工错题笔记
  • 龙之向导外贸网站集团公司手机站网站
  • 电商网站竞价推广策略财务网站建设
  • spring boot 启动过程
  • SpringCloud——Docker基础
  • 计算机网络自顶向下方法27——运输层 拥塞控制原理 拥塞原因与代价及控制方法
  • 佛山茶叶网站建设网站上线流程图
  • 第四天学习总结:C++ 文件系统 × Linux 自动化 × Makefile 工程化