当前位置：首页 > news >正文

RAG-＞大模型搜索search-R1

news 2025/9/23 15:22:31

search-r1：让大模型学会自己使用搜索引擎
ConvSearch-R1: 让LLM适应检索器的偏好或缺陷

1 search-R1

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
代码地址

作者背景
UIUC伊利诺伊大学香槟分校，计算机科学系
马萨诸塞大学阿默斯特分校，智能信息检索中心

【知乎论文解读】Search-R1：强化学习如何教会 LLM 自主搜索？

二 convsearch-R1

ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning
代码地址

作者背景
复旦大学，字节跳动，新南威尔士大学

动机
在对话式检索场景中，用户输入的query可能存在歧义、遗漏、共指、错别字等问题，导致系统无法准确捕捉用户意图；query重写（Conversational Query Reformulation, CQR）是一种常用解决方案，核心思想是将带上下文的用户query重写为自包含（能独立表达完整查询意图的文本）形式，再去调用检索器处理。重写后的query显式包含上下文中隐含的信息，并且在实现过程中可以充分复用现有成熟的检索技术

与之前介绍的Search-R1相比，此工作的差异在于：
Search-R1是更通用的推理+搜索模型，未考虑搜索工具的业务特性；而ConvSearch-R1专注于query重写这一话题，更适合检索器不完美的真实业务场景
Search-R1仅以搜索结果与ground truth是否匹配为优化目标；而ConvSearch-R1则基于检索结果排序位置设计奖励，奖励信号更稠密、学习更高效

查看全文

http://www.dtcms.com/a/242641.html