RAG->大模型搜索search-R1
search-r1:让大模型学会自己使用搜索引擎
ConvSearch-R1: 让LLM适应检索器的偏好或缺陷
1 search-R1
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
代码地址
作者背景
UIUC伊利诺伊大学香槟分校,计算机科学系
马萨诸塞大学阿默斯特分校,智能信息检索中心
【知乎论文解读】Search-R1:强化学习如何教会 LLM 自主搜索?
二 convsearch-R1
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning
代码地址
作者背景
复旦大学,字节跳动,新南威尔士大学
动机
在对话式检索场景中,用户输入的query可能存在歧义、遗漏、共指、错别字等问题,导致系统无法准确捕捉用户意图;query重写(Conversational Query Reformulation, CQR)是一种常用解决方案,核心思想是将带上下文的用户query重写为自包含(能独立表达完整查询意图的文本)形式,再去调用检索器处理。重写后的query显式包含上下文中隐含的信息,并且在实现过程中可以充分复用现有成熟的检索技术
与之前介绍的Search-R1相比,此工作的差异在于:
Search-R1是更通用的推理+搜索模型,未考虑搜索工具的业务特性;而ConvSearch-R1专注于query重写这一话题,更适合检索器不完美的真实业务场景
Search-R1仅以搜索结果与ground truth是否匹配为优化目标;而ConvSearch-R1则基于检索结果排序位置设计奖励,奖励信号更稠密、学习更高效