Self - RAG工作步骤
Self - RAG工作步骤
步骤1:根据输入提示和先前生成内容,判断是否增加检索文段,若需要则输出检索标记调用检索模型。
步骤2:同时处理多个检索文段,评估相关性后生成任务输出。
步骤3:生成评论标记批评输出,选择事实准确性和整体质量最优的生成结果。这个过程与传统的RAG不同,后者不管检索是否有必要,都会一律检索固定数量的文档进行生成,并且从不第二次访问生成质量。
此外,Self-RAG为每个部分提供引文,附带自我评估是否输出受文段支持,从而简化了事实验证。
2.2. 训练方式
改进的Self-RAG训练任意的语言模型(LM),以大模型Qwen2.5为例,通过将反思标记整合为来自扩展模型词汇表的下一个标记预测,以生成文本;
①将反思标记整合到原始语料库,通过训练好的评论模型离线插入,降低训练开销。评论模型在特定数据集上进行监督学习。
②提供可定制的解码算法,通过反思token预测定义约束,灵活调整检索频率,满足用户偏好。
受启发于强化学习中使用的奖励模型,通过训练好的评论模型,将反思token离线插入到原始语料库中原始文本中。这消除了在训练过程中托管评论模型的需求,降低了开销。评论模型在一定程度上是在通过提示专有的LLM收集的输入、输出和相应的反思标记数据集上进行监督学习的。尽管从使用控制标记启动和指导文本生成的研究中汲取灵感,但论文训练的LLM在生成输出的一个部分之后使用评论标记来评估自己的预测,作为生成输出的一个组成部分。
改进的Self-RAG进一步提供了可定制的解码算法,以满足硬性或软性约束,这些约束由反思token的预测定义。通过使用反思标记通过基于段的权重线性和作为段分数的算法来定制模型的行为以满足用户的偏好。
改进的Self - RAG是一种将检索与生成相结合的技术。传统的基于检索的方法在获取信息时可能不够精准,而基于生成的方法可能缺乏事实依据。改进的Self - RAG通过优化检索策略和生成模型的融合方式,提高了信息获取和处理的准确性.