当前位置: 首页 > news >正文

检索增强生成:RAG(Retrieval Augmented Generation)

  • 什么是 RAG?
  • 为什么使用 RAG?
  • LLM 微调 和 RAG?
  • 实战

什么是 RAG?

RAG 在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中被引入,原论文是这样描述的:

探索了一种 通用的 检索增强生成(RAG)微调方案 —— 这种模型结合了 预训练的参数化记忆非参数化记忆,用于语言生成。提出的 RAG 模型中,参数化记忆是一个预训练的 seq2seq 模型,而 非参数化记忆是一个由预训练神经检索器访问的维基百科稠密向量索引

以提示“地球上的第一种哺乳动物是什么时候出现的?”为例,RAG 可能会提取关于“哺乳动物”、“地球历史”和“哺乳动物进化”的文档。这些支持性文档随后被连接为上下文,与原始输入一起输入到 seq2seq 模型中,该模型生成实际输出。
因此,RAG 拥有两种知识来源:seq2seq 模型在其参数中存储的知识(参数化记忆)以及 RAG 从文档库中检索到的段落所存储的知识(非参数化记忆)

在这里插入图片描述
图 1:概览。将一个预训练的检索器(查询编码器 + 文档索引)与一个 预训练的 seq2seq 模型(生成器)相结合,并进行端到端微调。对于查询 xxx,我们使用 最大内积搜索(MIPS)找到前 KKK 篇文档 ziz_izi。在得到最终预测 yyy 时,将 zzz 视为潜在变量,并对不同文档下的 seq2seq 预测结果进行边际化处理。

每个步骤可以大致分解为:

  • 检索:根据查询从源中寻找相关信息。例如,根据问题从数据库中获取相关的维基百科文本段落。
    • 构建/索引文档库(预处理):把外部知识源(比如维基百科)拆分成文档/段落编码成向量建立检索索引(如向量索引,支持 MIPS/ANN 查询)。
    • 查询编码与检索把输入查询 xxx 用检索器的查询编码器编码,进行向量检索,返回前 KKK 个最相关的文档 z1,...,zKz_1,...,z_Kz1,...,zK
  • 增强:使用相关检索到的信息来修改输入到生成模型(例如 LLM)中的内容。将检索到的文档与生成器结合,即把检索到的文档作为 条件信息 喂入 预训练的 seq2seq 生成器。这里有两种常见形式:
    • RAG-Sequence(或 RAG-固定):对整个输出序列都使用同一组检索段落作为上下文。
    • RAG-Token(或 RAG-逐 token):生成每个 token 时可使用不同的检索段落(更细粒度)。
  • 生成:根据输入生成输出。例如,在 LLM 的情况下,根据输入提示生成一段文本。
    • 生成与边际化(推理):将文档 zzz 视为潜在变量,计算最终输出的概率为对不同检索文档的边际化 p(y∣x)=∑zp(z∣x)p(y∣x,z)\;p(y|x)=\sum_z p(z|x)\,p(y|x,z)p(yx)=zp(zx)p(yx,z)。实现上可以对每个 ziz_izi 生成 p(y∣x,zi)p(y|x,z_i)p(yx,zi) 再加权求和,得到最终预测。
    • 端到端微调(训练):将检索器(查询编码器)和生成器一起端到端微调,使得检索更契合生成任务、生成更能利用检索到的证据。训练时通常会最大化边际似然或相应损失。
    • (可选)输出后处理与可追溯性:返回生成文本同时附加证据来源(即用到的检索片段),便于验证与更新知识库。

RAG 流程组件概述:摄取和查询流程
在这里插入图片描述

为什么使用 RAG?

Retrieval Augmented Generation: Streamlining the creation of intelligent natural language processing models

LLM(大型语言模型)的参数,本质上代表了人类使用词语构造句子的一般模式。参数化的知识让 LLM 在回答通用问题时非常有用,但对于想深入探索某类特定信息的用户来说,这种方式并不够。

RAG(检索增强生成)可以将生成式 AI 服务与外部资源连接起来,尤其是那些包含最新技术细节的资源。它被称为一种“通用微调方案”,因为几乎任何 LLM 都可以用它来连接几乎任何外部资源。

  • 使用自定义数据。许多 基础 LLMs 使用互联网规模文本数据进行训练。这意味着它们具有强大的语言建模能力,然而,它们 通常缺乏特定领域的知识。RAG 系统可以向 LLMs 提供 特定领域的数据,如医疗信息或公司文档,从而 根据特定用例定制它们的输出
  • 确保数据隐私。这对企业至关重要,敏感数据可以与存储数据一样保留在本地
  • RAG 会为模型 提供可引用的来源,就像科研论文中的脚注一样,让用户能够核查模型的说法。
  • 防止幻觉。LLMs 非常出色,但它们容易产生潜在的幻觉,也就是说,生成看似正确但实际上不正确的内容。RAG 管道可以通过提供事实性(检索到的)输入来帮助 LLMs 生成更符合事实的输出。即使从 RAG 管道生成的答案看起来不正确,由于检索功能,也可以获取其来源的资料。
  • RAG 的真正优势在于其灵活性改变预训练语言模型所知的内容需要用新文档重新训练整个模型。而使用 RAG,只需更换其用于知识检索的文档,就能控制它所知的内容。通过用旧版维基百科数据集替换原始数据集,并询问诸如“冰岛的总理是谁?”等问题来测试这一行为。结果显示,RAG 利用替换进来的语料库中的知识调整了其答案,尽管参数化知识保持不变。这种适应方法在事实随时间变化的情况下非常有价值。

RAG 也可以是一个比在特定数据上微调 LLM 更快的解决方案。

LLM 微调 和 RAG?

LLM 微调(Fine-tuning)在下游数据上更新模型参数,使模型直接 在内部参数中编码任务或领域知识。包括全量微调,也包括参数高效微调(如 LoRA、Prompt-Tuning、Adapters 等,统称 PEFT)。LoRA 是典型方法之一,能显著减少可训练参数并节省显存。

RAG(Retrieval-Augmented Generation):把 外部非参数化知识库(文档/段落向量索引)与生成模型结合,在 推理时检索相关文档并以此条件化生成,生成端对不同检索结果做边际化或融合以产出答案;检索库可以独立更新,从而实现 更新知识而不重训模型。RAG 在知识密集型任务上被提出并验证效果优于仅参数化模型。

维度LLM 微调(全量/PEFT)RAG(检索增强生成)
知识存储位置模型参数(内隐)外部索引(显式)+ 模型(局部决策)
更新知识需重训或增量微调更新索引即可(无需重训模型
推理延迟较低(单次前向)增加检索与文档处理延迟(检索/编码/聚合)。
计算/成本(训练)全量微调高;PEFT 低(显存 & 存储节省)检索器训练 + 生成器微调(可仅微调生成器或与检索器联合微调),索引构建有成本
可解释性 / 溯源较差(内部权重难溯源)好:可返回支持文档作证据
抗幻觉 / 事实准确性依赖模型及数据;难以快速修正错误更易 grounding,若检索到高质量文档,生成更事实性
小样本/数据效率PEFT 在少数据下表现好依赖检索质量;在少标注下可借外部知识补充
工程复杂度相对简单(若仅单模型部署)复杂:需索引/检索服务、向量数据库、检索器与生成器协同
最佳适用场景任务固定、知识静态、可承受模型更新成本知识频繁更新、需要来源/可解释性、知识密集型 QA 与事实生成

实战

本地 RAG 教程
使用 smolagents、LlamaIndex、LangGraph 来构建 RAG 工具的完整例子,见 HF Agent Course

http://www.dtcms.com/a/323704.html

相关文章:

  • doubletrouble靶机通关练习笔记
  • 数学与应用数学:到底有啥区别?
  • 【LLM】大模型投机采样(Speculative Sampling)推理加速
  • 基于麦克风阵列电机噪声振动监测解决方案技术解析
  • C++算法练习:单词识别
  • 前端面试专栏-面试实战:33. 简历撰写技巧与优化
  • Linux操作系统如何不进入图形化界面
  • 鸿蒙开发中的Tabs组件详解
  • Java中Lambda表达式的常见用法和解析:从入门到实战
  • 嵌入式软件工程师笔试题(二)
  • 关于C语言本质的一些思考
  • PAT 1053 Path of Equal Weight
  • 力扣-41.缺失的第一个正数
  • 三极管在电路中的应用
  • 如何有效追踪您的关键词搜索排名
  • USRP B210 N210 X310 参数对比
  • Vue3 生命周期
  • 【文献阅读】我国生态问题鉴定与国土空间生态保护修复方向
  • 3.5.1_2 信道划分介质访问控制(下)
  • Java 大视界 -- Java 大数据在智能家居场景联动与用户行为模式挖掘中的应用(389)
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘fastai’问题
  • TSMASTER二次开发:TSMaster_On_Event_Demo.py解析
  • 深度学习之张量
  • ros2 单线程与多线程
  • MySQL相关概念和易错知识点(4)(分组查询、连接查询、合并查询、子查询)
  • M8-11 RFID模块通过RS485转Profinet网关与PLC通信的配置指南
  • springboot 2.4跨域变化和swagger结合的问题
  • 智能的本质
  • 递归---记忆化搜索
  • 前端Web在Vue中的知识详解