当前位置: 首页 > news >正文

rag:给大模型更精确的开端

1.一句话总结

RAG(检索增强生成)是一种技术架构,通过在大语言模型生成内容前先检索外部权威知识库,实现生成的回答更准确、更有依据,解决了传统大语言模型知识过时“幻觉”问题,从而提升了生成内容的可靠性和实时性效果

2.生成式大模型现存问题

生成式大模型训练以及生成文本的原理:训练时,模型学习给定前面词汇序列条件下下一个词出现的概率;推理时则是一步步地从左到右生成文本,当前词只能依赖已生成的前词,不能偷看未来的词。

知识过时

大语言模型知识过时问题主要源于训练数据的时效性限制

  • 模型通常基于大量静态历史数据离线训练,缺乏动态更新机制

  • 数据分布漂移,使模型回答存在偏向性

  • 缺乏热更新

幻觉

RAG减少幻觉不是因为检索结果比例大,而是它强化了模型对真实检索内容的依赖,将生成过程从单纯基于先验概率转为基于动态事实辅助的概率生成

“幻觉”问题是指模型生成了不真实或错误的信息,本质是因为大模型是基于概率生成:

  • 这主要源自训练数据中的错误和偏差

  • 特定领域和快速变化的事实知识上

  • 缺乏可验证的外部信息支持,容易产生虚假陈述或捏造事实,表现为“知识幻觉”

幻觉可分为

  • 事实性幻觉:生成的内容与可验证的现实世界事实不一致

  • 忠实性幻觉:生成的内容与用户指令或上下文不一致

总结下:知识过时 + 基于概率生成回答是大模型现存问题的主要原因

3.rag的原理

大模型推理时,第一个词的产生基于用户输入的prompt或上下文

检索增强生成 (RAG) 是一种 AI 框架,它结合了两种技术;

  • 它从数据库、文档或 Web 等外部源检索相关信息。(信息检索系统)

  • 收集到相关信息后,就会将其用于指导和增强生成的回复。(生成式语言模型)

信息检索系统
  • 数据可能以各种格式存在,例如文件、数据库记录或长篇文本,通过API、数据库或文档存储库获取。

  • 嵌入语言模型技术将数据转换为数字表示形式并将其存储在向量数据库中。这个过程会创建一个生成式人工智能模型可以理解的知识库。

向量数据库解决问题:

  • 传统文本数据库检索效率

    • 非向量数据库:依赖关键词进行精确匹配,面对海量数据时,检索时间长

    • 向量数据库:向量索引结构(如HNSW、IVF-PQ)可在超大规模数据中实现O(log n)甚至接近O(1)的检索时间,大幅提升查询速度,响应时间由秒级降到毫秒级

  • 语义匹配准确性

    • 非向量数据库:基于关键词或字符匹配。难以理解语义丰富、模糊或多义的内容。例如“电脑维修”与“计算机维护”可能被理解为不同,关键词匹配无法捕捉到语义上的相似关系

    • 向量数据库:基于高维特征相似性进行匹配。即使关键词不同,只要语义相近,它们的向量距离就很小。这使得检索能够理解相似内容而非只依赖字符匹配,从而显著提高召回率和匹配的自然性。例如,“上午吃饭了吗”和“我早餐吃过了”在向量空间中距离很接近,能准确匹配

什么是向量:一组有意义的数字,就像给事物贴上了一串特征标签,这些特征变成了一组数字。通过这些数字,计算机可以理解和比较不同事物的相似性。

  • 苹果的向量可能是[红色: 0.92, 甜度: 0.83, 圆形: 0.78] => 928378

  • 草莓的向量可能是[红色: 0.85, 甜度: 0.75, 圆形: 0.62] => 857562

为什么需要rag

训练大模型很贵,但是更新知识库不贵

你是一个客服助手。用户问题:什么是Python?相关知识片段:
[检索内容] Python 是一种高级编程语言,由 Guido van Rossum 创建于 1991 年...请基于上述知识片段回答用户的问题。

LLM在生成回答时可以参考知识库的相关知识或直接使用知识库知识作为输出,相当于实现了LLM推理能力 + 具有时效性知识的结合。

RAG通过将知识的时效性保障从模型训练本身转移到外部知识库的维护上,大幅降低了更新成本

RAG 与提示词工程的对比 提示词工程需要编写模型需遵循的一系列指令,以便在用户进行查询时生成预期输出。与 RAG 相比,提示词工程所需的数据较少,且成本较低,但无法基于最新信息或不断变化的信息生成输出。此外,输出的质量取决于提示词的措辞,这意味着响应内容可能会不一致

适合使用RAG的场景

这些场景的共同特点是需要实时准确的外部信息、结构化的知识库、快速决策响应、以及领域专业性强,同时又没有或者不适合专门为这个领域训练单独的大模型.

  1. 智能客服系统:通过RAG检索企业知识库、产品手册和常见问题,实时准确回复客户咨询,24小时提供一致的服务。

  2. 企业知识管理:员工通过自然语言对话快速查询内部文档、规章制度、项目资料等,提升工作效率。

  3. 法律咨询助手:检索法律数据库、判例法和法规,帮助律师快速生成法律意见书和案件分析报告。

  4. 医疗诊断决策支持:医生通过RAG检索最新医学研究、临床指南和患者病历,辅助诊疗决策。

  5. 在线教育平台:学生提问时,系统检索相关教学资源和类似题目解法,生成个性化的学习建议和解答。

  6. 金融分析和报告:检索市场数据、公司财报、经济指标等,为投资者生成数据驱动的分析报告。

  7. 技术文档支持:工程师遇到问题时,系统检索技术文档、论坛讨论、已知问题列表,快速提供解决方案。

  8. 内容创作辅助:撰写者在创作时,RAG检索相关资料、数据、引文,确保内容准确丰富。

  9. 设备故障预防维护:检索历史维修记录和设备技术文档,预测设备故障并生成维护建议。

  10. 个性化推荐系统:检索用户购物历史和偏好,结合最新库存和促销信息生成精准推荐。

RAG MCP的区别

RAG:通过外部知识库(向量检索等)增强大语言模型回答的准确性和相关性,主要用于“补知识”,适合知识问答、长文摘要等文本生成任务

MCP:用于管理大语言模型与外部工具和数据的交互,支持模型调用结构化接口执行操作,实现模型能力从单纯回答提升到会办事

参考文献:

什么是 RAG(检索增强生成)?

一文看懂RAG是什么

http://www.dtcms.com/a/569652.html

相关文章:

  • Linux权限(5)
  • CVE-2025-4334 深度分析:WordPress wp-registration 插件权限提升漏洞
  • 【题解】洛谷 P3980 [NOI2008] 志愿者招募 [最大流最小费用]
  • Fastapi服务在高并发情况下大量超时问题排查
  • 分类与回归算法(二) - 线性回归
  • 中国建设银行官网站企业企业信息网查询
  • [创业之路-709]:管理与经营的异同
  • 网站的数据库在哪里专业上海网站建设
  • 使用IOT-Tree Server通过S7 Eth协议连接西门子PLC S7-1200
  • 59网一起做网站如何把字体安装在wordpress
  • PostgreSQL 之上的开源时序数据库 TimescaleDB 详解
  • wordpress网站投放广告网站后台管理图片
  • 查询域名网站软文写作是什么意思
  • TCN-Transformer-GRU时间卷积神经网络结合编码器组合门控循环单元多特征分类预测Matlab实现
  • 类和对象(中):深入理解 C++ 类与对象:6 个默认成员函数核心解析
  • 中山哪里有做微网站的中国经济网
  • win11蓝屏笑脸提示重启怎么回事 蓝屏重启解决方法
  • 佰力博检测与你探讨压电薄膜介电/阻抗-频谱的应用领域有哪些
  • 长沙教育类网站建设好兄弟资源网
  • C++:哈希表的实现
  • 本地化部署后定制解决方案
  • Java中的WebSocket与实时通信!
  • SQL server创建数据表
  • MacOS-Terminal直接command解压缩文件文件夹
  • GIM 模型转 GLB 模型:从格式适配到前端渲染的完整方案
  • 什么是网站平台开发wordpress链接优化
  • 软件测试——自动化测试概念
  • 大模型-详解 Vision Transformer (ViT)
  • 建站公司互橙知乎郑州seo哪家专业
  • 09-ubuntu20.04 执行 apt update时报错,是因为官网已停止维护不再更新的缘故吗?