当前位置: 首页 > news >正文

AI的外挂知识库,RAG检索增强生成技术

AI的外挂知识库,RAG检索增强生成技术 

什么是RAG,它有什么用,RAG的全称是Retrieval-Augmented Generation的缩写,翻译成中文是检索增强生成,目的是为了补充大模型所缺少的数据与信息而开发的技术,它可以解决AI在处理问题时,自身缺少相关数据与信息的问题

那么为什么要有RAG技术,因为AI所有的知识与认知,都来源于学习训练时的数据,一旦学习训练完成,那么AI的知识与认知就将止步于训练所提供的数据,当前任何一个AI都还没有自我学习与进化的能力,无法在发布后自行的更新知识与认知,所以一旦训练停止,AI的认知也就不会再发生变化,除非我们再次对AI进行更多的训练。一旦我们的问题涉及到训练数据以外的数据时,它就无法进行回答,因为它自身缺少相应的数据与信息

这里插一句,最近看到一些人反馈,deepseek的回答没有发布时那么好了,觉得deepseek是被这段时间的中文互联网信息给污染了,这很明显是对当前的大模型不了解得出的结论,因为当前所有的大模型都还不具备自我学习进化的能力,所以它也不可能被污染,回答没有那么好的原因可能是对程序进行了调整导致的

我们又如何使用RAG技术呢,通过建立知识库的方式我们可以为AI提供一个外挂的信息源,将相关的文件上传到知识库,再对知识库内的文件进行向量化,向量化后的知识库,就可以成为AI的知识库,一旦AI要解决问题它就可以到这个知识库来查找信息,再将找到的信息拿去理解与分析,这样就补足了AI在处理问题时,自身缺乏相关数据与信息的问题

比如我有写技术文档的习惯,但这些文档只在我的电脑内,这时我如果要对这些文档进行一个总结,用常规的方式将会耗费大量的时间与精力,要快速得到结果,通过RAG技术我只需要将这些文档上传到知识库,再将这些文档向量化后提供给AI,那么AI就可以很快根据我的要求对我的文档进行总结,这就是技术带来的生产效率的提升

RAG看起来不错,补齐了AI自身缺失相关的信息问题,那么它本身有什么问题吗,当然有,RAG的问题和当前大模型的问题一致,就是可以理解的信息类型太过单一,基本只能理解文本信息,无法对生活工作中常见的表格、图片、图表、声音、视频等信息进行有效理解,一旦知识库里有这些信息,在处理问题时它往往会忽略掉这些信息,导致获取的信息不完整不准确,从而得出错误结论,RAG对多类型信息的理解需要等待相应的算法的完善,才能实现更好的效果,而且RAG还存在召回数据量过少的问题,这导致了其无法对大量数据有全面整体的认知,这是一个比较严重的问题有待解决


文章转载自:
http://bebung.wsgyq.cn
http://afghan.wsgyq.cn
http://ccitt.wsgyq.cn
http://bivariate.wsgyq.cn
http://beggarweed.wsgyq.cn
http://appreciatory.wsgyq.cn
http://airborne.wsgyq.cn
http://automotive.wsgyq.cn
http://altorilievo.wsgyq.cn
http://azole.wsgyq.cn
http://backspace.wsgyq.cn
http://bearbaiting.wsgyq.cn
http://archaistic.wsgyq.cn
http://anthozoic.wsgyq.cn
http://acrawl.wsgyq.cn
http://banda.wsgyq.cn
http://anecdotic.wsgyq.cn
http://beata.wsgyq.cn
http://aeroplanist.wsgyq.cn
http://bagwoman.wsgyq.cn
http://anglomaniac.wsgyq.cn
http://almond.wsgyq.cn
http://candlelight.wsgyq.cn
http://byzantinist.wsgyq.cn
http://beautifier.wsgyq.cn
http://blackboard.wsgyq.cn
http://astigmatism.wsgyq.cn
http://baldwin.wsgyq.cn
http://cheero.wsgyq.cn
http://chiloe.wsgyq.cn
http://www.dtcms.com/a/280337.html

相关文章:

  • 【PTA数据结构 | C语言版】将表达式树转换成中缀表达式
  • 数仓面试题
  • 2025最新国产用例管理工具评测:Gitee Test、禅道、蓝凌测试、TestOps 哪家更懂研发协同?
  • docker停止所有容器和删除所有镜像
  • 从一道题目(阿里2014 Crackme_2)开启unidbg还原算法入门(转载)
  • 强化学习书籍
  • vscode 打开c++文件注释乱码
  • 分布式存储之Ceph使用指南--部署篇(未完待续)
  • Claude 背后金主亚马逊亲自下场,重磅发布 AI 编程工具 Kiro 现已开启免费试用
  • 【交叉编译报错】fatal: not a git repository (or any of the parent directories): .git
  • 分布式全局唯一ID生成:雪花算法 vs Redis Increment,怎么选?
  • 内存的基础相关知识,什么是内存,内存管理
  • 死锁问题以及读写锁和自旋锁介绍【Linux操作系统】
  • Spring 中 @Component和@Bean注解的区别
  • 为何说分布式 AI 推理已成为下一代计算方式
  • SpringBoot 2.x→3.0升级实战:Jakarta EE兼容性改造清单
  • kotlin布局交互
  • Kotlin聚合方法
  • Python 操作Excel工作表:添加、删除、移动、隐藏
  • 前端安全指南:防御XSS与CSRF攻击
  • 给 Excel 整列空格文字内容加上前缀:像给文字穿衣服一样简单!
  • Excel制作玫瑰图
  • PostgreSQL FATAL: sorry, too many clients already 连接数爆满的处理办法
  • excel 通过openpyxl表格下载和插入图片
  • 京东平台商品评论接口接入指南与代码实现
  • 国内大模型技术与应用综述
  • 区块链:以太坊侧链Polygon
  • 日常运维问题汇总-59
  • STL的一些知识点
  • C/C++宏定义中do{}while(0)的妙用