AI Agent开发第70课-彻底消除RAG知识库幻觉(4)-解决知识库问答时语料“总重复”问题
开篇
“解决知识库幻觉”系列还在继续,这是因为:如果只是个人玩玩,像自媒体那些说的什么2小时搭一个知识库+deepseek不要太香一类的RAG或者是基于知识库的应用肯定是没法用在企业级落地上的。
我们真的经历过或者正在经历的人都是知道的,怎么可能2小时就搭建完成一个知识库,这能用吗?
有时3周开发完,调试又3周,然后就陷入到了“茫茫无期”的各种幻觉的解决问题上了。
有时为了解决1个幻觉,又引发了另一个幻觉。
动不动调猫娘、到处核对数据、给数据打标、折了东墙补西墙,最终身心俱累,项目方也失去了信心。因此这个系列太重要了,笔者是汇聚了各种失败案例、惨痛教训于这一系列的课程中的。
通过上几篇我们认识到了一种体系化解决、抑制幻觉的打法,即:3R理论,Rewrite->Retrieve->Read,这套理论不只是停留在表面上的“纸上谈兵”,无论是业界还是我在教程中展示出的前后对比效果大家都意识到当使用3R理论去落地时,整体的幻觉几乎被消除到零。这里面既包含了解决:过度拟合(