当前位置: 首页 > news >正文

网站建设需要的材料wordpress自带的404

网站建设需要的材料,wordpress自带的404,wordpress页面属性排序,名人朋友圈网页版qq登录入口最近一直做大模型RAG(检索增强)相关的一些事情,现阶段模型还没办法做到足够智能,需要有RAG(检索增强)进行一些能力加强,特别是一些事实类和实时类的信息 之前聊过RAG如何切块的问题,我们在实践过程中也落地了很多策略,…

        最近一直做大模型RAG(检索增强)相关的一些事情,现阶段模型还没办法做到足够智能,需要有RAG(检索增强)进行一些能力加强,特别是一些事实类和实时类的信息

之前聊过RAG如何切块的问题,我们在实践过程中也落地了很多策略,比如我们发现在某些场景下较小的query和较小的块匹配精准度更好一些,但是较小的块容易遗漏很多上下文信息,所以我们尝试先将文本切成不同size 的块,小块和大块之间有一定的关联,然后用小块做embedding匹配,然后再query找小块对应的大块,这样既兼顾了准确性也考虑到了充足的上下文,整体效果还不错。

llamaindex中retrieve策略之BM25Retriever

BM25Retriever是一个词袋模型,简单介绍一下词袋模型向量化的思路,大体是这样的:

1、先将文本进行分词,有很多开源优秀的分词器,大家自行搜索

2、将这些分词进行去重整理,得到的所有词组成的集合可以理解成是一个词袋

3、query和文本向量化时,看一下词袋中的词在这个query中是否出现,如果出现标记为1,不出现标记为0,这样就可以将任意一个文本转成N维的向量(N维即分词的数量,一般情况下用所有分词结果可能会有维度不可控的风险,所以词袋一般会选前k个经常出现的词汇作为词袋)

词袋模型比较简单,它的缺点主要在于原文本的词序信息会丢失,所以我们目前暂时没有使用过词袋模型,llamaindex正好实现了这个策略,顺便看了一下,有需要的可以自己去读读源码

llamaindex中retrieve策略之AutoMergingRetriever

AutoMergingRetriever策略其实就有点类似我前文说的切块策略了,先将文本切成不同size的块,然后在向量匹配相似度阶段,如果匹配的结果是小块,会尝试和它对应的大块进行merge,思想差不多,我们简单看一下如何使用:

1、使用HierarchicalNodeParser进行切块,当然你可以自己来实现分层切块的策略,默认值下会切成3层,第一层chunk size 2048,第二层512,第三层128;

2、查相似结果时,先用正常向量相似度匹配的结果作为基础查询结果

3、然后使用大小块之间的关联关系尝试合并,我们简单看一下这块的源代码

先查基础节点,然后再尝试合并节点,合并代码:

核心的几步:

1、如果当前父节点下相似的小块占比(可自定义)比较高的时候,开始尝试合并

2、合并比较简单,其实就是平均一下所有相似小块的打分作为父节点的打分

3、添加父节点也就是大块,然后把属于这个大块的小块都删除

RAG(检索增强)终究还是一个辅助作用,一定要合理的使用,最好的情况是模型足够智能不需要RAG,又或者是模型自己来决策使用什么样的策略来提高它自己的准确性,否则又做会了传统的检索系统,大模型的能力会被掩盖

http://www.dtcms.com/a/437983.html

相关文章:

  • MPAndroidChart 用法解析和性能优化 - Kotlin Java 双版本
  • Qt中使用日志---Log4Qt
  • linux centos 7 解决终端提示符出现-bash-4.2的问题
  • MCP模型上下文协议实战:个人应用项目如何集成MCP?
  • Vue--Vue基础(一)
  • 外贸网站推广如何做郑佩佩 最新消息
  • 用VScode和msys2配置C/C++和wxWidgets
  • 【升级安卓9教程】华为Q21_Q21A_Q21C_Q21AQ_Q21AE_hi3798mv200线刷烧录包带adb权限
  • vite vue 打包后运行,路由首页加载不出来
  • 《C++ STL:vector类(下)》:攻克 C++ Vector 的迭代器失效陷阱:从源码层面详解原理与解决方案
  • 微软Agent框架深度解析:重新定义AI应用开发的革命性架构
  • 微信看视频打赏网站建设项目立项流程图
  • 爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
  • [工作流节点8] 更新记录节点应用案例 —— 业务自动化的关键一环
  • MySQL表的内连和外连
  • go 基础
  • 鸿蒙开发3--UI布局(玩转鸿蒙的Row、Column与Stack容器)
  • 为什么要给企业建设网站做单位网站
  • ML4T - 第7章第8节 利用LR预测股票价格走势Predicting stock price moves with Logistic Regression
  • 性能之巅:大小水管问题深究
  • css选择器(继承补充)
  • 郑州高新区做网站的公司聚美优品的电子商务网站建设论文
  • uniapp集成语音识别与图片识别集成方案【百度智能云】
  • SpringCloud API Gateway2.0如何解决docker中应用间IP漂移的正确手法
  • 鸿蒙Next中使用mDNS发现局域网服务:完整指南与实战
  • 长泰建设局网站注册网站多久
  • 孝感网站开发江苏建设服务信息网站
  • 数据分析概述与环境搭建
  • 易语言网站怎么做帕绍网站建设
  • vue3父组件和子组件之间传递数据