当前位置: 首页 > news >正文

RAG Day05 混合检索

上周学习了索引构建,本周开始学习检索相关。

索引是建立向量数据库时为这个信息提供一个标识,这种标识一般比较短,并且包含这块信息的主干内容,为将来快速检索打下了基础。

检索是希望更快的匹配问题语义和向量数据库的语义,那么语义如何与向量数据库对应也是快速检索的前提条件之一。

语义在向量化的过程中大致分为两类:稀疏向量和密集向量。

稀疏向量指的就是TF-IDF相关技术。他通过一个公式精确的将词频和词对应了起来,给更高的词频分配了更稀疏的向量编码,这个技术的好处是可以精确检索对应相关词条,整个过程具有强的可解释性和更高的效率,缺点是直接忽略未登录词。

密集向量在单词和向量映射之间采用了深度学习模型,从语义本位的角度出发理论上来说,相似语义的向量距离会更近,不相似语义的向量距离会更远。他的优点是通过深度学习的理论无限接近了语义这个理想点,缺点是可解释性差,并且需要大数据和算力。

所谓混合检索就是稀疏检索和密集检索的加权。

利用二者的优势,更加理想化的接近了真实语义。

(代码设计了milvus,很难看懂,脑壳疼。)

学习内容来自Datawhale

还是很感谢开源精神,能写出这么一份高质量的教程也很不容易~

all-in-rag/docs/chapter4/11_hybrid_search.md at main · datawhalechina/all-in-rag · GitHub

http://www.dtcms.com/a/427781.html

相关文章:

  • 网站设计 北京店东莞网站建设的收费
  • 青岛做网站建设哪家好郑州网站建设三牛
  • 阿里巴巴外贸网站登录网络品牌推广策划方案
  • Java Stack(栈)基本使用以及使用场景,常用方法
  • EasyNVR 新功能:非国标设备流转 GB28181 输出,有效解决多场景接入难题
  • Bean的生命周期(二)
  • 智能建站系统怎么更换网站模板泰安网上房地产
  • 免费自助建站哪个平台好本机做网站服务上传到
  • 前端 开发vscode trae idea 热键
  • Perl 引用
  • Linux time
  • 深圳网站建设推广论坛网站设计费报价表
  • 北斗时空安全隔离装置——关键设施“授时安全防火墙”
  • 网站源码上传安装包互联网公司排名前十名名单
  • 新注册公司怎么做网站互联网技术的作用
  • 重庆家居网站制作公司wap购物网站源码
  • 51我们一起做网站知乎网站建设入门书
  • 广西建设厅网站绿色建筑标识网站如何做伪静态页面
  • 做相亲网站德州市住房和城乡建设局网站
  • subprocess 模块
  • HTML网页模板下载 免费html模板网站
  • 爬虫逆向--Day25Day26--京东h5st案例解析
  • 深圳拼团网站建设网页游戏网游
  • 特征值与特征向量与SVD矩阵分解
  • 建设网站站点有哪些步骤网站建设 搜狐
  • Java Deque 和 ArrayDeque(栈的推荐使用) 基本介绍以及使用
  • 网站建设提供资料没有后台的网站怎么做排名
  • 使用BatchNorm偏置填充边界:确保推理一致性与数值稳定性
  • 山东官方网站建设网站配置优化
  • 14. 初识 SPDK