当前位置: 首页 > news >正文

0.4、向量、向量维度、向量比较、向量搜索和相关算法

文章目录

  • 1、向量 = 多维数组
  • 2、延伸思考:如何向量化,比较和搜索?
  • 3、详细解答
    • 3.1、总体流程
    • 3.2、常用算法对比
      • 文本分块算法
      • 向量化算法(Embedding Models)
      • 相似度计算算法
      • 向量搜索算法
    • 3.3、向量化算法详细对比
      • OpenAI系列
      • 开源替代方案
      • 何时考虑其他模型

1、向量 = 多维数组

RAG 中一般提到的向量,就是由多个浮点数组成的多维数组。

通过一定的方法,文本可以转化为对应的多维数组。
不同的文本对应不同的多维数组。
通过一定的方法,不同多维数据可以比较相似度,一般会变为 -1到1 之间的一个值。

2、延伸思考:如何向量化,比较和搜索?

一段字符串如何拆为指定长度数组,还有数组的每一个位置的值如何确定?
数组之间如何比较?
以及最后表示为-1到1之间,涉及几个什么算法?
拆分和比较的算法分别是什么?
向量如何搜索?

3、详细解答

3.1、总体流程

原始文本
文本分块算法
向量化处理
N维向量数组
索引算法
向量搜索
相似度算法
相似度计算
排序结果

3.2、常用算法对比

文本分块算法

算法特点适用场景
RecursiveCharacterTextSplitter递归分割,保持语义通用文本
TokenTextSplitter按token分割精确控制
SemanticChunker语义感知分割高质量要求

向量化算法(Embedding Models)

算法/模型维度特点适用场景
text-embedding-3-small1536轻量级,速度快通用文本,成本敏感
text-embedding-3-large3072高精度,效果好高质量要求
text-embedding-ada-0021536经典模型,稳定生产环境
sentence-transformers384-768开源,可定制特定领域
Cohere Embed1024-4096多语言支持国际化应用
OpenAI Embedding1536商业级,稳定企业应用

相似度计算算法

算法公式特点值域
COSINE`A·B / (A×
L2距离√Σ(ai-bi)²欧几里得距离[0,∞)
点积A·B简单快速,无界(-∞,∞)
曼哈顿距离ai-bi`
Jaccard相似度`A∩B/

向量搜索算法

算法特点时间复杂度内存使用
HNSW分层图结构,近似搜索O(log n)中等
IVF倒排文件,聚类搜索O(k)
暴力搜索精确搜索,全量比较O(n)
LSH局部敏感哈希O(1)
PQ乘积量化,压缩存储O(log n)极低

3.3、向量化算法详细对比

OpenAI系列

# text-embedding-3-small 
- 维度: 1536
- 成本:($0.00002/1K tokens)
- 速度:- 精度: 中等
- 适用: 通用场景,成本敏感# text-embedding-3-large  
- 维度: 3072
- 成本:($0.00013/1K tokens)
- 速度:- 精度:- 适用: 高质量要求场景

开源替代方案

# sentence-transformers
- 维度: 384-768
- 成本: 免费
- 速度: 中等
- 精度: 中等
- 适用: 自部署,定制需求# Cohere Embed
- 维度: 1024-4096
- 成本: 中等
- 速度: 中等
- 精度:- 适用: 多语言,企业级

何时考虑其他模型

  • text-embedding-3-large:需要更高精度时
  • sentence-transformers:需要自部署或定制时
  • Cohere Embed:需要多语言支持时
http://www.dtcms.com/a/541814.html

相关文章:

  • 无SDK API,可自定义API C++开发的脚本语言源码编译过程
  • 广州网站搭建哪家好公司网站报价
  • 网站 单页做网站需要用到什么
  • 硬件与软件交互全解析:协议、控制与数据采集实践
  • 国内外网站建设2017php网站怎么做的
  • 离石古楼角网站建设合肥有哪些做网站的公司
  • 二叉树的锯齿形层序遍历
  • Java8:新日期时间
  • Java_String对象特性
  • 网站做app的软件有哪些360安全浏览器
  • 网站建设 互成网络amp 网站开发
  • 网站app免费生成软件下载免费 片
  • USB基础知识--Endpoint与pipe
  • SpringBoot拦截器实战与原理剖析
  • 把握智能语音风口:云蝠智能【声・纪元】VoiceAgent 实时语音智能论坛邀您同行
  • 一文吃透二叉树、完全平衡树、红黑树原理及C语言实现
  • 做网站用别人的图片沈阳设计公司排名
  • 浙江自己如何做网站wordpress 做后台
  • 网站 模板下载陕西富通建设有限公司网站
  • 淄博高效网站建设免费网站建站模板
  • Bootstrap4 Jumbotron详解与使用指南
  • IoT技术在产线实践中的应用
  • 合格VR大空间企业:核心要素有哪些?
  • 06.OpenStack网络管理
  • C++学习记录(23)智能指针
  • 网站内容策划方案wordpress底部版权信息修改
  • python 在class中几种函数的定义和用法
  • 电商数据中台基石:通过 API 构建淘宝商品实时数据源
  • 川崎机器人焊接电源气体省气
  • 理想汽车基于 Hologres + Flink 构建万亿级车联网信号实时分析平台