当前位置: 首页 > news >正文

大语言模型学习--向量数据库基础知识

1.向量

向量是多维数据空间中的一个坐标点。

向量类型

图像向量 文本向量  语音向量

Embedding

非结构化数据转换为向量过程

通过深度学习训练,将真实世界离散数据,投影到高维数据空间上,通过数据在空间中间的距离体现真实世界的相似度

Vector Embedding 向量嵌入

将非数值词语符号等非结构化数据编码成数值向量

Word Embedding 词嵌入

通过NN学习,文本中词语作为NN输入,输出对应词向量 Word Vector。词向量是一个数值向量,每个数值代表词语的某个特征

向量的每个数值表示某个特征,只要向量足够大,特征区分足够明显

2.向量数据库

向量数据库为向量数据提供专用的存储和索引机制

向量数据被存储为高维空间中的点

向量数据库发展阶段

向量存储类型

1.私域知识 Domain Knowledge

可以把向量数据库作为大模型的外挂知识库

2.本地存储 Local Storage

将向量数据存储到本地

3.长期记忆 Long Time Storage

大模型具有短期记忆,具有上下文信息数量限制。

向量数据库作为外部数据库 存储单次上传的超大文本 对外内容等信息,为大模型提供理论上没有上限的长期记忆

向量数据库作用

1.相似性搜索

根据向量距离或相似性对向量数据进行快速准确的相似性搜索,即可以根据语义或者上下文含义查找最相似或相关的数据

2.提升性能

相似度计算 相似性搜索 高效存储 分布式

向量数据库评价指标

1.准确率   

检索相关的向量/检索出向量总数

2.召回率

检索相关的向量/向量数据中相关的向量总数

3.每秒平均吞吐

每秒向量数据库能够处理的查询请求次数

4.平均响应延迟

请求平均响应时间

向量相似度计算

向量索引

向量数据库索引分类

按照数据结构

哈希索引

树索引

图索引

倒排文件索引

按照量化压缩

相似性搜索算法

相似性搜索算法

向量数据量应用场景

图像相似性搜索

视频相似性搜索

音频相似性搜索

推荐系统

问答系统

混合搜索系统

大模型与向量数据库

当前主流向量数据库

2024年精选推荐的16个向量数据库:提升你的AI应用性能-CSDN博客

相关学习资料

三天搞定【大模型系列】之向量数据库教程(搭建、原理、实战)_哔哩哔哩_bilibili

【上集】向量数据库技术鉴赏_哔哩哔哩_bilibili

【下集】向量数据库技术鉴赏_哔哩哔哩_bilibili

相关文章:

  • 本地运行Manus的替代方案:OpenManus的技术解析与实践指南
  • 【入门级篇】Dify安装+DeepSeek模型配置保姆级教程
  • 避免魔法值和多层if的关键:编程范式和设计模式
  • 关于优化B站关键词排名策略
  • FPGA学习篇——Verilog学习3(关键字+注释方法+程序基本框架)
  • VC++ 获取目的IP的路由
  • python导入语句的几点说明
  • OpenCV计算摄影学(14)实现对比度保留去色(Contrast Preserving Decolorization)的函数decolor()
  • TypeError: Cannot create property ‘xxx‘ on string ‘xxx‘
  • HTTP 与 HTTPS 协议:从基础到安全强化
  • C语言学习知识点总结(适合新手/考试复习)
  • 项目--高并发CPP内存池,低配版本
  • 【人工智能】Deepseek 与 Kimi 联袂:重塑 PPT 创作,开启智能演示新纪元
  • springBoot集成声明式和编程式事务的方式
  • Python基于Django的图书馆管理系统【附源码、文档说明】
  • RangeError: Invalid array length
  • linux0.11内核源码修仙传第五章——内存初始化(主存与缓存)
  • 高颜值多端适用软件:兼具屏保功能,PC 端登录可用
  • 数据结构(队列)
  • DeepSeek-R1本地化部署(Mac)
  • 芜湖网站优化公司/小说推广平台有哪些
  • 写作网站5妙不写就删除/商旅平台app下载
  • 营销方案 网站/云南百度公司
  • 德育工作网站建设方案/百度指数的功能
  • 佛山最好的网站建设公司/信息流优化师工作总结
  • 网站301的作用/营销策划书模板范文