当前位置：首页 > news >正文

RAG_向量

news 2025/10/31 15:29:17

1.1 基础概念

1.1.1 什么是 Embedding

向量嵌入（Embedding）是一种将真实世界中复杂、高维的数据对象（如文本、图像、音频、视频等）转换为数学上易于处理的、低维、稠密的连续数值向量的技术。

想象一下，我们将每一个词、每一段话、每一张图片都放在一个巨大的多维空间里，并给它一个独一无二的坐标。这个坐标就是一个向量，它“嵌入”了原始数据的所有关键信息。这个过程，就是 Embedding。

数据对象：任何信息，如文本“你好世界”，或一张猫的图片。
Embedding 模型：一个深度学习模型，负责接收数据对象并进行转换。
输出向量：一个固定长度的一维数组，例如 [0.16, 0.29, -0.88, ...]。这个向量的维度（长度）通常在几百到几千之间。

1.1.2 向量空间的语义表示

Embedding 的真正意义在于，它产生的向量不是随机数值的堆砌，而是对数据语义的数学编码。

核心原则：在 Embedding 构建的向量空间中，语义上相似的对象，其对应的向量在空间中的距离会更近；而语义上不相关的对象，它们的向量距离会更远。
关键度量：我们通常使用以下数学方法来衡量向量间的“距离”或“相似度”：
- 余弦相似度 (Cosine Similarity) ：计算两个向量夹角的余弦值。值越接近 1，代表方向越一致，语义越相似。这是最常用的度量方式。
- 点积 (Dot Product) ：计算两个向量的乘积和。在向量归一化后，点积等价于余弦相似度。
- 欧氏距离 (Euclidean Distance) ：计算两个向量在空间中的直线距离。距离越小，语义越相似。

1.2 Embedding 在 RAG 中的作用

在RAG流程中，Embedding 扮演着无可替代的重要角色。

1.2.1 语义检索的基础

RAG 的“检索”环节通常以基于 Embedding 的语义搜索为核心。通用流程如下：

离线索引构建：将知识库内文档切分后，使用 Embedding 模型将每个文档块（Chunk）转换为向量，存入专门的向量数据库中。
在线查询检索：当用户提出问题时，使用同一个 Embedding 模型将用户的问题也转换为一个向量。
相似度计算：在向量数据库中，计算“问题向量”与所有“文档块向量”的相似度。
召回上下文：选取相似度最高的 Top-K 个文档块，作为补充的上下文信息，与原始问题一同送给大语言模型（LLM）生成最终答案。

1.2

http://www.dtcms.com/a/550766.html

相关文章：

如何做网站收录求个a站

南山建网站公司公司网站建站模板模板

光伏项目如何高效施工？

万年历网站做移动互联网网站建设

ROS2使用pixi在win10中的安装

没后台的网站怎么做优化专业网站优化哪家好

绍兴建设网站深圳市城乡和建设局网站首页

做网站月薪10万温州网页制作

RTNETLINK answers: File exists问题分析

网站建设前沿文章iis 网站没有上传权限

怎么用服务器做局域网网站网站推广排名收费

镇江久一信息技术有限公司天津seo网站排名优化公司

Origin绘制美观的极坐标面积图

自适应网站价格农产品网站开发技术方案与设施

网站程序员网站建设多少钱鞋

牡丹江市建设行业协会网站屯昌第三方建站哪家好

做市场调查分析的网站下载软件大全

申请一个网站天河网站建设推广

【深度学习3】线性回归的简洁实现

招商网站建设哪家好济南中桥信息做的小语种网站怎么样

可视化建网站网站关键词和描述

无人机巡护青海湖，AI如何守护西部生态与能源安全？

wordpress短代码可视化常州seo网络推广

网站免费做app专门做萝莉视频网站

呼和浩特网站建设SEO优化做网站的目的是什么

python进阶教程3：内存池、内存分配优化

网站流程图容桂品牌网站建设优惠

程序与工业：从附庸到共生，在AI浪潮下的高维重构

免费的制作手机网站平台wordpress dux主题设置首页

口碑好的网站定制公司wordpress mdtf