当前位置: 首页 > news >正文

Embedding模型

检索的方式有那些

关键字搜索:通过用户输入的关键字来查找文本数据。

语义搜索:它的目标是理解用户查询的真实意图,不仅考虑关键词的匹配,还考虑词汇之间的语义
(文字,语音,语调...)关系,以提供更准确的搜索结果。

向量与Embeddings的定义

在数学中,向量(也称为欧几里得向量、几何向量),指具有大小和方向的量。

它可以形象化地表示为带箭头的线段。

如下图所示

把文本转换成数组的过程叫做向量化。

向量之间的距离对应向量的语义相似度。

箭头所指:代表向量的方向;线段长度:代表向量的大小。

Embedding模型的核心理论

1. 基本思想:从符号到向量

符号表示的问题:传统方法(如One-Hot编码)将文本表示为离散的符号,导致高维稀疏(维度=词汇表大小)、缺乏语义信息(“猫”和“狗”的向量正交,无相似性)。

向量表示的优势:将文本映射到低维连续向量空间,通过稠密向量捕捉潜在语义,使语义相似的文本在空间中距离更近。

2. 理论基础

分布假设(Distributional Hypothesis)

“一个词的语义由它的上下文决定。”(Harris, 1954)
例如,“猫”和“狗”常出现在类似上下文(“宠物”“喂食”),因此它们的向量应接近。

向量空间模型(Vector Space Model)
将文本视为高维空间中的点,语义关系通过向量方向与距离量化。例如:

余弦相似度:方向越接近,语义越相似。欧氏距离:点之间越近,语义越接近。

降维与稠密表示
通过神经网络或矩阵分解,将高维稀疏输入(如One-Hot词向量)压缩为低维稠密向量(如100~1000维),同时保留关键信息。

文本如何转化为浮点数向量(Embeddings)

1. 词级别嵌入(Word Embedding)

输入:一个单词(如“apple”)。

输出:一个固定长度的浮点数数组(如[0.25, -0.1, 0.7, ..., 0.3]),每个维度对应潜在语义特征。

实现方法示例:Word2Vec

Skip-Gram模型:通过中心词预测上下文词,学习词向量。
数学目标:最大化概率

结果:每个词对应一个向量,向量维度由模型预设(如300维),每个下标i的值表示该词在某个潜在语义维度上的强度。

2. 句子/文档级别嵌入(Sentence Embedding)

输入:一段文本(如“I love machine learning”)。

输出:一个浮点数数组,表示整个文本的语义。

实现方法示例:BERT

  1. 分词与输入编码
    将句子分割为子词(如["I", "love", "machine", "learning"]),并添加特殊标记[CLS][SEP]

  2. Transformer编码
    通过多层自注意力机制,生成每个词的上下文相关向量。

  3. 池化(Pooling)
    [CLS]标记的向量(或对所有词向量取平均)作为句子向量。

3. 关键特性

每个下标i对应一个潜在语义维度
例如,第5维可能隐含“情感极性”,第10维可能对应“动作性”,但这些维度不可直接解释,而是通过模型自动学习。

整体向量表示语义
所有维度的组合共同编码了文本的全局语义信息

向量距离与语义相似度的关系

1. 向量距离的计算方法

2. 语义相似度的数学体现

示例

句子A:“猫是一种宠物” → 向量[0.2, 0.8, -0.1]

句子B:“狗喜欢啃骨头” → 向量[0.3, 0.7, 0.0]

句子C:“汽车需要加油” → 向量[-0.5, 0.1, 0.9]

计算余弦相似度

sim(A, B) ≈ 0.95(方向接近,语义相似)

sim(A, C) ≈ -0.2(方向相反,语义无关)

3. 为什么距离能反映语义

训练目标驱动:Embedding模型在训练时强制语义相近的文本在向量空间中靠近

例如:

Word2Vec让共现词的向量接近。

BERT让相同上下文中的词向量相似。

对比学习(如SimCSE)直接优化相似样本的距离。

完整流程示例:从文本到向量

步骤1:文本预处理

分词:将句子分割为词/子词(如使用BERT的WordPiece)。

规范化:转为小写、去除停用词、词干提取(可选)。

步骤2:向量化

选择模型:例如使用预训练的BERT模型。

输入编码

# 使用Hugging Face Transformers库
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

text = "Embeddings represent text as vectors."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)

# 取[CLS]标记的向量作为句子嵌入
sentence_embedding = outputs.last_hidden_state[:, 0, :].detach().numpy()

输出:得到一个768维的浮点数数组(如[0.1, -0.3, 0.8, ..., 0.2])。

步骤3:计算相似度

对比两个句子的向量:

from sklearn.metrics.pairwise import cosine_similarity

# 假设emb1和emb2是两个768维向量
similarity = cosine_similarity(emb1.reshape(1, -1), emb2.reshape(1, -1))
print(similarity)  # 输出范围[-1, 1],越接近1越相似

数学本质总结

文本向量化:函数 f:Text→Rnf:Text→Rn,将文本映射为n维空间中的点。

语义相似度:通过向量空间中的几何关系(方向或距离)量化语义相关性。

模型学习:通过优化目标(如语言模型、对比损失)调整向量位置,使语义相似文本在空间中聚集

关键问题解答

  1. 为什么每个维度没有明确含义?
    模型自动学习潜在特征,这些特征是统计学规律的抽象,而非人工定义(类似神经网络的隐藏层)。

  2. 维度数(n)如何选择?
    经验值:词嵌入常用50~300维,句嵌入常用384~1024维。维度越高,表达能力越强,但可能过拟合。

  3. 如何保证不同文本的向量可比?
    所有向量必须由同一模型生成,且经过相同的归一化处理(如L2归一化)。

向量(嵌入)模型

text-embedding-3-large 是一种文本嵌入模型,它属于深度学习模型的一种,专门用于将文本转
换为高维向量(也称为嵌入)
向量之间能够捕捉文本的语义信息,使得相似的文本在向量空间中彼此接近。
text-embedding-3-large 的维度为 3072。

文本向量化

from openai import OpenAI#从 openai 库中导入 OpenAI 类。
client = OpenAI()#client 变量是 OpenAI 的一个实例对象,代表与 OpenAI 服务器的连接。

# 嵌入模型
res = client.embeddings.create(
    input="你好啊,我好,他好",
    model="text-embedding-3-large"
)

# 向量数据
print(res.data)
print("--------------------")

# 获取文本向量 => 列表推导式
print([x.embedding for x in res.data])
print("--------------------")

# 获取向量的维度,就是向量的长度
print(len([x.embedding for x in res.data][0]))

client.embeddings.create(...)

embeddings:访问 OpenAI 客户端的 embeddings API。

create(...):调用创建嵌入向量的 API 方法。

print([x.embedding for x in res.data])
print("--------------------")

res.data:存储 API 返回的嵌入向量结果,通常是一个列表,包含多个嵌入向量对象。

for x in res.data:遍历 res.data 中的每个元素(x)。

x.embedding:提取每个 x 对象中的 embedding(嵌入向量)。

结果是一个嵌套列表,每个嵌入向量都是一个数值列表(浮点数)。

示例输出:

[[0.123, -0.456, 0.789, ...]]

外部 []:表示一个 Python 列表。

内部 []:嵌入向量,是高维度数值数组,通常用于机器学习任务。

print(len([x.embedding for x in res.data][0]))

[x.embedding for x in res.data]:

生成一个包含所有嵌入向量的列表,假设只有一个文本,则 res.data 只有一个元素,所以 res.data[0] 是一个对象,res.data[0].embedding 是一个向量(列表)。

[x.embedding for x in res.data][0]:

取出第一个向量。

len(...):

len() 计算该向量的长度,即其维度数。

相关文章:

  • (二)趣学设计模式 之 工厂方法模式!
  • 行业分析---对自动驾驶规控算法未来的思考
  • 【02.isaac-gym】最新从零无死角系列-(00) 目录最新无死角环境搭建与仿真模拟
  • VMware vSphere数据中心虚拟化——vCenter Server7.0集群配置vSAN存储
  • 无人机避障——Mid360+Fast-lio感知建图+Ego-planner运动规划(胎教级教程)
  • 【pytest-jira】自动化用例结合jira初版集成思路
  • Rust 语法噪音这么多,是否适合复杂项目?
  • 【DeepSeek 行业赋能】从金融到医疗:探索 DeepSeek 在垂直领域的无限潜力
  • Spring Boot 概要(官网文档解读)
  • JavaScript数组方法reduce详解
  • 1.1 go环境搭建及基本使用
  • PHP约课健身管理系统小程序源码
  • SpringSecurity基于注解实现方法级别授权:@PreAuthorize、@PostAuthorize、@Secured
  • python-leetcode-环形链表 II
  • Web刷题之PolarDN(简单)
  • Uniapp 开发中遇到的坑与注意事项:全面指南
  • Linux基础指令
  • 达梦数据库-寒假实训
  • 深入浅出:基于SpringBoot和JWT的后端鉴权系统设计与实现
  • vue2.x 中父组件通过props向子组件传递数据详细解读
  • 五一假期首日,上海外滩客流超55万人次
  • 亚马逊一季度利润增超六成:云业务增速放缓,警告关税政策或影响业绩指引
  • 产假工资是谁出?女职工生育能领多少生育津贴?解答来了
  • “五一”假期首日跨区域人员流动预计超3.4亿人次
  • 经济日报社论:书写新征程上奋斗华章
  • 美国第一季度经济环比萎缩0.3%