深入理解Embedding技术-什么是Embedding?
核心概念解析
什么是Embedding?
本质定义:
一种将高维度非结构化数据(文本/图像/视频等)映射为低维度连续向量的机器学习技术,构建起现实世界与数学空间的桥梁。
技术特点:
- 生成N维实值向量(典型维度范围:128-4096)
- 保留原始数据的语义特征
- 支持向量运算(如:
King - Man + Woman ≈ Queen
)
资料推荐
- 💡大模型中转API推荐
- ✨中转使用教程
核心价值
# 数据转换示意
输入数据 → Embedding模型 → 向量表示
典型处理流程
- 原始数据输入(文本/图片/视频等)
- 特征提取(NLP中的tokenization,CV中的卷积特征)
- 嵌入层处理(神经网络参数学习)
- 输出固定维度向量
模型演进路线
模型类型 | 技术突破点 | 典型应用场景 |
---|---|---|
Word2Vec | 上下文预测机制 | 词级别语义分析 |
Glove | 全局共现矩阵分解 | 文档主题建模 |
FastText | 子词(subword)表征 | 形态丰富语言处理 |
大模型Embedding | 多模态联合训练 | 跨模态检索 |
主流模型详解
1. Word2Vec
核心架构
- CBOW(连续词袋模型):通过上下文预测中心词
- Skip-gram:通过中心词预测上下文
技术局限
- 无法处理未登录词(OOV)
- 忽略词序信息
2. Glove模型
GloVe 模型损失函数
该公式表示 GloVe (Global Vectors) 模型的优化目标函数:
J = ∑ i , j = 1 V f ( X i j ) ( w i T w ~ j + b i + b ~ j − log X i j ) 2 J = \sum_{i,j=1}^V f(X_{ij}) \left( w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2 J=i,j=1∑Vf(Xij)(wiTw~j+bi+b~j−logXij)2
公式解析:
符号 | 含义 |
---|---|
$ V $ | 词表大小 |
$ X_{ij} $ | 单词i与j的共现频次 |
$ f(X_{ij}) $ | 加权函数(抑制高频词影响) |
$ w_i, \tilde{w}_j $ | 主/辅词向量 |
$ b_i, \tilde{b}_j $ | 偏置项 |
关键设计特点:
- 基于全局词共现统计(非局部窗口)
- 对数变换处理共现频次
- 基于语料库全局统计
- 结合矩阵分解与概率模型优势
- 在词类比任务中表现优异
3. FastText
核心突破
- 字符级n-gram特征提取(3≤n≤6)
- 支持OOV词向量合成
- 训练速度比Word2Vec快5-10倍
4. 大模型Embedding(以text-embedding-ada-002为例)
参数项 | 技术规格 |
---|---|
输入长度 | 最大8191 tokens |
输出维度 | 1536维稠密向量 |
训练数据 | 多语言混合语料库 |
特殊能力 | 支持跨模态对齐 |
资料推荐
- 💡大模型中转API推荐
- ✨中转使用教程
应用优势
- 上下文感知("bank"在金融/地理场景不同编码)
- 零样本迁移学习能力
- 多语言统一向量空间
注:现代Embedding技术已形成传统词嵌入→上下文嵌入→多模态嵌入的演进路径,向量质量提升带来下游任务准确率30%-60%的增长。