当前位置：首页 > news >正文

深入理解Embedding技术-什么是Embedding？

news 2025/7/4 6:42:42

核心概念解析

什么是Embedding？

本质定义：
一种将高维度非结构化数据（文本/图像/视频等）映射为低维度连续向量的机器学习技术，构建起现实世界与数学空间的桥梁。

技术特点：

生成N维实值向量（典型维度范围：128-4096）
保留原始数据的语义特征
支持向量运算（如：King - Man + Woman ≈ Queen）

资料推荐

💡大模型中转API推荐
✨中转使用教程

核心价值

# 数据转换示意
输入数据 → Embedding模型 → 向量表示

典型处理流程

原始数据输入（文本/图片/视频等）
特征提取（NLP中的tokenization，CV中的卷积特征）
嵌入层处理（神经网络参数学习）
输出固定维度向量

模型演进路线

模型类型	技术突破点	典型应用场景
Word2Vec	上下文预测机制	词级别语义分析
Glove	全局共现矩阵分解	文档主题建模
FastText	子词(subword)表征	形态丰富语言处理
大模型Embedding	多模态联合训练	跨模态检索

主流模型详解

1. Word2Vec

核心架构

CBOW（连续词袋模型）：通过上下文预测中心词
Skip-gram：通过中心词预测上下文

技术局限

无法处理未登录词(OOV)
忽略词序信息

2. Glove模型

GloVe 模型损失函数

该公式表示 GloVe (Global Vectors) 模型的优化目标函数：

$\sum_{i,j=1}^V f(X_{ij}) \left( w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2$

公式解析：

符号	含义
$ V $	词表大小
$ X_{ij} $	单词i与j的共现频次
$ f(X_{ij}) $	加权函数（抑制高频词影响）
$ w_i, \tilde{w}_j $	主/辅词向量
$ b_i, \tilde{b}_j $	偏置项

关键设计特点：

基于全局词共现统计（非局部窗口）
对数变换处理共现频次
基于语料库全局统计
结合矩阵分解与概率模型优势
在词类比任务中表现优异

3. FastText

核心突破

字符级n-gram特征提取（3≤n≤6）
支持OOV词向量合成
训练速度比Word2Vec快5-10倍

4. 大模型Embedding（以text-embedding-ada-002为例）

参数项	技术规格
输入长度	最大8191 tokens
输出维度	1536维稠密向量
训练数据	多语言混合语料库
特殊能力	支持跨模态对齐

资料推荐

💡大模型中转API推荐
✨中转使用教程

应用优势

上下文感知（"bank"在金融/地理场景不同编码）
零样本迁移学习能力
多语言统一向量空间

注：现代Embedding技术已形成传统词嵌入→上下文嵌入→多模态嵌入的演进路径，向量质量提升带来下游任务准确率30%-60%的增长。

http://www.dtcms.com/a/183200.html

相关文章：

回文数（9）

RocketMQ Kafka区别

质数和约数

BufferAttribute

双同步坐标锁相环DDSRF-PLL原理说明

专业级软件卸载工具：免费使用，彻底卸载无残留！

力扣题解：1、两数之和（梦开始的地方）

教育系统源码如何支持白板直播与刷题功能？功能开发与优化探索

M0的基础篇之PWM学习

《Python星球日记》第53天：卷积神经网络（CNN）入门

SwarmUI：基于.Net开发的开源AI 图像生成 Web 用户界面系统

如何将 Windows 11 的开始菜单移到左侧

JVM 逃逸分析

第十课认识约数

Go多服务项目结构优化：为何每个服务单独设置internal目录？

猿人学第十七题—天杀的http2.0

在 Vue 3 中实现刮刮乐抽奖

牛客练习赛138

PTA：jmu-ds-拓扑排序

JDBC链接数据库

程序代码篇---Python视频流

OrangePi Zero 3学习笔记（Android篇）5 - usbutils编译（更新lsusb)

DVWA靶场Cryptography模块medium不看原码做法

kubectl top 查询pod连接数

Go基于plugin的热更新初体验

【赵渝强老师】TiDB SQL层的工作机制

数据分析2

物联网、数字化工厂与智能智慧技术未来发展方向

光的本质（以暗物质维度粒子为介质的能量传导）

Kubernetes应用发布方式完整流程指南