当前位置: 首页 > news >正文

深入理解Embedding技术-什么是Embedding?

核心概念解析

什么是Embedding?

​本质定义​​:
一种将高维度非结构化数据(文本/图像/视频等)映射为低维度连续向量的机器学习技术,构建起现实世界与数学空间的桥梁。

​技术特点​​:

  • 生成N维实值向量(典型维度范围:128-4096)
  • 保留原始数据的语义特征
  • 支持向量运算(如:King - Man + Woman ≈ Queen

资料推荐

  • 💡大模型中转API推荐
  • ✨中转使用教程

核心价值

# 数据转换示意
输入数据 → Embedding模型 → 向量表示

典型处理流程

  1. 原始数据输入(文本/图片/视频等)
  2. 特征提取(NLP中的tokenization,CV中的卷积特征)
  3. 嵌入层处理(神经网络参数学习)
  4. 输出固定维度向量

模型演进路线

模型类型技术突破点典型应用场景
Word2Vec上下文预测机制词级别语义分析
Glove全局共现矩阵分解文档主题建模
FastText子词(subword)表征形态丰富语言处理
大模型Embedding多模态联合训练跨模态检索

主流模型详解

1. Word2Vec

核心架构

  • CBOW(连续词袋模型):通过上下文预测中心词
  • Skip-gram:通过中心词预测上下文

技术局限

  • 无法处理未登录词(OOV)
  • 忽略词序信息

2. Glove模型

GloVe 模型损失函数

该公式表示 GloVe (Global Vectors) 模型的优化目标函数:

J = ∑ i , j = 1 V f ( X i j ) ( w i T w ~ j + b i + b ~ j − log ⁡ X i j ) 2 J = \sum_{i,j=1}^V f(X_{ij}) \left( w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2 J=i,j=1Vf(Xij)(wiTw~j+bi+b~jlogXij)2

​公式解析​​:

符号含义
$ V $词表大小
$ X_{ij} $单词i与j的共现频次
$ f(X_{ij}) $加权函数(抑制高频词影响)
$ w_i, \tilde{w}_j $主/辅词向量
$ b_i, \tilde{b}_j $偏置项

​关键设计特点​​:

  1. 基于全局词共现统计(非局部窗口)
  2. 对数变换处理共现频次
  3. 基于语料库全局统计
  4. 结合矩阵分解与概率模型优势
  5. 在词类比任务中表现优异

3. FastText

核心突破

  • 字符级n-gram特征提取(3≤n≤6)
  • 支持OOV词向量合成
  • 训练速度比Word2Vec快5-10倍

4. 大模型Embedding(以text-embedding-ada-002为例)

参数项技术规格
输入长度最大8191 tokens
输出维度1536维稠密向量
训练数据多语言混合语料库
特殊能力支持跨模态对齐

资料推荐

  • 💡大模型中转API推荐
  • ✨中转使用教程

应用优势

  • 上下文感知("bank"在金融/地理场景不同编码)
  • 零样本迁移学习能力
  • 多语言统一向量空间

注:现代Embedding技术已形成传统词嵌入→上下文嵌入→多模态嵌入的演进路径,向量质量提升带来下游任务准确率30%-60%的增长。

http://www.dtcms.com/a/183200.html

相关文章:

  • 回文数(9)
  • RocketMQ Kafka区别
  • 质数和约数
  • BufferAttribute
  • 双同步坐标锁相环DDSRF-PLL原理说明
  • 专业级软件卸载工具:免费使用,彻底卸载无残留!
  • 力扣题解:1、两数之和 (梦开始的地方)
  • 教育系统源码如何支持白板直播与刷题功能?功能开发与优化探索
  • M0的基础篇之PWM学习
  • 《Python星球日记》 第53天:卷积神经网络(CNN)入门
  • SwarmUI:基于.Net开发的开源AI 图像生成 Web 用户界面系统
  • 如何将 Windows 11 的开始菜单移到左侧
  • JVM 逃逸分析
  • 第十课认识约数
  • Go多服务项目结构优化:为何每个服务单独设置internal目录?
  • 猿人学第十七题—天杀的http2.0
  • 在 Vue 3 中实现刮刮乐抽奖
  • 牛客练习赛138
  • PTA:jmu-ds-拓扑排序
  • JDBC链接数据库
  • 程序代码篇---Python视频流
  • OrangePi Zero 3学习笔记(Android篇)5 - usbutils编译(更新lsusb)
  • DVWA靶场Cryptography模块medium不看原码做法
  • kubectl top 查询pod连接数
  • Go基于plugin的热更新初体验
  • 【赵渝强老师】TiDB SQL层的工作机制
  • 数据分析2
  • 物联网、数字化工厂与智能智慧技术未来发展方向
  • 光的本质(以暗物质维度粒子为介质的能量传导)
  • Kubernetes应用发布方式完整流程指南