当前位置：首页 > news >正文

【每天一个知识点】embedding与representation

news 2025/8/23 23:01:28

“Embedding（嵌入）”与“Representation（表示）”在机器学习、自然语言处理（NLP）、图神经网络等领域常被使用，它们密切相关，但语义上有一定区别。

一、定义

1. Representation（表示）

广义概念：指将现实世界中某种对象（如文本、图像、节点等）转换为机器可以处理的数学形式，通常是向量或张量。
形式：可以是稀疏的（如one-hot向量），也可以是稠密的；可以是人为设计的特征，也可以是学习得到的。

举例：

One-hot编码是最简单的表示方法。

TF-IDF、词袋模型是手工设计的表示方法。

用BERT提取出的句向量也是一种表示。

2. Embedding（嵌入）

狭义子集：embedding是representation的一种，通常指低维、稠密、连续空间中的向量表示，是通过学习从高维稀疏空间“嵌入”到低维稠密空间的过程。
学习方式：通常是通过模型自动学习得到的表示，比如Word2Vec、Node2Vec、BERT等。

举例：

Word2Vec为词学习得到的300维稠密向量，就是词的embedding。

图中的节点embedding是将每个节点嵌入到一个低维空间，保留结构与语义信息。

二、对比总结

项目	Representation（表示）	Embedding（嵌入）
定义	一切形式的特征表示	一种低维、稠密的特征表示
范围	广义概念，包含embedding	representation的子集
维度	可高可低（如one-hot是高维稀疏）	通常低维
是否稠密	可稠密也可稀疏	通常稠密
生成方式	可人工设计或模型学习	通常通过模型学习
示例	TF-IDF、BERT向量、图特征	Word2Vec、Node2Vec、Transformer输出向量

三、一句话总结

所有的embedding都是representation，但不是所有的representation都是embedding。

http://www.dtcms.com/a/200828.html

相关文章：

为什么上传大量大文件推荐是使用 app 应用为不是 web 浏览器下载上传呢？

PLC组网的方法、要点及实施全解析

网络传输（ping命令，wget命令，curl命令），端口

代码随想录算法训练营第四十四天

开发体育比分网站，有哪些坑需要注意的

创建型：抽象工厂模式

C#:多线程

Ubuntu Desktop QEMU/KVM中使用Ubuntu Server 22.04配置k8s集群

阿里云web端直播（前端部分）

最小质因子之和（JAVA）线性筛

王树森推荐系统公开课排序03：预估分数融合

java bean 和map相互转换

蓝桥杯国赛第十五届（JAVAB组）

基于 STC89C52 的料仓物位监测系统设计与实现

如何映射 MongoDB 的 _id 字段？

uWSGI、IIS、Tomcat有啥区别？

通过低功耗蓝牙通信实例讲透 MCU 各个定时器

Hi3516CV610车牌识别算法源码之——实时从sensor采集视频识别车牌

万用表如何区分零线、火线、地线

机器学习EM算法原理及推导

3.2.1

super关键字

测试--自动化测试函数

会议动态|第十五届亚太燃烧学术年会精彩探析

安装Anaconda后无jupyter解决方法

新时代的可观测性：拥抱 GuanceDB 3.0

ISO 26262-5 硬件详细设计

(1) 查看端口状态

【cursor指南】cursor免费续杯pro会员试用

Model 复现系列（一）OpenVLA