【每天一个知识点】embedding与representation
“Embedding(嵌入)”与“Representation(表示)”在机器学习、自然语言处理(NLP)、图神经网络等领域常被使用,它们密切相关,但语义上有一定区别。
一、定义
1. Representation(表示)
-
广义概念:指将现实世界中某种对象(如文本、图像、节点等)转换为机器可以处理的数学形式,通常是向量或张量。
-
形式:可以是稀疏的(如one-hot向量),也可以是稠密的;可以是人为设计的特征,也可以是学习得到的。
举例:
One-hot编码是最简单的表示方法。
TF-IDF、词袋模型是手工设计的表示方法。
用BERT提取出的句向量也是一种表示。
2. Embedding(嵌入)
-
狭义子集:embedding是representation的一种,通常指低维、稠密、连续空间中的向量表示,是通过学习从高维稀疏空间“嵌入”到低维稠密空间的过程。
-
学习方式:通常是通过模型自动学习得到的表示,比如Word2Vec、Node2Vec、BERT等。
举例:
Word2Vec为词学习得到的300维稠密向量,就是词的embedding。
图中的节点embedding是将每个节点嵌入到一个低维空间,保留结构与语义信息。
二、对比总结
项目 | Representation(表示) | Embedding(嵌入) |
---|---|---|
定义 | 一切形式的特征表示 | 一种低维、稠密的特征表示 |
范围 | 广义概念,包含embedding | representation的子集 |
维度 | 可高可低(如one-hot是高维稀疏) | 通常低维 |
是否稠密 | 可稠密也可稀疏 | 通常稠密 |
生成方式 | 可人工设计或模型学习 | 通常通过模型学习 |
示例 | TF-IDF、BERT向量、图特征 | Word2Vec、Node2Vec、Transformer输出向量 |
三、一句话总结
所有的embedding都是representation,但不是所有的representation都是embedding。