当前位置: 首页 > news >正文

【每天一个知识点】embedding与representation

“Embedding(嵌入)”与“Representation(表示)”在机器学习、自然语言处理(NLP)、图神经网络等领域常被使用,它们密切相关,但语义上有一定区别。


一、定义

1. Representation(表示)
  • 广义概念:指将现实世界中某种对象(如文本、图像、节点等)转换为机器可以处理的数学形式,通常是向量或张量。

  • 形式:可以是稀疏的(如one-hot向量),也可以是稠密的;可以是人为设计的特征,也可以是学习得到的。

举例:

  • One-hot编码是最简单的表示方法。

  • TF-IDF、词袋模型是手工设计的表示方法。

  • 用BERT提取出的句向量也是一种表示。

2. Embedding(嵌入)
  • 狭义子集:embedding是representation的一种,通常指低维、稠密、连续空间中的向量表示,是通过学习从高维稀疏空间“嵌入”到低维稠密空间的过程。

  • 学习方式:通常是通过模型自动学习得到的表示,比如Word2Vec、Node2Vec、BERT等。

举例:

  • Word2Vec为词学习得到的300维稠密向量,就是词的embedding。

  • 图中的节点embedding是将每个节点嵌入到一个低维空间,保留结构与语义信息。


二、对比总结

项目Representation(表示)Embedding(嵌入)
定义一切形式的特征表示一种低维、稠密的特征表示
范围广义概念,包含embeddingrepresentation的子集
维度可高可低(如one-hot是高维稀疏)通常低维
是否稠密可稠密也可稀疏通常稠密
生成方式可人工设计或模型学习通常通过模型学习
示例TF-IDF、BERT向量、图特征Word2Vec、Node2Vec、Transformer输出向量


三、一句话总结

所有的embedding都是representation,但不是所有的representation都是embedding。

相关文章:

  • 为什么上传大量大文件推荐是使用 app 应用为不是 web 浏览器下载上传呢?
  • PLC组网的方法、要点及实施全解析
  • 网络传输(ping命令,wget命令,curl命令),端口
  • 代码随想录算法训练营第四十四天
  • 开发体育比分网站,有哪些坑需要注意的
  • 创建型:抽象工厂模式
  • C#:多线程
  • Ubuntu Desktop QEMU/KVM中使用Ubuntu Server 22.04配置k8s集群
  • 阿里云web端直播(前端部分)
  • 最小质因子之和(JAVA)线性筛
  • 王树森推荐系统公开课 排序03:预估分数融合
  • java bean 和map相互转换
  • 蓝桥杯国赛第十五届(JAVAB组)
  • 基于 STC89C52 的料仓物位监测系统设计与实现
  • 如何映射 MongoDB 的 _id 字段?
  • uWSGI、IIS、Tomcat有啥区别?
  • 通过低功耗蓝牙通信实例讲透 MCU 各个定时器
  • Hi3516CV610车牌识别算法源码之——实时从sensor采集视频 识别车牌
  • 万用表如何区分零线、火线、地线
  • 机器学习EM算法原理及推导
  • 李在明遭遇暗杀威胁,韩国警方锁定两名嫌疑人
  • 交通运输局男子与两名女子办婚礼?官方通报:未登记结婚,开除该男子
  • 老旧小区加装电梯后续维护谁负责?上海:各区属房管集团托底保障
  • 河南通报部分未检疫生猪流入:立案查处,涉案猪肉被封存
  • 体坛联播|雷霆抢七淘汰掘金,国米错失意甲登顶良机
  • 以色列称“将立即允许恢复”人道主义物资进入加沙