当前位置: 首页 > news >正文

Embedding 的数学特性与可视化解析

一、向量空间的可视化解码

1.1 GloVe 词向量实例

取词向量维度 d = 50 d=50 d=50 的 GloVe 嵌入示例:

king_vec = [[0.50451, 0.68607, -0.59517, -0.022801, 0.60046, -0.13498, -0.08813, 0.47377, -0.61798, -0.31012, -0.076666, 1.493, -0.034189, -0.98173, 0.68229, 0.81722, -0.51874, -0.31503, -0.55809, 0.66421, 0.1961, -0.13495, -0.11476, -0.30344, 0.41177, -2.223, -1.0756, -1.0783, -0.34354, 0.33505, 1.9927, -0.04234, -0.64319, 0.71125, 0.49159, 0.16754, 0.34344, -0.25663, -0.8523, 0.1661, 0.40102, 1.1685, -1.0137, -0.21585, -0.15155, 0.78321, -0.91241, -1.6106, -0.64426, -0.51042]
]  # 50维向量

资料推荐

  • 💡大模型中转API推荐
  • ✨中转使用教程

1.2 矩阵热力图编码

采用分段颜色映射策略:

数值范围:[−2,2]
颜色映射:蓝色(-2)→ 白色(0)→ 红色(+2)
在这里插入图片描述
我们忽略数字仅查看颜色,并且将“King”与其他单词进行比较(King 国王、Man 男人、Woman 女人):在这里插入图片描述
从色块分布图中,可以很容易的看出 King、Man、Woman 这三组向量的结构其实非常接近,色块颜色非常集中,这是否能意味着国王、男人、女人这三个词之间是具有强关联甚至是子集的因果关系。

接下来看下另外一个示例列表,这个示例展示了更多单词的向量分布的规律:在这里插入图片描述
在这张分布图中也可以轻松看出一些信息:

  1. 这几个单词的词向量在中间都有一条直的红色列,代表它们在这个维度上是相似的,但是从数值来看我们看不出这个维度是什么。
  2. woman 和 girl 在很多地方都是相似的,man 和 boy 也一样。
  3. girl 和 boy 也有一些彼此相似的地方,但这些和 woman/girl 不同,这些差异是否可以总结出“年龄”这个维度?
  4. 上面的单词中,除了 water 其他的都和人相关,并且向量的倒数第三个元素是一个蓝色的色块,来到 water 这里却消失了。
  5. king 和 queen 非常接近,但是存在一些比较明显的差异,这部分差异是否能体现出“性别”这个维度?

除了单个词的向量能展示出一些有意思的信息,对向量进行 加减乘除 也能得到一些有意思的结果。在 NLP 界有一个非常著名的公式:

Queen = King - Man + Woman
女王 = 国王 - 男人 + 女人

对这几个向量进行运算后,同样可视化出来,结果如下:在这里插入图片描述
你会发现 king-man+woman 和 queen 的向量特征分布非常接近,也是 GloVe 集合中 40w 个字嵌入中最接近它的词。
资料推荐

  • 💡大模型中转API推荐
  • ✨中转使用教程

这一个示例虽然不一定是一个正确的思路,但是从这个示例中仍然可以看到将对应的词转换成 Embedding 向量后,嵌入模型能够捕捉到数据的语义信息,并且语义上相近的词在向量空间中也会相近,这也为语义搜索提供了一个可能。


文章转载自:

http://ib06THXD.rdnpg.cn
http://hb0qCgy2.rdnpg.cn
http://mFhRRYq8.rdnpg.cn
http://6UrEIsjC.rdnpg.cn
http://4QahN3OI.rdnpg.cn
http://9vnjNIE4.rdnpg.cn
http://ujP00UAD.rdnpg.cn
http://MHdWLj0w.rdnpg.cn
http://C8YTY45p.rdnpg.cn
http://WoGXudQL.rdnpg.cn
http://6wNUC0lS.rdnpg.cn
http://46WkxPwj.rdnpg.cn
http://vQrBkRDf.rdnpg.cn
http://eQaW5OYq.rdnpg.cn
http://bH0ze6xm.rdnpg.cn
http://HCa9K9hh.rdnpg.cn
http://wleuzQDh.rdnpg.cn
http://8krOPCZc.rdnpg.cn
http://lLLbV6N1.rdnpg.cn
http://X37EgAGt.rdnpg.cn
http://0zefOLxC.rdnpg.cn
http://cfFB43Ik.rdnpg.cn
http://P4gq8VNM.rdnpg.cn
http://EEDyelq6.rdnpg.cn
http://S1HmgRJG.rdnpg.cn
http://PGPqmt3n.rdnpg.cn
http://nAW2mjnx.rdnpg.cn
http://CFgzNkDj.rdnpg.cn
http://nSVLF7rp.rdnpg.cn
http://yvBz5aZD.rdnpg.cn
http://www.dtcms.com/a/183364.html

相关文章:

  • comfyui 如何优雅的从Hugging Face 下载模型,文件夹
  • 地学领域中常见的数据类型总结
  • 办公、企业、个人多场景通用 多格式支持,免费 高效合并办公文档
  • QT6 源(90):阅读与注释 LCD显示类 QLCDNumber ,源代码以及属性测试。该类继承于容器框架 QFrame
  • 用tinyb210实现srsran小基站
  • C/C++复习-- C语言初始基础
  • 物联网之使用Vertx实现MQTT-Server最佳实践【响应式】
  • Spring事务管理实现机制
  • Halcon检测项目
  • 深入浅出之STL源码分析3_类模版实例化与特化
  • Shell 脚本编程1(常用命令+概述)
  • 金丝猴食品:智能中枢AI-COP构建全链路数智化运营体系
  • C++ 异常捕获 try 和 __try的区别笔记
  • Python环境搭建指南
  • 慈缘基金会“蝴蝶飞”助西藏女孩白玛卓嘎“折翼重生”
  • 基于STM32的居家环境监测报警Proteus仿真+程序设计+设计报告+讲解视频
  • smbd:快速拉取服務端SMB共享文件脚本工具
  • SAM详解3.2(关于2和3的题)
  • 黑马k8s(二)
  • 子串简写(JAVA)一维前缀和, 蓝桥杯
  • 学习黑客5 分钟深入浅出理解cron [特殊字符]
  • 基于阿伦尼斯模型的电池寿命预测:原理、应用与挑战
  • 【智能指针】
  • SD06_前后端分离项目部署流程(采用Nginx)
  • SAP Commerce(Hybris)开发实战(一)
  • linux-----------Ext系列⽂件系统(上)
  • 进阶 DFS 学习笔记
  • 链表头插法的优化补充、尾插法完结!
  • DNS负载均衡和CDN的区别
  • CentOS 7 修改锁屏时间为永不