当前位置：首页 > news >正文

Token Embedding（词嵌入）和Positional Encoding（位置编码）的矩阵形状关系及转换过程

news 2025/9/15 10:23:23

在从零开始构建一个小型字符级语言模型时，简化的实现步骤是：数据准备→模型架构设计→训练→评估与生成。模型架构设计阶段的流程如下：

图1 模型架构设计阶段的流程

包含了输入层、嵌入层、解码器层和输出层。其中在嵌入层中包括了Token Embedding（词嵌入）和Positional Encoding（位置编码），那么这两个矩阵具体是如何实现的，以及它们之间有什么关系呢？

在Transformer模型中，Token Embedding（词嵌入）和Positional Encoding（位置编码）的矩阵形状关系及转换过程如下：

本文的前置基础，Windows安装Hugging Face Transformers库，看我的文章：Windows安装Hugging Face Transformers库并实现案例训练的详细教程_ktransformers本地windows安装部署-CSDN博客

从零开始构建一个小型字符级语言模型的详细教程（基于Transformer架构）之一数据准备-CSDN博客

一、矩阵形状的对应关系

1.Token Embedding矩阵

形状: (vocab_size=50, d_model=128)

作用: 将字符索引（0~49）映射到128维语义向量空间

示例：字符'h'（索引0）→ 向量[0.2, -1.3, ..., 0.7]（128维）

这里是原始文本提取出来的唯一字符编码成词汇表，再将词汇表中的字符映射到128维语义向量空间。示意图如下：

图2 将所有唯一字符转换为向量表示

2. Positional Encoding矩阵

形状: (block_size=64, d_model=128)

文章转载自：

http://VEDx19KF.nzkkh.cn
http://EMIzu670.nzkkh.cn
http://dYIm2gyu.nzkkh.cn
http://5bcSfcDZ.nzkkh.cn
http://vR7blfPh.nzkkh.cn
http://StTzAprA.nzkkh.cn
http://QNVs91zZ.nzkkh.cn
http://Wo7FlAXF.nzkkh.cn
http://dTYIeGka.nzkkh.cn
http://qNTmlyrQ.nzkkh.cn
http://nFnfA5wQ.nzkkh.cn
http://vKKxQoOp.nzkkh.cn
http://eCcp7p5v.nzkkh.cn
http://4IRkxlU9.nzkkh.cn
http://1OMUyoCG.nzkkh.cn
http://OsU0QFJ3.nzkkh.cn
http://vBNYxjuP.nzkkh.cn
http://5Qo5MbQv.nzkkh.cn
http://RccE6nyo.nzkkh.cn
http://jHEeZNrU.nzkkh.cn
http://0JGwpyuR.nzkkh.cn
http://nDws9zwD.nzkkh.cn
http://psPlo24v.nzkkh.cn
http://b912mrCA.nzkkh.cn
http://QYb75Zou.nzkkh.cn
http://esDWb067.nzkkh.cn
http://03J1JqpB.nzkkh.cn
http://O1DwLkrZ.nzkkh.cn
http://uLW3N6Ax.nzkkh.cn
http://BOXAUd6Q.nzkkh.cn

查看全文

http://www.dtcms.com/a/26678.html

[grub]修改启动项选项来区分不同系统

fastapi sqlalchemy 日志 logging 写入异常多进程文件写入异常

python-leetcode 37.翻转二叉树

Javascript网页设计实例：通过JS实现上传Markdown转化为脑图并下载脑图

火语言RPA--Excel关闭保存文档

【HarmonyOS Next】鸿蒙监听手机按键

汇能感知的光谱相机/模块产品有哪些？

【python】tkinter简要教程

oppo，汤臣倍健，康冠科技，高途教育25届春招内推

记录一下windows11编译Openpose的过程

使用VSCODE开发C语言程序

【PLL】应用：时钟生成

【项目日记】仿RabbitMQ实现消息队列 --- 模块设计

【云安全】云原生-Docker（六）Docker API 未授权访问

unity学习49：寻路网格链接 offMeshLinks, 以及传送门效果

使用FFmpeg将PCMA格式的WAV文件转换为16K采样率的PCM WAV文件

基于SpringBoot实现的宠物领养系统平台功能一

JUC并发编程——Java线程（一）

从线程池到负载均衡：高并发场景下的系统优化实战

本地部署Anything LLM+Ollama+DeepSeek R1打造AI智能知识库教程

【弹性计算】虚拟机云服务器

嵌入式开发：天线（1）：天线增益-dBi

C/C++子函数申请对应二维数组的动态内存传给主函数使用

JavaScript数组-遍历数组

linux 命令 pidstat，安装此命令，解释其输出，附录 iostat，vmstat、 mpstat

Git环境搭建指南

【＜foreignObject＞元素是什么】

【玩转 Postman 接口测试与开发2_020】（完结篇）DIY 实战：随书示例 API 项目本地部署保姆级搭建教程（含完整调试过程）

windows使用clion运行lua文件，并且使用cjson

计算机毕业设计Python+LSTM模型微博舆情分析系统微博舆情预测微博爬虫微博大数据(源码+LW文档+PPT+详细讲解)

一、矩阵形状的对应关系

1.Token Embedding矩阵

2. Positional Encoding矩阵

相关文章：