当前位置: 首页 > news >正文

Token Embedding(词嵌入)和Positional Encoding(位置编码)的矩阵形状关系及转换过程

        在从零开始构建一个小型字符级语言模型时,简化的实现步骤是:数据准备→模型架构设计→训练→评估与生成模型架构设计阶段的流程如下:

图1 模型架构设计阶段的流程

        包含了输入层、嵌入层、解码器层和输出层。其中在嵌入层中包括了Token Embedding(词嵌入)和Positional Encoding(位置编码),那么这两个矩阵具体是如何实现的,以及它们之间有什么关系呢?

        在Transformer模型中,Token Embedding(词嵌入)和Positional Encoding(位置编码)的矩阵形状关系及转换过程如下:

        本文的前置基础,Windows安装Hugging Face Transformers库,看我的文章:Windows安装Hugging Face Transformers库并实现案例训练的详细教程_ktransformers本地windows安装部署-CSDN博客

从零开始构建一个小型字符级语言模型的详细教程(基于Transformer架构)之一数据准备-CSDN博客

一、矩阵形状的对应关系

1.Token Embedding矩阵

        形状: (vocab_size=50, d_model=128)

        作用: 将字符索引(0~49)映射到128维语义向量空间

        示例:字符'h'(索引0)→ 向量[0.2, -1.3, ..., 0.7](128维)

        这里是原始文本提取出来的唯一字符编码成词汇表,再将词汇表中的字符映射到128维语义向量空间示意图如下:

图2 将所有唯一字符转换为向量表示

2. Positional Encoding矩阵

        形状: (block_size=64, d_model=128)

http://www.dtcms.com/a/26678.html

相关文章:

  • [grub]修改启动项选项来区分不同系统
  • fastapi sqlalchemy 日志 logging 写入异常 多进程文件写入异常
  • python-leetcode 37.翻转二叉树
  • Javascript网页设计实例:通过JS实现上传Markdown转化为脑图并下载脑图
  • 火语言RPA--Excel关闭保存文档
  • 【HarmonyOS Next】鸿蒙监听手机按键
  • 汇能感知的光谱相机/模块产品有哪些?
  • 【python】tkinter简要教程
  • oppo,汤臣倍健,康冠科技,高途教育25届春招内推
  • 记录一下windows11编译Openpose的过程
  • 使用VSCODE开发C语言程序
  • 【PLL】应用:时钟生成
  • 【项目日记】仿RabbitMQ实现消息队列 --- 模块设计
  • 【云安全】云原生-Docker(六)Docker API 未授权访问
  • unity学习49:寻路网格链接 offMeshLinks, 以及传送门效果
  • 使用FFmpeg将PCMA格式的WAV文件转换为16K采样率的PCM WAV文件
  • 基于SpringBoot实现的宠物领养系统平台功能一
  • JUC并发编程——Java线程(一)
  • 从线程池到负载均衡:高并发场景下的系统优化实战
  • 本地部署Anything LLM+Ollama+DeepSeek R1打造AI智能知识库教程
  • 【弹性计算】虚拟机云服务器
  • 嵌入式开发:天线(1):天线增益-dBi
  • C/C++子函数申请对应二维数组的动态内存传给主函数使用
  • JavaScript数组-遍历数组
  • linux 命令 pidstat,安装此命令,解释其输出,附录 iostat,vmstat、 mpstat
  • Git环境搭建指南
  • 【<foreignObject>元素是什么】
  • 【玩转 Postman 接口测试与开发2_020】(完结篇)DIY 实战:随书示例 API 项目本地部署保姆级搭建教程(含完整调试过程)
  • windows使用clion运行lua文件,并且使用cjson
  • 计算机毕业设计Python+LSTM模型微博舆情分析系统 微博舆情预测 微博爬虫 微博大数据(源码+LW文档+PPT+详细讲解)