当前位置: 首页 > news >正文

长春制作手机网站门户网站制作方法

长春制作手机网站,门户网站制作方法,西安公司注册网站,专业的网站建设联系参考视频:数字变矩阵 上一节课,我们已经把训练样本文字转成的数字,也就是Token化 那么在下一步之前,我们要把我们转成的数字,做一次嵌入向量的变换 上一节课,我们知道我们用的的词汇表整体的量是100256&…

参考视频:数字变矩阵


上一节课,我们已经把训练样本文字转成的数字,也就是Token化

 
那么在下一步之前,我们要把我们转成的数字,做一次嵌入向量的变换


上一节课,我们知道我们用的的词汇表整体的量是100256,那么每一个数字,分别代表了一个文字。0代表了感叹号,一是冒号,二是引号,然后我们的1000是“好”,还有其他的代表更多的,最后一个100255呢,代表是个英文单词叫Conveyor。

那么,我们实际上并不是把这些数字丢给模型去训练,而我们要找到一些代替这些数字的、一些更小的数字,为什么呢?因为在今后的训练当中,我们要做很多这种乘法,那么如果是数字很小、或者很大的时候,它们乘完之后,小的变得更小,大的变得更大,特别分散。所以我们要初始化一些非常小、非常集中的这些数字,来代表我们的这个token。

看到这个图之后,这个时候你就要问了,为什么你要有这么多列呢?第一列不就行了吗?找一个单独的数字代表一个单独的token,是不是就可以呢?实际上是可以的。

但是语言的魅力在于语境和语义有多种不同的关系。比如我们说意思的”思“字,比如这个1001就是意思的“思”字。那么在中文里,它有很多的不同语义,这个字,比如说“你是什么意思”、“这个没什么意思”、“那我不好意思”、“你意思意思”、“这什么意思?”... 有很多不同的语境,有的时候它是主语、有时候谓语、有的时候宾语、有的时候介词、有的时候动词、有的时候甚至是个形容词。

因为有不同的语义关系,所以我们每一个token要通过不同的多个子token、或者数字来代表它们在不同语义当中的这个意思。所以呢,我们定义了模型,定义了一个叫做d model这样的一个参数,它是一个超参数。在模型训练的时候,我们可以定义,要学习每一个文字在多少重不同的语境下的这种语义关系。那么在这里,我定义的是64。在ChatGPT当中定义的是512,现在越来越更大了,你可以定义成更多的维度,比如说1024。

那好,我们现在就用64个维度的d model来做我们的训练的超参数。也就是说我们现在有100255个不同的token,代表了不同的文字,那么每一个文字它有64个不同的语义关系。这样我们就有了一张非常巨大的表格,是一个100256个行和64列这样的一个表格,那么它也叫做一个矩阵。

这个表,是在训练之前,我们只建立一次就可以了。在每一次抽样训练的时候,是可以复用的表格,那这个也叫向量查找表embedding lookup table。使用方法是,当我们每一次抽取样本训练的时候,比如说我们抽取了10个文字,那么10个文字可能对应了十几个不同的token。比如说0的话,我们就把这一行抽出来,我们有十几个字,那就把这十几字对应的token的行都抽出来。

回到例子当中,那我们的input训练的样本数据是“小沈阳江西演唱会邀请了,”这几个字。那么它转换成token之后,一共是有16个token,这个就是我们所谓的context length=16。也就是说,我们在刚才的那个向量查找表里面,把31809的那一行给抽出来,然后把31106那行也给抽出来,一共我们抽了16行,那我们把这个16行给它拼成了一张表,那么它的维度呢,或者说它的列数呢,仍然是我们向量查找表里面的d model是64列,也就是说现在我们这个样本文字,已经转换成了一个16乘以64的一个矩阵,16行每一行都代表了一个token,64列每一列都代表了这个token在一个不同语义下的语境学习的数字。那么也叫做context_length by d_model这样的一个矩阵

其实我们在做什么呢?其实我们就是把样本文字数字化之后,把我们的token向量转换成了一个矩阵,那么这个就叫做embedding vector。之后,我们要把这个矩阵里面这些数字,丢给我模型去做计算,那么有的人会问,那你这些数字是哪来的?那我可以告诉大家,这些数字都是随机初始化的。在我们有了这个input embedding vector矩阵之后,我们就要把它丢到模型训练了。

那么在扔进模型之前,我们还要做一步,就是加入位置信息编码。请看下一节!!!
 

http://www.dtcms.com/a/554236.html

相关文章:

  • 遵义网站开发的公司有哪些虚拟机iis网站建设
  • 网站备案号是什么能看人与动物做的网站
  • Mermaid语法、实战
  • DOM Attribute
  • php 企业网站 后台图片上传ps怎么制作网页
  • 建设对公银行网站打不开想做电商网站运营要怎么做
  • 服务器偶尔连接超时connection timedout
  • NestJS 路由顺序问题解决指南
  • 做的最好的手机网站秦皇岛建设规划
  • 苏州网站优化排名推广做网站分辨率多少
  • 做淘宝浏览单的网站创意设计文案
  • 手机网站建设视频教程_公司网络营销的方案
  • 喀什住房和城乡建设局网站ui设计到底能不能学
  • KingbaseES 表空间与模式优化策略深度研究报告
  • 国家网络安全事件报告管理办法
  • 网站建设流国际新闻最新消息今天2023
  • 沙利文报告:连续8年全球第一,影石全景相机市占率升至85%
  • Linux驱动开发指南
  • 专注于网站营销服务wordpress 主页排序
  • RSL3 别名:1S,3R-RSL3(AbMole)
  • 做快三网站平果县免费网站哪家好
  • 定制做网站平台only网站建设分析
  • 网站开发工具有哪些北京建机网站
  • 如何使用Selenium做自动化测试?
  • 百元级「枪球联动」IPC 速成方案
  • 响应式网站是什么意思wordpress默认用某一号字体
  • Java基础——常用API4
  • 深度拆解 Lua VM 栈结构:数据存储、操作逻辑与边界处理
  • Nginx入门基础-网页状态码
  • 网站排名乐云seo设计图标logo