当前位置: 首页 > news >正文

李宏毅机器学习笔记23

目录

摘要

Abstract

1.Encoder-Decoder

2.如何训练


摘要

本篇文章继续学习李宏毅老师2025春季机器学习课程,学习内容是Transformer中encoder和decoder中间是如何传递资讯,以及训练transformer的基本方法。

1.Encoder-Decoder

之前学习了encoder和decoder的结构及运行过程,接下来将要学习是他们中间是如何传递资讯的。

也就是之前学习decoder时,去除的部分。这一块叫做cross attention,它有两个输入来自encoder

它的实际运作过程如下:encoder这边输入一排向量输出一排向量a,通过a与不同的矩阵相乘得到向量k和v,decoder这边收到begin信号产生一个向量,这个向量乘上一个矩阵得到q,之后用k,q计算他们的分数\alpha ^{'},再乘上v,最后加起来得到最终的v(整个过程类似self-attention)。

在产生第二个字时也是同样的处理,decoder得到q^{'},encoder用k,q^{'}计算他们的分数\alpha ^{'},再乘上v,最后加起来得到最终的v。

2.如何训练

同样以语音辨识做例子,我们需要收集一大堆的声音讯号,每句声音讯号都要有工读生来听,听到这一段是“机器学习”,就将“机器学习”四个字打出来。那当我们把begin丢给decoder时,它第一个输出应该跟“机”越接近越好,“机”会被表示为一个向量,这个向量中只有“机”这个维度是1,其他都是0。我们decoder的输出是一个几率分布,我们希望这个几率分布与“机”向量越接近越好,因此我们会计算他们的cross entropy,cross entropy的值越小越好。

在训练时,我们已经知道输出是“机器学习”,每次输出都有一个cross entropy,我们希望四次输出的cross entropy的总和最小,但是还有END信号,因此第五个位置输出的向量应该跟END信号的cross entropy越小越好。

在训练时我们会给decoder看正确答案,也就是我们会告诉它,在有begin有“机”时输出“器”,在有begin,有“机”,有“器”时输出“学”,以此类推。这样的做法叫做teacher forcing。

这样会出现一个问题,训练时有正确答案,但是测试时没有正确答案可以给decoder看,在测试时decoder看到的是自己的输出,所以测试时decoder会看到一些错误的东西。训练时看到完全正确的,测试时看到有一些错误的,这种不一致的现象叫做exposure bias。假设decoder只看过正确的东西,在测试时只要有一个错,就会一步错步步错。

解决这个问题的一个想法是给decoder的输入加一些错误的东西,而给它一些错误的东西它反而会学的更好。

http://www.dtcms.com/a/486409.html

相关文章:

  • 为何打不开中国建设银行网站深圳品牌营销策划机构
  • 大连旅顺网站制作有哪些网站可以做笔译
  • 【遥感图像处理】遥感图像车辆检测与跟踪全流程实战:从数据到部署(含Python代码)
  • PPO论文阅读
  • C++学习:异常及其处理
  • 无人机组队编队与相对定位原理详解
  • 两学一做网站登录沈阳网站设计外包
  • 网投网站如何建设中国建筑协会官网证件查询
  • 负载均衡:运维高可用的核心技术
  • 计网3.8 以太网交换机
  • 太原中小企业网站制作天津住房和城乡建设部网站
  • 如何选择最佳服务器搭建游戏?探索物理与云服务器的优势
  • 10.5 傅里叶级数:用线性代数研究函数
  • 攻防世界-[简单] 简单的base编码
  • 深入理解C++输入缓冲区:掌握各种输入方法的本质
  • 【字典树 单调栈】P9218 「TAOI-1」Apollo|普及+
  • 设计一个个人网站手机app是用什么软件开发的
  • 盘锦做网站选哪家app网站开发后台处理
  • [AI学习:SPIN -win-安装SPIN-工具过程 SPIN win 电脑安装=accoda 环境-第一篇:布置环境]
  • Spring Boot 3零基础教程,整合Redis,笔记12
  • 拆解数据法律定性三重进阶:从“财产”到“客体”再到“权益束”
  • 【Leetcodenowcode数据结构】单链表的应用(初阶)
  • ECEF坐标系中椭球简化为球的可行性与实践
  • 网站建设 中企高程企业邮箱
  • 逻辑回归实战:泰坦尼克号生存预测
  • 医疗网站建设哪个好用会员充值消费管理系统
  • 【Bug:docker】--Docker国内镜像源加载失败
  • 安阳做网站的公司网站建设开发软件教程
  • php做网站优点ui设计职业培训机构
  • 【ADS-1】【python基础-2】基本语法与数据结构(列表、字典、集合)