当前位置：首页 > news >正文

李宏毅机器学习笔记22

news 2025/10/15 6:37:30

目录

摘要

Abstract

1.Decoder-Autoregressive(AT)

如何开始

masked

如何停止

2.Decoder-Non-Autoregressive(NAT)

摘要

本篇文章继续学习李宏毅老师2025春季机器学习课程，学习内容是Transformer中decoder的基本架构，主要学习Decoder-Autoregressive(AT)的基本运作过程，以及Decoder-Non-Autoregressive(NAT)与Decoder-Autoregressive(AT)的差异。

1.Decoder-Autoregressive(AT)

如何开始

用语言辨识作为例子帮助理解decoder，首先是一段语音输入到encoder产生一排向量，产生的向量作为decoder的输入。在decoder产生文字之前，我们需要给他一个特殊的符号begin作为开始的信号，接下来decoder会输出一个向量，这个向量的长度非常长，它是vocabulary的size，在语音辨识中是可能的方块字（3000+常用汉字）。每一个中文字对应一个数值，数值最高的作为当前的输出。

在得到第一个输出的字“机”后，“机”与begin作为decoder的输入，假设这次输出是“器”，下一次就会将begin和“机",“器”作为输入，以此类推。decoder会将自己的输出，当作自己的输入。

decoder的结构如下图所示

我们将encoder和decoder放在一起比较一下

不难看出，如果我们把decoder中间部分去掉，encoder与decoder就非常相似。

不同之处在于，decoder在multi-head这个block上面增加了一个masked。

masked

masked是什么呢？我们原本的self-attention是根据所有的信息产生输出。b1由a1-a4产生，b2 也由a1-a4产生，b3，b4同样由a1-a4产生。

增加masker之后，我们不能再看右边。即b1只由a1产生，b2由a1，a2产生，b3由a1，a2，a3产生，b4由a1-a4产生。

具体来说，就是计算时，只考虑前面，假设计算b2，我们只考虑q1，k1，q2，k2。

如何停止

在实际上，输入与输出长度的关系是非常复杂的，在我们的例子中可能在输出“习”之后还会继续输出“惯”等等，因为它并不知道什么时候应该停止。

那么我们想要让他停下来，就需要我们准备一个特别的符号“断”，假设用END表示。

此时，我们就期望当输出“习”时，它知道语音辨识的结果已经结束了，不需要产生更多的词汇，产生的向量中END的几率必须是最大的。产生END后，decoder产生sequence的过程就结束了。

2.Decoder-Non-Autoregressive(NAT)

NAT与AT的差别在于AT是一个一个产生，NAT是一次全部产生。NAT的输入全是begin信号，一个begin对应一个字。

但是我们如何知道需要输出多少字？

一个做法是另外扔一个classifier，它吃encoder的输入输出是一个数字，代表输出的长度。

另一种做法是，假设句子的长度上限是300，我们就输入300个begin，观察什么时候输出END。

NAT的优势在效率比AT更高，AT是一个一个字产生，假设100个字就要decode100次，而NAT都是一次输出，所有NAT会比AT更快。

http://www.dtcms.com/a/481675.html

相关文章：

重排反应是什么？从分子变化到四大关键特征解析

服务治理与 API 网关：微服务流量管理的艺术

怎样做企业的网站首页网站开发求职简历

程序设计基础第2周上课前预习

谷歌 chrome 浏览器安装crx插件（hackbar为例）

分布式专题——43 ElasticSearch概述

Tomcat 启动后只显示 index.jsp，没有进入你的 Servlet 逻辑

分布式之RabbitMQ的使用(3)QueueBuilder

建立自己网站的好处抖音代运营可以相信吗

Flink 状态和 CheckPoint 的区别和联系(附源码)

QML学习笔记（三十六）QML的ComboBox

媒介宣发的技术革命：Infoseek如何用AI重构企业传播全链路

uniapp开发小程序

浦江县建设局网站国家企业信息信用信息公示网址

2025年燃气从业人员考试真题分享

SuperMap iServer 数据更新指南

C++基础：（十三）list类的模拟实现

【网络编程】从数据链路层帧头到代理服务器：解析路由表、MTU/MSS、ARP、NAT 等网络核心技术

北京网站seowyhseo网站模板但没有后台如何做网站

对接世界职业院校技能大赛标准，唯众打造高质量云计算实训室

利用人工智能、数字孪生、AR/VR 进行军用飞机维护

[特殊字符] Maven 编译报错「未与 -source 8 一起设置引导类路径」完美解决方案（以芋道项目为例）

【CV】泊松图像融合

云智融合：人工智能与云计算融合实践指南

Maven创建Java项目实战全流程

泉州市住房与城乡建设网站wordpress弹出搜索

[创业之路-691]：历史与现实的镜鉴：从三国纷争到华为铁三角的系统性启示

时序数据库选型革命：深入解析Apache IoTDB的架构智慧与实战指南

南通网站制作建设手机网页设计软件下载

OpenAI推出即时支付功能，ChatGPT将整合电商能力｜技术解析与行业影响