当前位置: 首页 > news >正文

李宏毅机器学习笔记19

目录

摘要

Abstract

1.从矩阵看Self attention

2.Multi-head Self attention

3.Positional encoding

4.Truncated self attention


 

 

摘要

本篇文章继续学习李宏毅老师2025春季机器学习课程,学习内容是Self attention从矩阵角度的计算方法及一些Self attention应用。

Abstract

This article continues our study of Prof. Lee Hung-yi's 2025 Spring Machine Learning course, focusing on the computational approach of Self-attention from a matrix operations perspective and some applications of Self-attention.

1.从矩阵看Self attention

从矩阵角度来看Self attention关联度的计算,我们知道每个输入都需要产生q,k,v三个向量,我们将所有输入a合并视为一个矩阵I,将矩阵I与对应的矩阵相乘就能得到由q,k,v三种向量组成的矩阵Q,V,K。

关联度计算是由向量q,k相乘得到,那么我们计算a1的关联度时需要所有的k与q向量相乘,即K矩阵的转置与q相乘。再扩大到所有,则变为K矩阵的转置与Q矩阵相乘,最后得到所有关联度的矩阵A,在经过soft-max得到矩阵

最后将矩阵V与矩阵相乘,即可得出由所有输出b组成的矩阵O。

整个过程虽然看着很复杂,但是只有是需要训练的参数

2.Multi-head Self attention

Self attention还有一个进阶的版本叫Multi-head Self attention,需要多少head也是一个我们需要训练的一个参数,为什么我们会需要较多的head呢?因为相关这种事情有很多不同的形式,在Self attention中我们用q找相关的k,也许我们不能只有一个q,不同的q负责不同的相关性。

在原有的基础上,让q,k,v乘上两个不同的矩阵让q,k,v化为两组不同的q1,k1,v1和q2,k2,v2。对于其他位置也是同样的操作。

此时的Self attention的计算,让1组的q1,k1,v1一起做,二组的q2,k2,v2一起做。

最后将两组得到b1和b2接起来通过一个transformer得到最终的b。

3.Positional encoding

在Self attention中,我们并没有任何相关的位置资讯,有时位置可能会很重要,例如词性标注时,动词不太会出现在句首等,如果我们想在Self attention中加入位置资讯,就要用到Positional encoding。

我们需要为每一个位置设定一个向量叫做positional vector,用表示,我们将e向量加入到a向量中即可。目前Positional encoding仍是尚待研究的问题,右侧的图片是初始的Positional encoding,每一个矩形代表一个位置。

4.Truncated self attention

self attention也可以用于语音辨识,但是有一个问题就是,一个向量能表示的语音非常短,一秒的语音可能要100个向量,这会导致相关性矩阵非常大,不仅计算量很大,存储也需要很大的空间。所以就有了Truncated self attention,在做语音辨识的时候不看整句话,看部分即可,范围由自己设定。

 

http://www.dtcms.com/a/470868.html

相关文章:

  • 腾讯建设网站视频下载深圳坪山天气
  • 群晖wordpress主机兰州seo新站优化招商
  • Go语言实现HTML转PDF
  • 深入解析Java NIO:从BIO到Reactor模式的网络编程演进
  • 公司怎么做网站推广北京西站停车场收费标准
  • 企业网站系统手机版住房与城乡建设部建设环境工程技术中心网站
  • 非法期货做网站安康信息平台
  • MySQL安装包下载成功,如何跨版本备份迁移无忧?
  • ASM架构基础与核心概念
  • 每天五分钟深度学习:正则化技术解决过拟合(高方差)问题
  • 局域网建设个人网站美食网站设计论文
  • 使用 systemd 管理 MySQL 服务
  • 做网站客户最关心哪些问题下载百度电商平台app
  • 消防电器具工程量-图形识别快速计算
  • 印度股票市场数据接口,支持实时行情、IPO新股、公司信息、技术分析等多种功能
  • 顺德 网站开发 招聘工程平台网
  • 网站建设开发网站案例项目费用插画原画十大培训机构
  • 排查素材下载过慢或失败问题
  • 小网站托管费用大连网站建设 仟亿
  • 基于单片机的窗帘、灯光、空调智能家居控制系统设计
  • Docker存储体系深度解析
  • 如何基于OneAPI构建langchain RAG系统
  • 网站建设说明书模板wordpress菜单结构
  • 如何应对紧急投标?AI工具1小时完成400页标书
  • 百度网盘PC电脑端提速方法
  • 【触想智能】什么是工业平板电脑以及工业平板电脑对制造业具有什么意义
  • 郑州 网站建设p9制作公司
  • 深度解析 “应用程序无法正常启动 0xc000007b”:原因、解决方案与预防措施
  • 南宁智慧园区网站建设wordpress如何更改页面链接
  • PowerBI实战-跨页面钻取drill through