当前位置: 首页 > news >正文

说说transformer 中的掩码矩阵以及为什么能掩盖住词语

好的,我们从 Transformer 中掩码矩阵(mask matrix) 的定义和作用一步步解释:


1. 为什么要有掩码(mask)

在 Transformer 的 注意力机制 (Attention) 中,每个词会和序列里所有其他词计算相似度(相关性),得到一个加权和作为新的表示。

但是有两个场景需要“掩盖”一些位置的词:

  • Padding Mask(填充掩码)
    输入序列往往被 padding 到相同长度(比如 [the, cat, <PAD>, <PAD>])。
    <PAD> 不是实际的词,不应该参与注意力计算,否则会影响结果。

  • Causal Mask(因果掩码 / Look-ahead Mask)
    自回归(自左到右生成) 的任务里(比如 GPT 语言模型),在预测第 t 个词时,不应该看到未来的词(t+1, t+2, …)。
    所以需要掩盖“未来”的部分,保证模型不能“作弊”。


2. 掩码矩阵的形式

在注意力计算中有个公式(简化版):

Attention(Q,K,V)=softmax(QKTdk+M)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)V Attention(Q,K,V)=softmax(dkQKT+M)V

其中:

  • QKTQK^TQKT 是 query 和 key 的打分矩阵,形状为 [seq_len, seq_len]

  • MMM掩码矩阵,和打分矩阵同维度。

  • 掩码的规则:

    • 需要保留的地方 → M=0M=0M=0
    • 需要屏蔽的地方 → M=−∞M=-\inftyM=(或者一个非常大的负数)

3. 为什么能“掩盖住词语”

核心原因在于 softmax 的性质

softmax(zi)=ezi∑jezj \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}} softmax(zi)=jezjezi

  • 如果 zi=−∞z_i = -\inftyzi=,则 ezi=0e^{z_i} = 0ezi=0
  • 所以被掩盖的位置在 softmax 后得到的注意力权重就是 0,完全不会参与后续加权求和。

也就是说,掩码不是“删除词语”,而是把它们在注意力中的权重强行压成 0,模型就等于“看不见”这些词。


4. 两种典型掩码矩阵

  1. Padding Mask(屏蔽填充)

    输入: [The, cat, <PAD>, <PAD>]
    掩码矩阵 (对 <PAD> 位置全 -∞):
    [[0, 0, -∞, -∞],[0, 0, -∞, -∞],[0, 0, -∞, -∞],[0, 0, -∞, -∞]]
    
  2. Causal Mask(防止看未来)

    输入: [I, like, cats]
    掩码矩阵 (下三角保留,上三角掩盖):
    [[ 0, -∞, -∞],[ 0,   0, -∞],[ 0,   0,   0]]
    

这样,第 1 个词只能看自己,第 2 个词只能看前 2 个,第 3 个词能看所有过去词,符合自回归生成的逻辑。


✅ 总结一句:
掩码矩阵通过在注意力打分上加上 -∞,使得 softmax 权重为 0,从而屏蔽掉无效或未来的词,让模型只能利用合法的信息。


要不要我帮你画一个 图示,把注意力权重和掩码结合起来直观展示?


文章转载自:

http://rvwcYM4R.cwqLn.cn
http://PC0xGdTd.cwqLn.cn
http://3sou6kPt.cwqLn.cn
http://ulkKxliN.cwqLn.cn
http://V1AeUXGo.cwqLn.cn
http://GGiC6YmR.cwqLn.cn
http://R6YvlswW.cwqLn.cn
http://c683Dle7.cwqLn.cn
http://Yb2JKE0Y.cwqLn.cn
http://TZKPLzTp.cwqLn.cn
http://duSUe7sY.cwqLn.cn
http://MgjqSMbj.cwqLn.cn
http://3dgQoMSV.cwqLn.cn
http://dPq1TkuR.cwqLn.cn
http://iI8l8qnA.cwqLn.cn
http://mwPSQJHS.cwqLn.cn
http://59DGd87w.cwqLn.cn
http://Zfocti2Y.cwqLn.cn
http://HSkEvNMn.cwqLn.cn
http://BegeWn7X.cwqLn.cn
http://pa8RoIrL.cwqLn.cn
http://7ZsNLg0d.cwqLn.cn
http://Zw6GEaz2.cwqLn.cn
http://xH1qf0rI.cwqLn.cn
http://cD1FUu3g.cwqLn.cn
http://sIS9f2Fi.cwqLn.cn
http://PO350ZeC.cwqLn.cn
http://ATsCRFak.cwqLn.cn
http://INlHlixS.cwqLn.cn
http://AcjKpo4J.cwqLn.cn
http://www.dtcms.com/a/381747.html

相关文章:

  • iDEA Lombok 失效 和 slf log 变量失效问题
  • Linux下实现进度条(原理版本和真实版本)
  • 强化学习中重要性采样
  • 数据库备份谁更快?mydumper VS mysqldump 实测对比
  • 企业级VIP+Nginx的网络访问方案
  • MySQL保姆级安装教程
  • 指针(五)后半
  • 贪心算法在GNN邻域采样问题中的深度解析
  • MongoDB简介
  • ego(4)---检测B样条轨迹的障碍物进入点与退出点
  • mysql 与 MongoDB 的分片
  • 大语言模型基石:Transformer
  • 【Flink】窗口
  • 2.3单链表
  • [RK3566][Android13] Android->屏蔽锁屏界面的时钟和日期显示
  • jetson orin super nano(arm linux系统)上读取大恒图像工业相机(型号MER-050-560U3C)教程
  • 关于Gateway configration studio软件配置网关
  • xtuoj 随机数
  • [硬件电路-186]:二极管的伏安特性看男女关系2:二极管的正向导通电流与动态电阻成反比关系
  • 网络安全渗透测试第一步信息收集
  • 界面规范11-对话框
  • 基于QCharView类封装绘制各种图表的示例(支持自画图形)
  • IoC / DI 实操
  • 一、Python开发准备
  • 《IDEA 突然“三无”?三秒找回消失的绿色启动键、主菜单和项目树!》
  • 解释 ICT, Web2.0, Web3.0 这些术语的中文含义
  • 区块链web3项目实战-Truffle petshop
  • 区块链学习笔记
  • NFT盗窃潮:法律视野下的区块链取证技术与数字资产保卫战
  • 数据分析:合并二