当前位置: 首页 > news >正文

Transformer(3): Add Norm

文章目录

  • 残差连接
  • 层归一化
    • 作用
    • 和其它归一化的比较
  • dropout
    • 基本思想
    • 实现方式

残差连接

目的是解决深层网络中梯度消失的问题。

解决方法是进行跳跃连接,即多出一条输出链路,将输入X直接接到输出层上。

公式为 F(X) + X。

这样每一层求导的时候至少能够保证是>1的,不会产生梯度消失问题。

层归一化

作用

对输入的每个样本进行归一化处理,即每个特征维度的均值和方差会被调整为0和1,帮助加速训练并稳定模型。

和其它归一化的比较

NLP 任务通常处理变长的序列(如句子),层归一化在处理这些变长序列时非常合适,因为它不依赖于批量数据,而是每个样本独立进行归一化。

BN的问题

  • 批次依赖性:BN 需要一个批次的数据来计算均值和方差。在NLP中,尤其是当输入数据长度不一致(例如,句子长度不同)时,批次大小可能变化。这使得在处理变长的序列或小批量数据时,BN 的效果不好,且计算上的不稳定性可能导致性能下降。
  • 推理时问题:在推理阶段(即在测试或推理过程中),BN 需要依赖全批次的统计数据(均值和方差),这使得在处理单个样本时变得困难,尤其是在 NLP 中通常会处理单句或单文本(例如生成任务中一次生成一个单词)。

dropout

基本思想

在训练的时候以P的概率丢弃神经元,所以这样每一次的传播都会走的不一样的路径,具有集成学习的特点,并且也避免了过度依赖于关键神经元。

实现方式

有一个Mask向量,是一个随机的二进制向量,遵从于Bernoulli(1−p),即01分布,0表示丢弃,1表示保留,p概率的丢弃,所以保留的概率是1-p。

训练的时候每个神经元的输出都被压缩了,即输出变成不加dropout的1 / (1 - p),在测试的时候就所有神经元都保持激活,用于所有学习到的特征进行推理,但是我们需要放大输出,即把训练缩小的补偿回来,就是输出除于 (1 - p).

class AddNorm(nn.Module):
    def __init__(self, *args, **kwargs) -> None:
        super(AddNorm, self).__init__(*args, **kwargs)
        self.add_norm = nn.LayerNorm(num_hiddens)
        self.dropout = nn.Dropout(0.1)

    def forward(self, X, X1):
        X1 = self.add_norm(X1)
        X = X + X1
        X = self.dropout(X)
        return X

相关文章:

  • React VS Vue
  • 【R语言】方差分析
  • 什么是大模型以及如何部署大模型
  • 基于大数据的网购球鞋分析系统的设计与实现
  • CSS Grid 网格布局,以及 Flexbox 弹性盒布局模型,它们的适用场景是什么?
  • 【已解决】TypeError: AsyncConnectionPool.__init__(), new install bug, httpx==0.24.1
  • TLS和SSL的区别
  • GRN前沿:scGeneRAI:基于可解释AI的单细胞基因调控网络预测
  • C进阶 数据的存储
  • Docker高级篇
  • 无限使用,自动解锁全部版!
  • 基于角色访问控制的UML 表示04
  • 多模态对齐损失设计全解析:CLIP模型实现图文语义空间统一的原理详解与实战指南
  • 基于CANopen协议的同步控制和PDO消息传输
  • 考研操作系统----IO
  • 【学术投稿-第五届应用数学、建模与智能计算国际学术会议】CSS伪类选择器深度解析:分类、应用与技巧
  • C++拷贝构造函数初级解析:设计要点、调用机制与性能优化实践
  • 【NLP】文本预处理
  • ArrayList
  • 【第13章:自监督学习与少样本学习—13.3 自监督学习与少样本学习在图像识别、语言理解等领域的应用探索】
  • 上海交大:关注到对教师邵某的网络举报,已成立专班开展调查
  • 盖茨:20年内将捐出几乎全部财富,盖茨基金会2045年关闭
  • 万达电影:股东杭州臻希拟减持不超1.3927%公司股份
  • 国家矿山安全监察局发布《煤矿瓦斯防治能力评估办法》
  • 吴清稳市场稳预期发布会十要点:谈平准基金、股市稳定、公募改革和巴菲特
  • 长三角铁路五一假期发送旅客超2000万人次,同比增幅超一成