当前位置: 首页 > news >正文

网站建设杭州做rap的网站

网站建设杭州,做rap的网站,虚拟主机网站淘客网站建设,无限极企业微信app下载安装在PyTorch中,nn.BatchNorm1d(128) 的作用是对 一维输入数据(如全连接层的输出或时间序列数据)进行批标准化(Batch Normalization),具体功能与实现原理如下: 1. 核心作用 标准话数据分布 对每个批…

在PyTorch中,nn.BatchNorm1d(128) 的作用是对 一维输入数据(如全连接层的输出或时间序列数据)进行批标准化(Batch Normalization),具体功能与实现原理如下:

1. 核心作用

  • 标准话数据分布
    对每个批次的输入数据进行归一化,使其均值接近0、方差接近1,公式如下:
    x^=x−μbatchσbatch2+e\hat{\mathbf{x}}=\frac{\mathbf{x}-\mathbf{\mu}_{batch}}{\sqrt{\sigma^{2}_{batch}+e}}x^=σbatch2+exμbatch
    其中:
    • μbatch\mu_{batch}μbatch:当前批次的均值
    • σbatch\sigma_{batch}σbatch:当前批次的方差
    • eee: 防止除零的小常数(默认1e-5)
  • 可学习的缩放与偏移:
    通过参数γ\gammaγ (缩放)和 β\betaβ(偏移)保留模型的表达能力:
    y=γx^+β y = \gamma \hat{\mathbf{x}}+\beta y=γx^+β

2. 参数解释

在这里插入图片描述

3. 全连接网络应用场景

import torch.nn as nnmodel = nn.Sequential(nn.Linear(64, 128),nn.BatchNorm1d(128),  # 对128维特征归一化nn.ReLU(),nn.Linear(128, 10)
)

数学效果:
若输入特征x∈Rm×128\mathbf{x}\in \mathbb{R}^{m\times128}xRm×128,输出yyy满足:
E[y:j]≈0,Var(y:,j)≈1 \mathbb{E}[y_{:j}]\approx0, Var(y_{:,j})\approx1 E[y:j]0,Var(y:,j)1

4. 与其他归一化层的对比

在这里插入图片描述

5. 训练与推理的差异

  • 训练阶段
    使用当前批次的统计量μbatch\mu_{batch}μbatchσbatch2\sigma_{batch}^2σbatch2,并更新全局统计量:
    μrunnning←μrunning×(1−momentum)+μbatch×momentum\mu_{runnning} \leftarrow \mu_{running}\times(1-momentum) + \mu_{batch}\times momentumμrunnningμrunning×(1momentum)+μbatch×momentum
  • 推理阶段(测试阶段)
    固定使用训练积累的全局统计量μbatch\mu_{batch}μbatchσbatch2\sigma_{batch}^2σbatch2
    KaTeX parse error: Undefined control sequence: \sigmma at position 54: …unning}}{\sqrt{\̲s̲i̲g̲m̲m̲a̲^{2}_{running}+…

6. 代码战争数学性质

import torch# 模拟输入(batch_size=4, 128维特征)
x = torch.randn(4, 128) * 2 + 1  # 均值1,方差4bn = nn.BatchNorm1d(128, affine=False)  # 禁用γ和β
output = bn(x)print("输入均值:", x.mean(dim=0).mean().item())   # ≈1
print("输出均值:", output.mean(dim=0).mean().item())  # ≈0
print("输入方差:", x.var(dim=0).mean().item())    # ≈4
print("输出方差:", output.var(dim=0).mean().item())  # ≈1
http://www.dtcms.com/a/453460.html

相关文章:

  • 华为交换机实战配置案例:从基础接入到核心网络
  • OpenCV(四):视频采集与保存
  • 证券业智能化投研与分布式交易系统架构:全球发展现状、技术创新与未来趋势研究
  • AI Agent竞争进入下半场:模型只是入场券,系统架构决定胜负
  • 图书商城网站开发的目的网页设计实训报告总结1500字
  • 做俄语网站做网站傻瓜软件
  • 兼具本地式与分布式优势、针对大类通用型Web漏洞、插件外部动态化导入的轻量级主被动扫描器
  • 第4章 文件管理
  • JavaScript初识及基本语法讲解
  • RabbitMQ中Consumer的可靠性
  • 自学网站建设作业抖音代运营公司收费
  • drupal做虚拟发货网站做网站如何将一张图片直接变体
  • 监控系统1 - 项目框架 | 线程邮箱
  • CTFHub SQL注入通关笔记3:报错注入(手注法+脚本法)
  • 开源UML工具完全指南:从图形化建模到文本驱动绘图
  • 优秀网站设计欣赏北京公司网站建设公司
  • 基于 Python 构建的安全 gRPC 服务——TLS、mTLS 与 Casbin 授权实战
  • 【Java核心技术/IO】35道Java IO面试题与答案
  • ICT 数字测试原理 10 - -VCL 向量如何执行之数字单元
  • 网站目录爬行wordpress怎么做信息分类
  • 专题三:二分查找~
  • 360小工具合集,用39个小工具
  • GreenTuber 0.1.7.6| 纯净无广的油管第三方,支持4K下载
  • UVa 235 Typesetting
  • 东莞营销网站建设哪个平台好十大app排行榜
  • asp网站开发工具现在的企业一般用的什么邮箱
  • 企业区块链重新崛起
  • 【SSH】同一局域网下windows使用Xshell SSH连接另一台 ubuntu 22.04 电脑
  • [随手记] docker 镜像拉取记录
  • Ruoyi 赋能,百度天气不止当下:打造面向未来的预报实战