当前位置: 首页 > wzjs >正文

网站备案号注销的结果wordpress制作的网站模板

网站备案号注销的结果,wordpress制作的网站模板,上海装修设计公司排名,联影uct528中标价1. Batch Normalization (BN, 2015) 核心思想 对Batch维度的每个特征通道进行归一化训练时用当前batch统计量,测试时用全局移动平均 计算步骤 # 输入x形状: [B, C, H, W] (CNN) 或 [B, D] (全连接) mean x.mean(dim[0, 2, 3]) # 沿Batch/空间维度求均值 var x.va…

1. Batch Normalization (BN, 2015)

核心思想

  • 对Batch维度的每个特征通道进行归一化
  • 训练时用当前batch统计量,测试时用全局移动平均

计算步骤

# 输入x形状: [B, C, H, W] (CNN) 或 [B, D] (全连接)
mean = x.mean(dim=[0, 2, 3])  # 沿Batch/空间维度求均值
var = x.var(dim=[0, 2, 3], unbiased=False)
x_hat = (x - mean) / sqrt(var + eps)
out = gamma * x_hat + beta  # 可学习参数γ,β

μₖ = (1/(B×H×W)) × Σ(xᵢⱼₖₗ) (i=1…B, j=1…H, l=1…W)
σₖ² = (1/(B×H×W)) × Σ(xᵢⱼₖₗ - μₖ)²
x̂ᵢⱼₖₗ = (xᵢⱼₖₗ - μₖ) / √(σₖ² + ε)
yᵢⱼₖₗ = γₖ × x̂ᵢⱼₖₗ + βₖ

特点

优点缺点
✅ 加速收敛
✅ 允许更大学习率
✅ 有正则化效果
❌ 依赖大batch(通常>16)
❌ 不适用于RNN/Dynamic NN

PyTorch实现

nn.BatchNorm2d(num_features)  # CNN
nn.BatchNorm1d(num_features)  # FC/RNN

2. Layer Normalization (LN, 2016)

核心思想

  • 对每个样本的所有特征进行归一化
  • 常用于Transformer和RNN

计算步骤

# 输入x形状: [B, T, D] (Transformer)
mean = x.mean(dim=-1, keepdim=True)  # 特征维度
var = x.var(dim=-1, keepdim=True)
x_hat = (x - mean) / sqrt(var + eps)
out = gamma * x_hat + beta

μᵢ = (1/D) × Σ(xᵢⱼ) (j=1…D)
σᵢ² = (1/D) × Σ(xᵢⱼ - μᵢ)²
x̂ᵢⱼ = (xᵢⱼ - μᵢ) / √(σᵢ² + ε)
yᵢⱼ = γⱼ × x̂ᵢⱼ + βⱼ

特点

优点缺点
✅ 不依赖batch size
✅ 适合动态网络
❌ CNN效果不如BN

PyTorch实现

nn.LayerNorm(normalized_shape)  # normalized_shape=D

3. Instance Normalization (IN, 2017)

核心思想

  • 对每个样本的每个通道单独归一化
  • 风格迁移任务常用

计算步骤

# 输入x形状: [B, C, H, W]
mean = x.mean(dim=[2, 3], keepdim=True)  # 空间维度
var = x.var(dim=[2, 3], keepdim=True)
x_hat = (x - mean) / sqrt(var + eps)
out = gamma * x_hat + beta  # 可选

μᵢₖ = (1/(H×W)) × Σ(xᵢₖⱼₗ) (j=1…H, l=1…W)
σᵢₖ² = (1/(H×W)) × Σ(xᵢₖⱼₗ - μᵢₖ)²
x̂ᵢₖⱼₗ = (xᵢₖⱼₗ - μᵢₖ) / √(σᵢₖ² + ε)
yᵢₖⱼₗ = γₖ × x̂ᵢₖⱼₗ + βₖ (可选)

特点

优点缺点
✅ 保留样本间独立性
✅ 适合风格迁移
❌ 破坏通道间相关性

PyTorch实现

nn.InstanceNorm2d(num_features)

4. Group Normalization (GN, 2018)

核心思想

  • 将通道分组后对每组进行归一化
  • CNN小batch场景的BN替代方案

计算步骤

# 输入x形状: [B, C, H, W], 设groups=G
x = x.view(B, G, C//G, H, W)  # 分组
mean = x.mean(dim=[2, 3, 4], keepdim=True)
var = x.var(dim=[2, 3, 4], keepdim=True)
x_hat = (x - mean) / sqrt(var + eps)
out = x_hat.view(B, C, H, W) * gamma + beta
分组后形状: [B, G, C//G, H, W]

μᵢ₉ = (1/((C//G)×H×W)) × Σ(xᵢ₉ₖⱼₗ)
σᵢ₉² = (1/((C//G)×H×W)) × Σ(xᵢ₉ₖⱼₗ - μᵢ₉)²
x̂ᵢ₉ₖⱼₗ = (xᵢ₉ₖⱼₗ - μᵢ₉) / √(σᵢ₉² + ε)

恢复形状后:

yᵢₖⱼₗ = γₖ × x̂ᵢₖⱼₗ + βₖ

特点

优点缺点
✅ 小batch表现好
✅ 精度接近BN
❌ 计算量稍大

PyTorch实现

nn.GroupNorm(num_groups, num_channels)

5.对比总结

方法归一化维度适用场景Batch依赖
BN[B, H, W]大batch/CNN
LN[D]RNN/Transformer
IN[H, W]风格迁移/生成模型
GN[G, H, W]小batch CNN

代码示例(四种归一化对比)

import torch.nn as nn# 输入假设: [2, 6, 224, 224] (batch=2, channels=6)
bn = nn.BatchNorm2d(6)
ln = nn.LayerNorm([6, 224, 224])  # 全特征归一化
in = nn.InstanceNorm2d(6)
gn = nn.GroupNorm(num_groups=3, num_channels=6)  # 分2组

如何选择?

  1. CNN:优先尝试BN → batch<8时用GN
  2. RNN/Transformer:必选LN
  3. Style Transfer:首选IN
  4. 小batch CNN:GN+LN组合

📌 经验法则:当BN效果不佳时,根据任务特性尝试其他归一化方法


6. Transformer架构中的归一化标准方案

现代大语言模型普遍采用 Pre-LayerNorm 结构,即在注意力/FFN层之前进行归一化:

输入 → LayerNorm → Attention → 残差连接 → LayerNorm → FFN → 残差连接

6.1 ChatGPT (OpenAI GPT系列)

模型版本归一化方案关键细节
GPT-2LayerNorm经典Post-LN
GPT-3LayerNorm改为Pre-LN
GPT-4LayerNorm + 改进可能引入RMSNorm

特点

  • 始终坚持LayerNorm
  • 从Post-LN转向更稳定的Pre-LN结构

6.2 DeepSeek

模型版本归一化方案关键细节
DeepSeek-MoELayerNormPre-LN结构
DeepSeek-CoderLayerNorm代码模型同样架构

创新点

  • 在MoE架构中保持LayerNorm一致性
  • 对长上下文优化了Norm位置

6.3 Qwen (阿里通义千问)

模型版本归一化方案关键细节
Qwen-1.8BLayerNorm标准实现
Qwen-72BRMSNorm性能优化

技术演进

  • 大参数模型改用RMSNorm减少计算量
  • 保留LayerNorm的缩放偏移参数

6.4为什么不用BatchNorm?

所有主流LLM都避免使用BN,原因包括:

  1. 序列长度可变:BN需要固定维度,但文本长度动态变化
  2. 小batch推理:预测时batch_size=1,BN统计量失效
  3. 训练不稳定:文本数据的稀疏性导致BN方差估计不准

6.5 进阶变体:RMSNorm

新兴模型(如LLaMA、Qwen-72B)开始采用 RMSNorm(Root Mean Square Normalization):

def rms_norm(x, eps=1e-6):# 去均值操作(相比LayerNorm)return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + eps

RMS(x) = √((1/D) × Σ(xⱼ²) + ε)
yᵢ = (xᵢ / RMS(x)) × γᵢ

优势

  • 计算量减少约20%(适合超大模型)
  • 在Transformer中表现接近LayerNorm

6.6 模型实现对比表

模型归一化方案结构位置是否含β/γ
GPT-4LayerNormPre-LN
LLaMA-2RMSNormPre-LN
Qwen-72BRMSNormPre-LN
DeepSeek-MoELayerNormPre-LN

6.7关键结论

  1. LayerNorm仍是主流:90%以上的LLM使用
  2. Pre-LN成为标准:比原始Transformer的Post-LN更稳定
  3. RMSNorm是趋势:新模型为效率逐步转向RMSNorm
  4. 绝对不用BN:所有文本模型都避免BatchNorm

文章转载自:

http://OHIcsc98.jkcpL.cn
http://fZvRJ5vr.jkcpL.cn
http://hVS4DyIc.jkcpL.cn
http://mYgSKs0S.jkcpL.cn
http://9YX6Q3ur.jkcpL.cn
http://5qoYlBuz.jkcpL.cn
http://uTJVsNLs.jkcpL.cn
http://ecslEyK7.jkcpL.cn
http://ITcgdlss.jkcpL.cn
http://g0Iawii5.jkcpL.cn
http://BPtcL5O3.jkcpL.cn
http://fkud9W9j.jkcpL.cn
http://hOvvJkpk.jkcpL.cn
http://O5pLJ4fo.jkcpL.cn
http://DglzlLm4.jkcpL.cn
http://ojD72van.jkcpL.cn
http://Pet5zCLC.jkcpL.cn
http://BX994BTR.jkcpL.cn
http://INfMcNfm.jkcpL.cn
http://Kc8eBCuN.jkcpL.cn
http://rV1yPvkx.jkcpL.cn
http://WISNoh3F.jkcpL.cn
http://o8aKiwsZ.jkcpL.cn
http://qKewZIBK.jkcpL.cn
http://p5PXtlFj.jkcpL.cn
http://aAUNJ5Pf.jkcpL.cn
http://uX8fldRF.jkcpL.cn
http://HshtOMFu.jkcpL.cn
http://OCuhQIA6.jkcpL.cn
http://BfptM5Eh.jkcpL.cn
http://www.dtcms.com/wzjs/622374.html

相关文章:

  • 安徽省住房和城乡建设厅网站6天津网站建设服务
  • 旅游网站源码免费下载一般做哪些外贸网站
  • 网站是否备案怎么查询企业网搭建及应用
  • 山东 网站建设 公司网络科技公司企业简介
  • 学校建设网站的目的城市建设规划网站
  • 云服务器网站建站百度平台商家我的订单查询
  • 学校的网站管理系统石家庄的设计公司
  • 我想自己建个网站 应该怎么做网站个人备案转企业备案
  • 制作旅游网站简单建网站签合同
  • 定制网站的好处有哪些东莞网页网站制作
  • 为什么做免费视频网站广州网站改版方案
  • 哪里能注册免费的网站武山县建设局网站
  • 龙岗网站建设推广给我一个可以看片的
  • 如何查网站处罚过管理系统和网站哪个好做
  • 浏阳网站定制网页设计个人总结800字
  • 网站建设合同甲乙双方怎么确定施工企业安全生产管理体系案例
  • 空间购买后打不开网站快速搭建外贸网站
  • 电子商务网站建设策划案网站会员体系
  • 上海个人医疗网站备案淘宝建设网站的
  • 怎么做购物网站的购物车wordpress 设置导航栏
  • 做红酒网站个人网站设计模板中文
  • 网站推广宣传微信公司
  • 建立网站的三种方式濮阳创建网站公司
  • 手机网站收录搜索网页
  • 嘉兴南湖区优秀营销型网站建设免费3d动画制作软件
  • 网站转移后后台无法登陆wordpress企业内网主题
  • 网站微场景代码泰安房产网站建设
  • 南通经济开发区城乡建设局网站网站空间怎么使用
  • 网站在哪里实名认证wordpress 搬迁插件
  • php5 mysql网站开发实例精讲WordPress全球用户量2019