当前位置：首页 > wzjs >正文

网站备案号注销的结果wordpress制作的网站模板

wzjs 2025/9/5 20:38:33

网站备案号注销的结果,wordpress制作的网站模板,上海装修设计公司排名,联影uct528中标价1. Batch Normalization (BN, 2015) 核心思想对Batch维度的每个特征通道进行归一化训练时用当前batch统计量，测试时用全局移动平均计算步骤 # 输入x形状: [B, C, H, W] (CNN) 或 [B, D] (全连接) mean x.mean(dim[0, 2, 3]) # 沿Batch/空间维度求均值 var x.va…

1. Batch Normalization (BN, 2015)

核心思想

对Batch维度的每个特征通道进行归一化
训练时用当前batch统计量，测试时用全局移动平均

计算步骤

# 输入x形状: [B, C, H, W] (CNN) 或 [B, D] (全连接)
mean = x.mean(dim=[0, 2, 3])  # 沿Batch/空间维度求均值
var = x.var(dim=[0, 2, 3], unbiased=False)
x_hat = (x - mean) / sqrt(var + eps)
out = gamma * x_hat + beta  # 可学习参数γ,β

μₖ = (1/(B×H×W)) × Σ(xᵢⱼₖₗ) (i=1…B, j=1…H, l=1…W)
σₖ² = (1/(B×H×W)) × Σ(xᵢⱼₖₗ - μₖ)²
x̂ᵢⱼₖₗ = (xᵢⱼₖₗ - μₖ) / √(σₖ² + ε)
yᵢⱼₖₗ = γₖ × x̂ᵢⱼₖₗ + βₖ

特点

优点	缺点
✅ 加速收敛 ✅ 允许更大学习率 ✅ 有正则化效果	❌ 依赖大batch（通常>16） ❌ 不适用于RNN/Dynamic NN

PyTorch实现

nn.BatchNorm2d(num_features)  # CNN
nn.BatchNorm1d(num_features)  # FC/RNN

2. Layer Normalization (LN, 2016)

核心思想

对每个样本的所有特征进行归一化
常用于Transformer和RNN

计算步骤

# 输入x形状: [B, T, D] (Transformer)
mean = x.mean(dim=-1, keepdim=True)  # 特征维度
var = x.var(dim=-1, keepdim=True)
x_hat = (x - mean) / sqrt(var + eps)
out = gamma * x_hat + beta

μᵢ = (1/D) × Σ(xᵢⱼ) (j=1…D)
σᵢ² = (1/D) × Σ(xᵢⱼ - μᵢ)²
x̂ᵢⱼ = (xᵢⱼ - μᵢ) / √(σᵢ² + ε)
yᵢⱼ = γⱼ × x̂ᵢⱼ + βⱼ

特点

优点	缺点
✅ 不依赖batch size ✅ 适合动态网络	❌ CNN效果不如BN

PyTorch实现

nn.LayerNorm(normalized_shape)  # normalized_shape=D

3. Instance Normalization (IN, 2017)

核心思想

对每个样本的每个通道单独归一化
风格迁移任务常用

计算步骤

# 输入x形状: [B, C, H, W]
mean = x.mean(dim=[2, 3], keepdim=True)  # 空间维度
var = x.var(dim=[2, 3], keepdim=True)
x_hat = (x - mean) / sqrt(var + eps)
out = gamma * x_hat + beta  # 可选

μᵢₖ = (1/(H×W)) × Σ(xᵢₖⱼₗ) (j=1…H, l=1…W)
σᵢₖ² = (1/(H×W)) × Σ(xᵢₖⱼₗ - μᵢₖ)²
x̂ᵢₖⱼₗ = (xᵢₖⱼₗ - μᵢₖ) / √(σᵢₖ² + ε)
yᵢₖⱼₗ = γₖ × x̂ᵢₖⱼₗ + βₖ (可选)

特点

优点	缺点
✅ 保留样本间独立性 ✅ 适合风格迁移	❌ 破坏通道间相关性

PyTorch实现

nn.InstanceNorm2d(num_features)

4. Group Normalization (GN, 2018)

核心思想

将通道分组后对每组进行归一化
CNN小batch场景的BN替代方案

计算步骤

# 输入x形状: [B, C, H, W], 设groups=G
x = x.view(B, G, C//G, H, W)  # 分组
mean = x.mean(dim=[2, 3, 4], keepdim=True)
var = x.var(dim=[2, 3, 4], keepdim=True)
x_hat = (x - mean) / sqrt(var + eps)
out = x_hat.view(B, C, H, W) * gamma + beta

分组后形状: [B, G, C//G, H, W]

μᵢ₉ = (1/((C//G)×H×W)) × Σ(xᵢ₉ₖⱼₗ)
σᵢ₉² = (1/((C//G)×H×W)) × Σ(xᵢ₉ₖⱼₗ - μᵢ₉)²
x̂ᵢ₉ₖⱼₗ = (xᵢ₉ₖⱼₗ - μᵢ₉) / √(σᵢ₉² + ε)

恢复形状后:

yᵢₖⱼₗ = γₖ × x̂ᵢₖⱼₗ + βₖ

特点

优点	缺点
✅ 小batch表现好 ✅ 精度接近BN	❌ 计算量稍大

PyTorch实现

nn.GroupNorm(num_groups, num_channels)

5.对比总结

方法	归一化维度	适用场景	Batch依赖
BN	[B, H, W]	大batch/CNN	强
LN	[D]	RNN/Transformer	无
IN	[H, W]	风格迁移/生成模型	无
GN	[G, H, W]	小batch CNN	无

代码示例（四种归一化对比）

import torch.nn as nn# 输入假设: [2, 6, 224, 224] (batch=2, channels=6)
bn = nn.BatchNorm2d(6)
ln = nn.LayerNorm([6, 224, 224])  # 全特征归一化
in = nn.InstanceNorm2d(6)
gn = nn.GroupNorm(num_groups=3, num_channels=6)  # 分2组

如何选择？

CNN：优先尝试BN → batch<8时用GN
RNN/Transformer：必选LN
Style Transfer：首选IN
小batch CNN：GN+LN组合

📌 经验法则：当BN效果不佳时，根据任务特性尝试其他归一化方法

6. Transformer架构中的归一化标准方案

现代大语言模型普遍采用 Pre-LayerNorm 结构，即在注意力/FFN层之前进行归一化：

输入 → LayerNorm → Attention → 残差连接 → LayerNorm → FFN → 残差连接

6.1 ChatGPT (OpenAI GPT系列)

模型版本	归一化方案	关键细节
GPT-2	LayerNorm	经典Post-LN
GPT-3	LayerNorm	改为Pre-LN
GPT-4	LayerNorm + 改进	可能引入RMSNorm

特点：

始终坚持LayerNorm
从Post-LN转向更稳定的Pre-LN结构

6.2 DeepSeek

模型版本	归一化方案	关键细节
DeepSeek-MoE	LayerNorm	Pre-LN结构
DeepSeek-Coder	LayerNorm	代码模型同样架构

创新点：

在MoE架构中保持LayerNorm一致性
对长上下文优化了Norm位置

6.3 Qwen (阿里通义千问)

模型版本	归一化方案	关键细节
Qwen-1.8B	LayerNorm	标准实现
Qwen-72B	RMSNorm	性能优化

技术演进：

大参数模型改用RMSNorm减少计算量
保留LayerNorm的缩放偏移参数

6.4为什么不用BatchNorm？

所有主流LLM都避免使用BN，原因包括：

序列长度可变：BN需要固定维度，但文本长度动态变化
小batch推理：预测时batch_size=1，BN统计量失效
训练不稳定：文本数据的稀疏性导致BN方差估计不准

6.5 进阶变体：RMSNorm

新兴模型（如LLaMA、Qwen-72B）开始采用 RMSNorm（Root Mean Square Normalization）：

def rms_norm(x, eps=1e-6):# 去均值操作（相比LayerNorm）return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + eps

RMS(x) = √((1/D) × Σ(xⱼ²) + ε)
yᵢ = (xᵢ / RMS(x)) × γᵢ

优势：

计算量减少约20%（适合超大模型）
在Transformer中表现接近LayerNorm

6.6 模型实现对比表

模型	归一化方案	结构位置	是否含β/γ
GPT-4	LayerNorm	Pre-LN	✅
LLaMA-2	RMSNorm	Pre-LN	❌
Qwen-72B	RMSNorm	Pre-LN	✅
DeepSeek-MoE	LayerNorm	Pre-LN	✅

6.7关键结论

LayerNorm仍是主流：90%以上的LLM使用
Pre-LN成为标准：比原始Transformer的Post-LN更稳定
RMSNorm是趋势：新模型为效率逐步转向RMSNorm
绝对不用BN：所有文本模型都避免BatchNorm

文章转载自：

http://OHIcsc98.jkcpL.cn
http://fZvRJ5vr.jkcpL.cn
http://hVS4DyIc.jkcpL.cn
http://mYgSKs0S.jkcpL.cn
http://9YX6Q3ur.jkcpL.cn
http://5qoYlBuz.jkcpL.cn
http://uTJVsNLs.jkcpL.cn
http://ecslEyK7.jkcpL.cn
http://ITcgdlss.jkcpL.cn
http://g0Iawii5.jkcpL.cn
http://BPtcL5O3.jkcpL.cn
http://fkud9W9j.jkcpL.cn
http://hOvvJkpk.jkcpL.cn
http://O5pLJ4fo.jkcpL.cn
http://DglzlLm4.jkcpL.cn
http://ojD72van.jkcpL.cn
http://Pet5zCLC.jkcpL.cn
http://BX994BTR.jkcpL.cn
http://INfMcNfm.jkcpL.cn
http://Kc8eBCuN.jkcpL.cn
http://rV1yPvkx.jkcpL.cn
http://WISNoh3F.jkcpL.cn
http://o8aKiwsZ.jkcpL.cn
http://qKewZIBK.jkcpL.cn
http://p5PXtlFj.jkcpL.cn
http://aAUNJ5Pf.jkcpL.cn
http://uX8fldRF.jkcpL.cn
http://HshtOMFu.jkcpL.cn
http://OCuhQIA6.jkcpL.cn
http://BfptM5Eh.jkcpL.cn

查看全文

http://www.dtcms.com/wzjs/622374.html

安徽省住房和城乡建设厅网站6天津网站建设服务

旅游网站源码免费下载一般做哪些外贸网站

网站是否备案怎么查询企业网搭建及应用

山东网站建设公司网络科技公司企业简介

学校建设网站的目的城市建设规划网站

云服务器网站建站百度平台商家我的订单查询

学校的网站管理系统石家庄的设计公司

我想自己建个网站应该怎么做网站个人备案转企业备案

制作旅游网站简单建网站签合同

定制网站的好处有哪些东莞网页网站制作

为什么做免费视频网站广州网站改版方案

哪里能注册免费的网站武山县建设局网站

龙岗网站建设推广给我一个可以看片的

如何查网站处罚过管理系统和网站哪个好做

浏阳网站定制网页设计个人总结800字

网站建设合同甲乙双方怎么确定施工企业安全生产管理体系案例

空间购买后打不开网站快速搭建外贸网站

电子商务网站建设策划案网站会员体系

上海个人医疗网站备案淘宝建设网站的

怎么做购物网站的购物车wordpress 设置导航栏

做红酒网站个人网站设计模板中文

网站推广宣传微信公司

建立网站的三种方式濮阳创建网站公司

手机网站收录搜索网页

嘉兴南湖区优秀营销型网站建设免费3d动画制作软件

网站转移后后台无法登陆wordpress企业内网主题

网站微场景代码泰安房产网站建设

南通经济开发区城乡建设局网站网站空间怎么使用

网站在哪里实名认证wordpress 搬迁插件

php5 mysql网站开发实例精讲WordPress全球用户量2019

1. Batch Normalization (BN, 2015)

核心思想

计算步骤

特点

PyTorch实现

2. Layer Normalization (LN, 2016)

核心思想

计算步骤

特点

PyTorch实现

3. Instance Normalization (IN, 2017)

核心思想

计算步骤

特点

PyTorch实现

4. Group Normalization (GN, 2018)

核心思想

计算步骤

分组后形状: [B, G, C//G, H, W]

恢复形状后:

特点

PyTorch实现

5.对比总结

代码示例（四种归一化对比）

如何选择？

6. Transformer架构中的归一化标准方案

6.1 ChatGPT (OpenAI GPT系列)

6.2 DeepSeek

6.3 Qwen (阿里通义千问)

6.4为什么不用BatchNorm？

6.5 进阶变体：RMSNorm

6.6 模型实现对比表

6.7关键结论

相关文章：