当前位置：首页 > news >正文

【训练技巧】冻结模型参数在模型微调、迁移学习等场景的应用及举例说明

news 2025/11/12 5:49:41

前言：冻结模型参数是深度学习中常用的技术手段，在迁移学习、模型微调等场景尤为重要。以下是需要注意的关键内容：

一、冻结的目的与适用场景

防止过拟合
当训练数据较少时，冻结预训练模型的大部分参数，仅微调顶层结构（如分类层），可有效降低模型复杂度，避免过度拟合小样本数据。
加速训练
冻结参数无需计算梯度，减少了反向传播的计算量，显著提升训练效率。
保留底层特征提取能力
预训练模型（如ResNet、BERT）的底层通常学习通用特征（边缘、纹理等），冻结后可复用其特征提取能力。

二、操作注意事项

1. 选择冻结层

底层优先冻结：卷积网络的前几层或Transformer的Embedding层通常保留通用特征，适合冻结。
顶层需解冻：分类层、回归层等任务相关结构需解冻以适配新任务。

示例代码（PyTorch）：

# 冻结所有参数
for param in model.parameters():param.requires_grad = False# 解冻顶层分类器
for param in model.classifier.parameters():param.requires_grad = True

2. 梯度验证

冻结后需确认梯度计算是否停止：

print(model.conv1.weight.requires_grad)  # 输出应为False

3. 学习率调整

解冻层需设置更高的学习率（如10倍于冻结层），例如：

optimizer = torch.optim.Adam([{'params': model.frozen_layers.parameters(), 'lr': 1e-5'},{'params': model.unfrozen_layers.parameters(), 'lr': 1e-4'}
])

三、常见问题与解决

性能下降
- 问题：过度冻结导致模型无法适应新任务。
- 解决：逐步解冻中间层（如每训练5个epoch解冻一层），观察验证集效果。
梯度异常
- 问题：未完全冻结的层产生梯度爆炸。
- 解决：使用梯度裁剪（torch.nn.utils.clip_grad_norm_）。
参数意外更新
- 问题：优化器未正确过滤冻结参数。
- 解决：优化器中显式过滤需训练参数：
```
optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()))
```

四、特殊场景处理

部分解冻：
对异构模型（如多模态网络），可针对性解冻特定模块（如仅解冻文本分支）。
动态冻结：
采用课程学习策略，随训练进度逐步解冻层（如torch.optim.lr_scheduler结合解冻调度）。

backbone冻结

参数梯度控制
将 backbone 的所有参数设置为 requires_grad=False，使优化器在反向传播时不更新其权重。
优化器配置
仅将需要训练的参数（如新增分类层）传入优化器。

代码实现

import torch
import torchvision.models as models# 加载预训练模型（以 ResNet18 为例）
model = models.resnet18(pretrained=True)# 冻结所有 backbone 参数
for param in model.parameters():param.requires_grad = False# 替换分类层（适配新任务）
num_classes = 10  # 新任务类别数
model.fc = torch.nn.Linear(model.fc.in_features, num_classes)# 配置优化器（仅训练新添加的层）
optimizer = torch.optim.Adam(model.fc.parameters(), lr=0.001)# 训练示例（伪代码）
for epoch in range(epochs):for data, target in dataloader:optimizer.zero_grad()output = model(data)loss = loss_fn(output, target)loss.backward()optimizer.step()

关键说明

梯度验证
可通过以下代码检查参数是否冻结：

# 检查 backbone 参数梯度状态
print(model.conv1.weight.requires_grad)  # 输出应为 False

部分冻结
若需解冻特定层（如最后两个卷积块），可针对性设置：

# 解冻 layer4 的参数
for param in model.layer4.parameters():param.requires_grad = True

应用场景
适用于迁移学习、小样本训练等场景，避免因数据量不足导致的过拟合。

BatchNorm的特殊处理

BatchNorm层包含可学习参数（ $γ\gamma$ , $β\beta$ ）和统计量（均值 $μ\mu$ 、方差 $σ2\sigma^2$ ）。冻结时需注意：

1. 参数冻结

缩放参数 $γ\gamma$ 和偏移 $β\beta$ ：可通过常规冻结方法关闭梯度计算：

for module in model.modules():if isinstance(module, nn.BatchNorm2d):module.weight.requires_grad = False  # γmodule.bias.requires_grad = False    # β

2. 统计量处理

运行均值 $μ\mu$ 和方差 $σ2\sigma^2$ ：
此类统计量在训练时动态更新，不应完全冻结。建议：
- 保持更新：在训练中继续累积统计量（momentum < 1），使模型适应新数据分布。
- 固定统计：在推理时使用当前统计值（通过model.eval()切换）。

3. 替代方案

替换为其他归一化层：如冻结所有BatchNorm层后，可替换为：
```
nn.GroupNorm(num_groups=32, num_channels=64)  # 组归一化
```
使用预训练统计量：在微调阶段直接固定统计量：
```
model.eval()  # 推理模式（停止统计量更新）
```

完整示例（PyTorch）

import torch.nn as nn# 冻结模型主体（含BatchNorm参数）
for param in model.parameters():param.requires_grad = False# 单独处理BatchNorm的统计量更新
for module in model.modules():if isinstance(module, nn.BatchNorm2d):module.track_running_stats = True  # 继续累积统计量module.momentum = 0.1  # 控制更新速度# 解冻分类层
model.classifier.weight.requires_grad = True
model.classifier.bias.requires_grad = True# 训练模式（统计量更新）
model.train() 
# 推理时切换为 model.eval()