当前位置：首页 > news >正文

【速写】prune与activate

news 2025/10/30 9:57:39

序言

昨天逼亦童跑了5K，30分25秒，3K时刚好18分钟，本想把他逼进30分钟，还是太勉强了，不过半个多月就能练到这个水平，也不赖了。

明天要去芜湖参加xxp的婚礼，实话说我还是很乐意去一趟的，xxp之前因为跟邻座因为抖腿的问题闹矛盾还动了手，搬到了我旁边，我其实无所谓，总有性格不合的人，不过跟他也一起讨论了很多问题，一段时间后也觉得xxp还是很温文儒雅的，并没有什么不好，只是年后他还没来郭实验室，确是许久不见。

最近一直在思考的一个问题，权重参数与隐层输出的解释问题。发现模型会出现一些明显不该出现的偏好，比如随机生成表格中人物的年龄，就算0~9不是均匀分布，但至少12345这几个数字出现的概率应该不会太小，但实际情况是几乎95%以上的概率第一个年龄的十位数都会是生成2，从第3个往后就不足1%了。这其实也包括人物的姓氏甚至性别：

在这里插入图片描述

当然这个事情并不好说，人类其实可能也有偏好，只是个体的偏好不是那么好量化而已。

晚饭后，偶然想到激活与剪枝，LoRA本身实际上是一种boost，都是在拟合误差——输出的误差，这和soft prompt是完全不同，soft prompt是拟合参数的误差（不太准确，还是扩充参数准确一些），但是明显现在LoRA更主流，其实也不一定是效果更好，感觉只是更易用，热插拔。

假想模型是一棵庞大的决策树，我觉得这很形象，从根输入到叶输出，传统boost只是在叶子层面调节，LoRA则可能会在树的每一层都会调节。这样就像一根竹节虫玩具，只是扭头可能尾巴就会发散的很厉害，蝴蝶效应；只扭尾巴又很费力；还是要在身体上一节一节的扭，这样才稳定且每次都不用扭太多。

这是合理的，但同时也说明了隐层输出是重要的，ICLR的BEST PAPER的方法也说明了这一点，应该编辑的是隐层输出而非权重参数。

联想到跟亦童之前讨论得出过一个结论，不管是NLP还是CV，使用LoRA时，似乎v_proj的rank会明显比q_proj或者k_proj小，这个问题之后可能会再深入分析一下，想要找到一个理论上的证明，现在只是实证了一下，对每个LoRA块进行SVD分解，然后探究奇异值的分布，v_proj的奇异值分布明显更加尖锐，

比如下面是一个rank=64的LoRA微调后某一层QKV三个LoRA块的奇异值分布情况，其余层是类似的：

在这里插入图片描述

v_proj会明显荐椎很多，其实就是秩不满，没必要达到64，推论就是V其实没必要调，Q和K更值得调。

这个现象的原因不得而知，之后再详细探讨。

还是想回到剪枝与激活的问题上，前者相当于在剪去连接神经元的突触，后者则是直接剪去神经元。

目前剪枝还是非常直观的根据权重的绝对值来剪，也可以随机剪，也就是dropout。而激活，之前的ReLU会直接切掉负输出，其实也是一种变相的剪枝对不对？不过现在还是GeLU会用得更多了，因为负数端保留了一个很小得值，前向传播的计算量变大了，反而没了这种“剪枝”的意味。

其实，prune和activate何尝不是另一种影射。

文章目录

序言
- 关于torch.nn.utils.prune中的剪枝方法
- - **1. 基础剪枝方法**
  - - **(1) 随机剪枝 (`RandomUnstructured`)**
    - **(2) 幅度剪枝 (`L1Unstructured`)**
  - **2. 结构化剪枝**
  - - **(1) 通道剪枝 (`LnStructured`)**
    - **(2) 随机结构化剪枝 (`RandomStructured`)**
  - **3. 自定义剪枝**
  - **4. 全局剪枝 (`global_unstructured`)**
  - **关键注意事项**
  - **示例代码（完整流程）**
- 关于GeLU与ReLU激活的思考
- - **1. ReLU vs. GeLU：行为对比**
  - **2. 为什么GeLU更受青睐？**
  - - **(1) 平滑性改善训练动态**
    - **(2) 近似生物学合理性**
    - **(3) 在Transformer中的表现**
    - **(4) 数值稳定性**
  - **3. ReLU的剩余优势**
  - **4. 为什么“增加复杂度”反而有效？**
  - **5. 其他类似激活函数的趋势**

关于torch.nn.utils.prune中的剪枝方法

torch.nn.utils.prune 是 PyTorch 提供的模型剪枝工具模块，它包含多种预定义的剪枝方法，用于通过移除神经网络中的冗余权重来减少模型大小和计算量。以下是该模块中常见的剪枝方法及其特点：

1. 基础剪枝方法

(1) 随机剪枝 (`RandomUnstructured`)

作用：随机移除无结构化的权重（不考虑权重的位置）。
适用场景：全连接层、卷积层等任意参数矩阵。

示例：

prune.random_unstructured(module, name='weight', amount=0.3)  # 剪枝30%权重

(2) 幅度剪枝 (`L1Unstructured`)

作用：按权重的 L1 幅度（绝对值）排序，移除最小的权重。
原理：认为绝对值小的权重对模型贡献较小。

示例：

prune.l1_unstructured(module, name='weight', amount=0.5)  # 剪枝50%权重

2. 结构化剪枝

(1) 通道剪枝 (`LnStructured`)

作用：按通道（如卷积核的整个通道）剪枝，移除整个通道。
参数：n 指定范数类型（如 L1/L2），dim 指定剪枝维度。

示例（剪枝卷积层的输出通道）：

prune.ln_structured(module, name='weight', amount=0.2, n=2, dim=0)  # L2范数剪枝20%通道

(2) 随机结构化剪枝 (`RandomStructured`)

作用：随机移除整个通道或滤波器。

示例：

prune.random_structured(module, name='weight', amount=0.3, dim=0)

3. 自定义剪枝

通过 prune.BasePruningMethod 可实现自定义剪枝策略。需重写 compute_mask 方法定义剪枝逻辑。

4. 全局剪枝 (`global_unstructured`)

作用：跨多个层全局剪枝，按统一标准（如权重大小）对所有参数剪枝。
优势：避免局部剪枝导致某些层过度稀疏。

示例：

parameters_to_prune = [(module1, 'weight'), (module2, 'weight')]
prune.global_unstructured(parameters_to_prune, pruning_method=prune.L1Unstructured, amount=0.4)

关键注意事项

掩码机制：剪枝后，原始权重被存储为 weight_orig，并通过掩码 weight_mask 屏蔽被剪枝的权重。
永久化剪枝：使用 prune.remove 永久删除掩码并应用剪枝：
```
prune.remove(module, 'weight')
```
序列化问题：剪枝后的模型需通过 state_dict 保存掩码，加载时需重新应用剪枝。

示例代码（完整流程）

import torch.nn.utils.prune as prune# 定义模型
model = torch.nn.Linear(100, 10)# 应用L1剪枝（剪枝30%权重）
prune.l1_unstructured(model, name='weight', amount=0.3)# 检查剪枝后的权重（被剪枝部分为0）
print(model.weight)# 永久化剪枝
prune.remove(model, 'weight')

通过灵活组合这些方法，可以实现模型压缩、加速推理或研究网络鲁棒性。更多细节可参考 PyTorch官方文档。

关于GeLU与ReLU激活的思考

其实激活函数也可以视为一种剪枝对不对，只是常规剪枝剪的是模型的参数，而激活本身是剪的隐层的输出，比如ReLU会剔除掉负数的输出值，使得能够加速推理或者训练。那么为什么现在多用GeLU而不是用ReLU作为激活呢，GeLU在负数端会保留很小的输出，这样不是凭空增加了复杂度吗？

确实，从某种角度看，激活函数（如ReLU）可以被视为一种对隐层输出的“动态剪枝”，而传统的参数剪枝（如权重剪枝）是对模型参数的静态剪枝。两者的核心目标都是通过稀疏化来提升模型的效率或泛化能力。但为什么现代模型（如Transformer）更倾向于使用GeLU而非ReLU？这需要从数学性质、训练动态和实际效果等多方面分析。

1. ReLU vs. GeLU：行为对比

特性	ReLU	GeLU
数学形式	`max(0, x)`	`x * Φ(x)`（Φ为标准正态CDF）
负数端处理	完全截断（硬稀疏化）	平滑衰减（软稀疏化）
梯度行为	负数梯度为0，正数梯度为1	所有位置梯度连续非零
稀疏性	强（显式稀疏）	弱（隐式稀疏）