当前位置：首页 > news >正文

权重修剪（Pruning）和量化（Quantization）

news 2025/7/6 1:30:38

权重修剪（Pruning）和量化（Quantization）都是深度学习模型压缩和加速的重要技术，它们都能减少模型大小和计算复杂度，但方式和原理不同：

1. 权重修剪（Pruning）

权重修剪的主要思想是移除对模型预测影响较小的权重，使模型更加稀疏，从而减少存储需求和计算量。主要的修剪方式包括：

非结构化剪枝（Unstructured Pruning）：直接去除权重矩阵中绝对值较小的权重，例如设定一个阈值，把小于该阈值的权重置零。这样可以减少存储需求，但计算上仍然需要特殊的优化（如稀疏矩阵乘法）。
结构化剪枝（Structured Pruning）：直接剪掉整个神经元、卷积核或通道，从而减少计算量，使模型在硬件上更容易加速。

为什么剪枝能减小模型大小？

剪枝后，许多权重变为零，可以采用稀疏存储格式（如CSR格式）来减少存储需求。
结构化剪枝能减少整个神经元或通道，从而降低计算复杂度，加速推理。

2. 量化（Quantization）

量化的核心思想是减少模型中数值表示的位数，通常是将 32-bit 浮点数（FP32）转换为 16-bit（FP16）、8-bit（INT8）或更低的精度。

常见的量化方法：

后训练量化（Post-training Quantization, PTQ）：在训练完成后，将权重和激活值转换为低精度表示，通常结合校准数据来减少精度损失。
量化感知训练（Quantization-aware Training, QAT）：在训练过程中引入量化模拟，使模型在低精度下仍能保持较高准确率。

为什么量化能减小模型大小？

低精度的权重占用更少的存储空间，例如：
- FP32（32-bit） → INT8（8-bit）可减少 4 倍 存储需求。
计算时使用低精度数据可以加速推理，尤其是在支持 INT8 计算的硬件（如 ARM 处理器、TPU）上，计算效率大幅提升。

总结：权重修剪 vs 量化

方法	主要作用	如何减少模型大小	计算加速
权重修剪	移除不重要的权重	稀疏存储，减少非必要参数	结构化剪枝可减少计算量
量化	用低位数表示权重	用更少的比特存储参数	低精度计算加速推理

两者可以结合使用，例如：

先进行权重修剪，使模型更稀疏；
再进行量化，将剩余的权重存储为低精度数据。

这样既能减少存储需求，也能加速推理。

http://www.dtcms.com/a/16609.html

相关文章：

Rust学习总结之结构体（一）

【第3章：卷积神经网络（CNN）——3.4 MNIST手写数字识别】

SonarQube

JavaScript 网页设计案例：经典与创新的完美结合

DNS污染、劫持频发？HTTPDNS让安全无死角

C++从入门到实战（四）C++引用与inline，nullptr

DDD聚合在 ASP.NET Core中的实现

解决引入第三方SDK导致的依赖冲突问题

.gitignore中忽略node_modules

2.11 sqlite3数据库【数据库的相关操作指令、函数】

编程技巧：VUE 实现接口返回数据的流式处理

算法——对比A*算法与IDA*算法

Golang GORM系列：GORM数据库迁移

AI软件栈：LLVM分析（五）

Git标签管理：从基础到高阶自动化实践

第6章 6.4 ASP.NET Core Web API各种技术及选择

人工智能算法python程序运行环境安装步骤整理

贪心算法（Greedy Algorithm）

AI前端开发与云计算结合：效率革命，ScriptEcho引领未来

网络安全设备异构要求网络安全设备硬件

NetworkX布局算法：nx.spring_layout

ADC入门准备（十）：信号与系统知识回顾

算法16（力扣451）——根据字符出现频率排序

使用 Python 爬虫获取微店快递费用 item_fee API 接口数据

SolidWorks速成教程P3-3【零件 | 第三节】——草图绘制面实线与构造线的区别

贪心算法_翻硬币

React中Fragment的使用

[Windows] NVIDIA显卡驱动安装去除其中垃圾程序，NVCleanstall

Flutter项目试水

【Framework系列之Client】LoadManager、ResourceManager介绍