LLM 加速技术有哪些
LLM 加速技术有哪些
目录
-
- LLM 加速技术有哪些
-
- 量化(Quantization)
-
- 基本原理
- 举例
- 剪枝(Pruning)
-
- 基本原理
- 举例
- 动态Shape(Dynamic Shape)
-
- 基本原理
- 举例
- 算子融合(Operator Fusion)
-
- 基本原理
- 举例
量化(Quantization)
基本原理
量化是指将模型中连续取值(如32位浮点数)的参数或激活值用离散值(如8位整数)来近似表示。这样做可以减少模型的存储需求和计算量,因为整数运算通常比浮点数运算更快,并且占用更少的内存空间。量化过程主要包括两个步骤:确定量化的范围(即最大值和最小值),然后将范围内的连续值映射到离散的量化级别上。
举例
在一个卷积神经网络(CNN)中,原本的卷积层权重是32位浮点数。通过量化,将这些权重转换为8位整数。例如,假设原始的权重值范围是[-1.0, 1.0],量化后将这个范围映射到[-128, 127]的整数区间。在推理时,使用8位整数进行卷积运算,而不是32位浮点数,从而显著减少计算量和内存占用。
剪枝(Pruning)
基本原理
剪枝是指去除模型中对输出结果影响较小的参数或连接。在训练好的模型中,有些参数对模型的性能贡献不大,通过剪枝可以减少模型的复杂