在 Bird's Eye View(BEV)感知模型的量化过程中,由于其复杂的架构设计和多模态数据特性,会面临以下核心问题:
直接对 BEV 模型应用量化感知训练(QAT)会导致训练过程不稳定,性能出现不可接受的下降。这是因为 BEV 模型通常包含多视角图像特征提取、时空注意力机制(如 Transformer)和 BEV 特征解码等复杂模块,不同模块对量化的敏感度差异极大。例如,时空注意力模块的动态计算特性使得其激活值分布难以用低比特精度准确表示,而卷积层的量化误差可能通过多层累积放大。实验表明,直接量化会导致 BEVFormer-Tiny 模型的 NDS(nuScenes 检测得分)显著下降,而 QD-BEV 等方法通过引入视图引导蒸馏(VGD),在稳定训练的同时将 NDS 提升了 1.8%。
BEV 模型中的 Transformer 层(如时空自注意力)通过动态权重聚合多帧信息,其激活值分布具有高度动态性。量化时,传统的静态量化方法(如固定截断阈值)无法适应这种动态变化,导致关键信息丢失。例如,注意力头的权重可能包含离群值(outlier),这些值在低比特量化中容易被截断或舍入,破坏模型的空间和时间推理能力。
BEV 模型通常融合多视角图像特征和历史 BEV 特征。例如,BEVFormer 通过空间交叉注意力聚合多相机图像特征,再结合时间自注意力融合历史 BEV 信息。量化时,不同模态的特征分布差异可能导致融合后的特征精度下降。例如,图像特征的高频细节(如边缘信息)在量化后可能模糊,影响 BEV 特征的空间定位精度。
部分 BEV 模型(如 LSS)依赖 3D 卷积或体素化操作处理点云或深度信息。这些操作的高维度数据(如体素网格的深度维度)在量化时容易引发信息压缩失真。例如,3D 卷积的权重矩阵若采用 4 位量化,可能导致体素特征的空间分辨率显著降低,影响障碍物检测的高度估计精度。
自动驾驶场景中,光照、天气和道路类型的变化会导致图像和 BEV 特征的分布显著不同。量化参数(如截断阈值)若仅基于单一数据集(如晴天高速公路)训练,在复杂场景(如夜间城市道路)中可能因动态范围不匹配而失效。例如,低光照下的图像特征激活值范围较小,量化后可能出现大量零值,导致 BEV 特征稀疏化。
BEV 模型的激活值中可能存在离群值,例如注意力机制中的高权重值或深度估计中的极端距离。这些值在低比特量化中会显著增加量化步长,导致中间值的精度被压缩。例如,当使用 INT8 量化时,离群值可能使量化步长扩大数倍,使得正常范围内的特征值被错误地映射到相同的量化区间,造成信息丢失。
尽管混合精度量化(如权重 FP16 + 激活 INT8)能平衡精度与效率,但 BEV 模型中的某些层(如 Transformer 的 FFN 层)对混合精度敏感。例如,NVIDIA TensorRT 对 Transformer 层的混合精度优化仍存在兼容性问题,可能导致推理速度提升不明显甚至下降。
BEV 模型的量化版本虽能减小模型体积(如 QD-BEV-Tiny 仅 15.8MB),但边缘设备(如 Jetson AGX Orin)的内存带宽和计算资源有限。例如,3D 卷积的量化模型在边缘设备上可能因并行计算能力不足,导致推理延迟无法满足实时性要求(如 30 帧 / 秒)。
动态量化虽能在推理时自适应调整量化参数,但 BEV 模型的时空依赖性(如历史 BEV 特征的递归传递)使得动态量化的计算开销增加。例如,在 BEVFormer 中,动态量化需要为每个时间步重新计算量化参数,可能抵消量化带来的速度优势。
BEV 模型常融合相机图像、激光雷达点云等多模态数据,不同模态的数据特性差异显著:
- 图像数据:高频细节丰富,量化时需保留边缘和纹理信息,否则会影响 BEV 特征的空间分辨率。
- 点云数据:稀疏且动态范围大,量化时需平衡稀疏性和精度,避免体素化后的密度信息丢失。
- 融合机制:多模态特征融合层(如早期融合或后期融合)对量化误差敏感。例如,图像特征的量化误差可能通过融合层传递到 BEV 特征,导致目标检测框的位置偏移。
通过同时蒸馏图像域和 BEV 域的特征,QD-BEV 等方法能有效缓解量化带来的精度损失。例如,在 nuScenes 数据集上,W4A6 量化的 QD-BEV-Tiny 模型通过 VGD 将 NDS 提升至 37.2%,超过未量化的 BEVFormer-Tiny 模型。
对不同层采用差异化的量化方案:
- Transformer 层:对注意力头的权重采用更高精度(如 FP16),激活值采用 INT8,同时优化 KV 缓存的内存访问模式。
- 卷积层:使用混合精度量化,对权重和激活值分别设置不同的比特宽度,并结合通道级量化减少维度间误差。
针对 BEV 模型的动态数据特性,采用动态量化或基于统计分布的量化参数调整。例如,使用 KL 散度自适应计算截断阈值,或在推理时根据输入数据实时调整量化参数。
- GPU 平台:利用 TensorRT 的 FP16/INT8 混合精度支持,并针对 Transformer 层进行算子融合优化。
- 边缘设备:采用模型剪枝 + 量化的联合优化,例如将 BEVFormer 的查询向量数量减少 50% 后再进行量化,可在 Jetson AGX Orin 上实现 30 帧 / 秒的推理速度。
BEV 感知模型的量化需针对其多模态数据、时空动态性和复杂网络结构进行定制化优化。未来研究需进一步探索动态量化与硬件感知的联合优化(如基于 FPGA 的动态精度调整),以及多模态数据的协同量化策略(如跨模态特征对齐)。通过结合视图引导蒸馏、层特定量化和硬件适配技术,可在保持 BEV 模型高精度的同时实现高效部署,为自动驾驶的边缘计算提供可行方案。