当前位置：首页 > news >正文

【AI论文】通过渐进式一致性蒸馏实现高效的多模态大语言模型

news 2025/10/14 6:19:56

摘要：在多模态大语言模型（Multi-modal Large Language Models, MLLMs）中，视觉令牌（Visual tokens）会消耗大量计算资源，这极大地降低了模型的效率。近期的一些研究尝试通过在训练过程中压缩视觉令牌来提升效率，方法包括修改模型组件或引入额外的参数。然而，这些研究往往忽视了此类压缩操作所带来的学习难度增加问题，因为模型的参数空间难以快速适应由令牌压缩引起的特征空间中的大幅扰动。在本研究中，我们提出了一种渐进式学习框架——通过渐进式一致性蒸馏（Progressive Consistency Distillation, EPIC）开发高效的多模态大语言模型（Efficient MLLMs）。具体而言，我们沿着令牌维度和层维度对令牌压缩所引入的特征空间扰动进行分解，分别引入了令牌一致性蒸馏和层一致性蒸馏，旨在通过利用教师模型的指导并遵循渐进式学习轨迹来降低训练难度。大量实验表明，我们提出的框架具有卓越的有效性、鲁棒性和泛化能力。Huggingface链接：Paper page，论文链接：2510.00515

研究背景和目的

研究背景：
随着多模态大语言模型（MLLMs）的发展，这些模型在处理和理解多模态信息（如图像、视频和文本）方面展现出了卓越的能力。

然而，与仅需处理少量密集文本令牌的大语言模型（LLMs）不同，MLLMs需要处理大量的视觉令牌，这导致了显著的计算挑战，尤其是在处理高分辨率图像或多帧视频时。视觉令牌的数量通常比文本令牌多出几个数量级，同时包含更大的空间冗余性，这使得MLLMs的计算效率成为亟待解决的问题。

为了提高MLLMs的效率，近期的研究尝试通过压缩视觉令牌来减少计算资源消耗。这些方法包括基于模型组件修改的参数化方法和无需额外训练的非参数化方法。然而，这些方法往往忽略了令牌压缩在训练过程中增加的学习难度，因为模型参数空间需要快速适应由令牌压缩引起的特征空间中的大幅扰动。

研究目的：
本研究旨在提出一种新的学习框架——通过渐进一致性蒸馏（EPIC）来提高多模态大语言模型的效率。具体目标包括：

减少计算资源消耗：通过压缩视觉令牌来降低MLLMs在处理高分辨率图像和视频时的计算资源需求。
保持模型性能：在压缩视觉令牌的同时，确保模型的性能不会显著下降，甚至在某些情况下能够提升模型性能。
提高训练稳定性：通过引入教师模型的指导，减少由于令牌压缩引起的特征空间扰动对模型训练的影响，提高训练的稳定性和收敛性。

研究方法

为了实现上述研究目标，本研究提出了EPIC框架，该框架主要包括两个关键组件：令牌一致性蒸馏（TCD）和层一致性蒸馏（LCD）。

令牌一致性蒸馏（TCD）：

渐进式学习：在训练初期，教师模型和学生模型都采用较低的令牌压缩比，形成相对容易的学习任务。随着训练的进行，逐步增加压缩比，形成渐进式学习轨迹。
教师模型与学生模型共享参数：教师模型使用略低于学生模型的压缩比，通过KL散度损失函数指导学生模型的学习，提供平滑的目标分布。
压缩比差距控制：教师模型和学生模型之间的压缩比差距也设计为遵循渐进式学习策略，逐步增加差距，以减轻学习难度。

层一致性蒸馏：

从深到浅层层推进：在训练初期，视觉令牌压缩主要在深层进行，随着训练的深入，逐步将压缩令牌引入较浅层，遵循由易到难的学习路径。
教师模型与学生模型的压缩比差距：教师模型使用略低于学生模型的压缩比，鼓励学生从教师模型中受益，逐步引导学生模型适应更强的压缩。

一致性蒸馏损失函数：使用KL散度作为一致性蒸馏的损失函数，衡量教师模型和学生模型输出分布之间的差异，指导学生模型向教师模型靠近。

研究结果

模型性能：

在多个视觉理解基准测试中，使用EPIC框架训练的MLLMs在保持高效能的同时，实现了与基线模型相当甚至更好的性能。具体来说，在MMBench等基准测试中，使用64个视觉令牌的模型在FLOPs和KV缓存使用上显著优于使用576个视觉令牌的LLaVA-v1.5模型。

效率提升：

计算资源减少：与基线模型相比，使用EPIC框架的模型在视觉令牌数量减少80%以上的情况下，仍能保持相当的性能水平，显著降低了计算资源消耗。具体表现为KV缓存、CUDA时间和FLOPs的大幅减少。
训练时间缩短：EPIC框架仅需在8个A100 GPU上训练约12小时，显著少于大多数需要两到三个训练阶段的方法。

鲁棒性和泛化能力：