当前位置：首页 > news >正文

【AI论文】递归混合体：学习动态递归深度以实现自适应的令牌级计算

news 2025/7/22 22:05:08

摘要：扩展语言模型规模可解锁令人瞩目的能力，但随之而来的计算与内存需求却使得模型训练和部署成本高昂。现有的提升效率方法通常侧重于参数共享或自适应计算，但如何同时实现这两点仍是一个待解难题。为此，我们提出了递归混合体（Mixture-of-Recursions，MoR）这一统一框架，它将两种效率提升途径整合于单一的递归Transformer之中。MoR通过在递归步骤中复用共享层堆栈来实现参数高效利用，同时，轻量级路由器能够动态地为单个令牌分配不同的递归深度，从而实现自适应的令牌级思考。这使得MoR仅在给定递归深度下仍处于活跃状态的令牌之间进行二次注意力计算，并通过仅选择性缓存这些令牌的键值对，进一步提高了内存访问效率。除了这些核心机制外，我们还提出了一种键值（KV）共享变体，它复用首次递归中的键值对，旨在降低预填充延迟和内存占用。在模型规模从1.35亿到17亿参数的范围内，MoR形成了新的帕累托前沿：在训练浮点运算次数（FLOPs）相同且模型规模更小的情况下，与普通模型和现有的递归基线相比，它显著降低了验证困惑度，提高了少样本准确率，同时实现了更高的吞吐量。这些优势表明，MoR是一条在不增加大模型成本的情况下实现大模型质量的有效途径。Huggingface链接：Paper page，论文链接：2507.10524

研究背景和目的

研究背景：

随着语言模型规模的扩大，模型展现出了惊人的少样本泛化和推理能力，例如GPT-4、Llama等模型的出色表现。然而，这种性能提升伴随着巨大的计算和内存需求，使得模型的训练和部署成本高昂，尤其是在非超大规模数据中心环境中部署这些模型变得具有挑战性。为了应对这一问题，研究人员提出了多种提升模型效率的方法，主要包括参数共享和自适应计算两大方向。

参数共享方面，通过层绑定（layer tying）等技术，在多个层中重复使用同一组权重，从而减少模型参数数量，如Universal Transformer和Relaxed Recursive Transformers等模型所示。然而，单纯的参数共享方法虽然减少了参数量，但并未解决计算冗余问题。

自适应计算方面，研究者们探索了动态计算分配的方法，如早期退出（early-exiting）机制，通过根据输入样本的复杂度动态调整计算量，以减少不必要的计算。然而，这些方法往往需要专门的训练过程或在部署时面临效率挑战，且通常应用于固定的模型深度，无法真正实现自适应的令牌级计算分配。

研究目的：

本研究旨在提出一种统一的框架，能够同时实现参数高效利用和自适应计算，从而在不增加大模型成本的情况下实现大模型的质量。具体而言，研究旨在：

实现参数高效利用：通过层复用减少模型参数数量，降低内存占用。
实现自适应计算：通过动态调整每个令牌的递归深度，使计算资源能够集中在需要更多处理的复杂令牌上，提高计算效率。
优化内存访问效率：通过选择性缓存活跃令牌的键值对，减少不必要的内存访问，提高模型推理速度。

研究方法

为了实现上述研究目的，本研究提出了Mixture-of-Recursions（MoR）框架，具体方法包括以下几个方面：

1. 参数共享策略：

MoR框架在递归Transformer中复用共享层堆栈，通过参数共享减少模型参数量。研究比较了四种参数共享策略：Cycle、Sequence、Middle-Cycle和Middle-Sequence。Middle-Cycle策略在保持首尾层独特参数的同时共享中间层参数，被证明是最有效的参数共享方式。

2. 自适应递归深度分配：

MoR框架引入了轻量级路由器，用于动态决定每个令牌的递归深度。研究设计了两种路由策略：