当前位置：首页 > news >正文

Granite 4.0 Tiny：IBM也开始卷大模型？

news 2025/7/1 19:57:33

--->更多内容，请移步“鲁班秘笈”！！<---

IBM最近推出了其即将到来的Granite 4.0语言模型家族中体积最小的成员——Granite 4.0 Tiny的预览版。这款紧凑型模型在保持高效性能的同时，也为长文本处理和指令遵循场景带来了新的可能。

架构与设计理念

Granite 4.0 Tiny预览版采用了一种独特的混合架构，将Mamba-2<温故知新>风格的状态空间模型（SSM）与传统Transformer架构融合在一起。这种设计理念源于IBM研究团队与Mamba原创者在Bamba项目上的合作，旨在结合两种架构的优势，克服各自的局限性。

这款模型采用了细粒度的混合专家系统（MoE）结构，总计拥有7B参数，但在每次前向传播中仅激活1B参数。这种稀疏性使模型能够在显著降低计算开销的同时，提供可扩展的性能——这对于资源受限环境和边缘计算尤为重要。

小编曾经很详细介绍了Mamba系列，感兴趣的读者可以去回顾一下。Mamba是一种状态空间模型（SSM），于2023年推出，而Transformer模型在2017年问世。

状态空间模型在概念上类似于在Transformer时代之前主导自然语言处理（NLP）领域的循环神经网络（RNN）。它们最初被设计用来预测连续序列（如电信号）的下一个状态，只使用当前状态、前一状态和可能性范围（即状态空间）的信息。尽管几十年来SSM已在多个领域使用，但它们与RNN共享某些缺点，直到最近这些缺点还限制了它们在语言建模方面的潜力。与Transformer的自注意力机制不同，传统的SSM没有固有的能力选择性地关注或忽略特定的上下文信息。

在2023年，卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao引入了一种结构化状态空间序列（"S4"）神经网络，增加了选择机制和扫描方法（用于计算效率）——缩写为"S6"模型——并取得了与Transformer相竞争的入场券。2024年，Gu和Dao发布了Mamba-2，这是Mamba架构的简化和优化实现。最后得出了SSM和自注意力之间是殊途同归的结论。

NoPE

传统语言模型常常依赖位置编码（PE）来表示词序信息，但研究表明，使用旋转位置编码（RoPE）等技术的模型难以泛化到长序列。

Granite 4.0架构采用了无位置编码（NoPE）技术。与常规的固定或学习型位置嵌入不同，该模型将位置处理直接集成到其层动态中。IBM的测试证明，这种方法不仅提高了模型在不同输入长度上的泛化能力，还提升了长序列生成的一致性，同时不会对长文本处理性能产生负面影响。

目前，IBM已验证了Tiny预览版在至少128K令牌长度的上下文中的性能，并期望在模型完成训练和后训练后，能够在显著更长的上下文长度上获得类似的表现。Granite 4.0 Tiny预览版在资源效率方面有着令人印象深刻的表现。在FP8精度下，多个并发会话可以在消费级硬件上运行长上下文（128K）任务，包括价格低廉的GPU。

多个Granite 4.0 Tiny的并发实例也可以在一个普通的消费级GPU上轻松运行。相比之下，模型的内存需求减少了约72%。