当前位置：首页 > news >正文

稀疏大模型架构与训练算法研究

news 2025/10/9 10:11:26

一、稀疏大模型架构与训练算法研究

稀疏大模型是指在神经网络架构中采用稀疏连接策略，而非传统的全连接结构的大规模语言模型。这种模型通过减少不必要的连接和计算，在保持性能的同时显著提高计算效率。

基本概念

稀疏大模型主要体现在两个方面：参数稀疏性和激活稀疏性。参数稀疏性指模型中大部分权重参数为零或被剪枝；激活稀疏性则是指在推理过程中只有部分神经元被激活。

混合专家模型(MoE)是稀疏大模型的典型代表，它通过稀疏激活专家模块来提高计算效率。如豆包大模型团队提出的UltraMem架构，有效解决了MoE推理时的高额访存问题，推理速度较传统MoE架构提升2~6倍，推理成本最高可降低83%[11]。

研究背景

随着大语言模型规模不断扩大，计算资源需求呈指数级增长，带来了巨大的训练和推理成本。传统稠密模型在扩展性和效率方面面临严峻挑战：

计算资源瓶颈：稠密模型需要大量GPU/TPU资源支持
能耗问题：大模型训练和推理过程能耗巨大
部署限制：难以在资源受限设备上高效运行

微软亚洲研究院提出的Q-Sparse技术实现了模型的完全稀疏激活，只需激活60%的参数就能实现与全激活稠密模型相当的性能[26]。

研究意义

稀疏大模型研究具有重要的理论和实践意义：

1. 计算效率提升

稀疏模型通过减少大量不必要的权重计算，显著降低训练和推理的计算成本，尤其在大规模数据集上表现更为明显[20]。

2. 资源消耗优化

稀疏注意力机制能有效降低计算和内存开销，使模型在有限资源环境中运行更加高效。IEEE研究表明，静态结构化稀疏注意力掩码可显著减轻Transformer推理中的计算负担

3. 模型扩展性增强

研究表明，稀疏模型更倾向于优先扩展训练数据(training tokens)而非活跃参数(active parameters)，这与稠密模型的扩展模式形成鲜明对比，为大模型的持续扩展提供了新思路[26]。

4. 边缘设备部署可能性

稀疏模型的轻量化特性使其在边缘设备或移动端的部署成为可能，扩展了AI应用场景[20]。

5. 多模态融合新方向

苹果与索邦大学的联合研究发现，早期融合模型结合稀疏架构(如MoE)能够动态分配参数，针对不同模态进行专项优化，相较于稠密模型显著提升性能[21]。

稀疏大模型研究正逐渐模糊稀疏与稠密模型之间的界限，动态稀疏训练和自适应稀疏结构等技术进步，使稀疏模型在保持高效的同时，逼近甚至超越稠密模型的性能。未来，稀疏与稠密的融合将开启深度学习的新篇章，引领我们进入更加智能、高效、可持续的AI时代。

二、稀疏大模型的理论基础

稀疏大模型的理论基础

稀疏神经网络通过减少不必要的连接和计算，在保持性能的同时显著提高计算效率。这一理论基础对于解决大语言模型计算资源瓶颈具有重要意义。

稀疏神经网络的基本原理

稀疏神经网络的核心思想是在网络中仅保留关键连接，而非传统的全连接结构。这种层次化稀疏连接结构能有效降低高维数据处理中的维度灾难影响。

稀疏神经网络基于以下关键原理：

组合稀疏性：在可计算函数中，仅少数组件被激活，形成分层模块化结构，使网络能高效处理复杂任务。
动态连接优化：通过强化共激活神经元间的突触连接，优化网络学习效率，这是稀疏网络自适应能力的基础。
稀疏自编码器：通过稀疏性约束从输入数据中提取结构清晰、语义明确的可解释特征，为稀疏模型提供了特征学习的理论支撑。

稀疏Transformer模型理论

稀疏Transformer模型通过以下机制实现高效计算：

动态稀疏训练：周期性调整模型参数的稀疏分布，通过剪枝和生长两种动态策略优化网络结构。
逐层稀疏性分配：针对不同网络层采用不同稀疏比例，根据层的重要性动态分配计算资源。
"中奖彩票"假设：在稠密网络中存在极其稀疏的子网络（中奖彩票），能够保持与原始网络相当的任务性能。

稀疏注意力机制

稀疏注意力机制是稀疏大模型的核心组件，通过近似密集注意力输出来降低计算开销

神经元启发式稀疏注意力(NSA)：该机制在保持与全注意力基线相当或更优性能的同时，显著优于现有稀疏注意力方法。
低秩近似稀疏注意力：在多模态大语言模型中，稀疏注意力不仅提高效率，还能提升模型性能，这表明稀疏结构可能更适合捕捉多模态信息中的关键依赖关系。
推理优化规模法则：卡内基梅隆大学的研究揭示了稀疏注意力机制的规模法则，为大模型测试阶段的资源分配策略提供了理论指导[25]。

稀疏大模型的理论基础正在不断完善，从早期的静态稀疏结构发展到如今的动态自适应稀疏架构。微软亚洲研究院的研究表明，通过完全激活稀疏技术，只需激活60%的参数就能实现与全激活稠密模型相当的性能，这为解决大模型计算效率问题提供了新思路[26]。

这些理论创新为解决大模型计算效率问题提供了坚实基础，也为未来AI技术在资源受限环境下的广泛应用铺平了道路。

三、稀疏大模型的架构设计

混合专家稀疏模型

混合专家模型(MoE)是稀疏大模型的典型代表，通过动态激活部分专家模块实现计算资源的高效利用。豆包大模型团队提出的UltraMem架构成功解决了传统MoE模型在推理时面临的高额访存问题，使推理速度提升2至6倍，同时将推理成本最高降低83%[22]。

UltraMem架构的创新之处在于其独特的稀疏连接设计，不仅克服了访存瓶颈，还揭示了新的规模定律(Scaling Law)，证明其在性能上能够超越传统MoE模型[11]。

参数高效的大模型架构

稀疏大模型通过层次化稀疏连接结构，实现了参数的高效利用。这种结构通过跨层数据流动的路径优化，有效降低了高维数据处理中的维度灾难影响。微软亚洲研究院的Q-Sparse技术展示了这一优势——只需激活60%的参数，就能实现与全激活稠密模型相当的性能[26]。

Q-Sparse的核心是对输入张量应用Top-K稀疏化函数，通过预设超参数K决定稀疏化程度。在前向传播中，稀疏化后的张量替代原始输入参与计算；在反向传播中，则采用直通估计器(Straight-Through Estimator)计算梯度，避免梯度消失问题[26]。

稀疏注意力与稠密注意力的效率对比

稀疏注意力机制通过近似密集注意力输出来降低计算开销，在保持性能的同时显著提升效率：

特性	稀疏注意力	稠密注意力	具体数据
计算效率	显著降低计算成本	计算成本高	稀疏注意力可降低40-60%计算量
内存占用	较低	较高	稀疏模型可减少30-50%内存需求[20]
扩展性	优先扩展训练数据	同时增加参数量和计算资源	稀疏模型在相同参数量下可处理更多训练数据[21]
应用场景	边缘设备、移动端	高性能计算平台	稀疏模型适合资源受限环境[24]

研究表明，在多模态大语言模型中，稀疏注意力不仅提高效率，还能提升模型性能，这表明稀疏结构可能更适合捕捉多模态信息中的关键依赖关系。

稀疏与稠密的融合趋势

苹果与索邦大学的联合研究探索了早期融合与稀疏架构的结合，发现从头训练的早期融合模型在计算效率和扩展性上更具优势。研究还表明，专家混合(MoE)稀疏架构能动态分配参数，针对不同模态进行专项优化，相较于稠密模型显著提升性能[21]。

未来，稀疏与稠密模型的界限将逐渐模糊。混合稀疏-稠密结构的模型既能在关键层保持全连接以捕获复杂特征，又能在计算密集层采用稀疏策略降低整体计算成本[20]。BitNetb1.58和Q-Sparse(可配备MoE)的结合，为未来LLMs在提升效率、降低成本和能耗方面提供了清晰的路径[26]。

四、稀疏大模型的训练算法

稀疏训练方法

稀疏训练是在模型训练过程中直接引入稀疏性约束的方法。最常见的实现方式是通过在损失函数中添加正则化项(如L1正则化)，鼓励权重稀疏化[24]。此外，还可以使用基于学习的稀疏化方法，通过特殊的网络结构(如稀疏卷积网络)来直接学习稀疏的权重。

微软亚洲研究院提出的Q-Sparse技术采用Top-K稀疏化函数，通过预设超参数K决定稀疏化程度。在前向传播中，稀疏化后的张量替代原始输入参与计算；在反向传播中，则采用直通估计器(Straight-Through Estimator)计算梯度，避免梯度消失问题[26]。

剪枝技术

剪枝是稀疏模型优化中最直观的方法之一，通过在训练后的模型中移除不重要的权重或神经元来减少模型的参数数量。剪枝可分为两种主要类型[24]：

结构化剪枝：按照网络的层次或通道进行剪枝
非结构化剪枝：逐个权重或神经元地进行剪枝

剪枝技术的关键在于如何准确评估权重或神经元的重要性，以避免对模型性能造成过大影响。为实现Transformer模型的高效部署，模型压缩和优化通常是必要的，而剪枝是使模型推理更高效的重要手段。

动态稀疏训练方法

动态稀疏训练是一种更为先进的稀疏化策略，它在训练过程中动态调整模型的稀疏结构。这种方法通常包含两个关键操作[20]：

剪枝：移除不重要的连接
生长：在需要的位置添加新连接

这种动态调整使模型能够适应训练过程中的变化，更有效地学习数据中的模式。微软亚洲研究院的研究表明，Q-Sparse技术在从头训练、继续训练和微调等多种场景下都能有效应用，显示了动态稀疏训练的广泛适用性[26]。

梯度稀疏化

梯度稀疏化是另一种提高训练效率的方法，通过仅保留和更新梯度中最重要的部分，减少通信开销和计算量。在分布式训练环境中，梯度稀疏化尤为重要，可以显著减少节点间的通信量。

在Q-Sparse中，为了处理稀疏化操作导致的梯度计算问题，研究者使用了直通估计器(STE)来计算Top-K函数的梯度。STE通过直接将梯度传递给稀疏化之前的张量，避免了梯度消失的问题[26]。

稀疏注意力训练

稀疏注意力机制是降低Transformer模型计算复杂度的有效方法。静态结构化稀疏注意力掩码可以有效减轻Transformer推理中的计算负担。

神经元启发式稀疏注意力(NSA)在保持与全注意力基线相当或更优性能的同时，显著优于现有稀疏注意力方法

。

卡内基梅隆大学的研究团队对大语言模型在测试阶段的资源分配策略提出了全新见解，揭示了稀疏注意力如何优化大模型[10]。

训练效果与实践应用

微软亚洲研究院的实验表明，在700M和7B模型上，使用70%top-K(即40%的整体稀疏率)的Q-Sparse可以达到与密集baseline相当的训练损失。在继续训练和微调实验中，对于Qwen-7B和Mistral-7B两种模型，Q-Sparse用60%左右的激活参数实现了与密集模型十分接近的表现[26]。

这些训练算法不仅提高了模型的计算效率，还为稀疏大模型在资源受限环境中的应用提供了可能，使AI技术能够在更广泛的场景中发挥作用。

五、稀疏大模型的优化与应用

推理优化技术

稀疏大模型通过减少不必要的连接和计算，显著提高了推理效率。微软亚洲研究院提出的Q-Sparse技术实现了模型的完全稀疏激活，只需激活60%的参数就能实现与全激活稠密模型相当的性能[26]。

豆包大模型团队提出的UltraMem架构解决了MoE推理时的高额访存问题，推理速度较传统MoE架构提升2~6倍，推理成本最高可降低83%[11]。

稀疏注意力机制

稀疏注意力机制通过近似密集注意力输出来降低计算开销

。神经元启发式稀疏注意力(NSA)在保持与全注意力基线相当或更优性能的同时，显著优于现有稀疏注意力方法。

卡内基梅隆大学的研究团队对大语言模型在测试阶段的资源分配策略提出了全新见解，揭示了稀疏注意力如何优化大模型[10]。

稀疏与量化结合

Q-Sparse与模型量化技术结合，可实现更大程度的降本增效。Q-Sparse与微软亚洲研究院此前发布的BitNet技术正交且互补，为LLMs推理中的数据类型提供了全面优化——BitNet专注于模型权重的低比特(即1.58bit)，而Q-Sparse专注于网络激活的稀疏化[26]。

边缘设备部署策略

稀疏模型的轻量化特性使其在边缘设备或移动端的部署成为可能[24]。具体部署策略包括：

资源分配优化：在资源受限环境中，稀疏模型可以根据设备能力动态调整稀疏率，平衡性能与资源消耗。例如，在移动设备上可采用更高的稀疏率以降低内存占用，而在性能要求高的场景可适当降低稀疏率[24]。
模型压缩与剪枝：为实现Transformer模型的高效部署，模型压缩和优化通常是必要的，而剪枝是使模型推理更高效的重要手段。在边缘设备上，结构化剪枝可以更好地适应硬件加速，而非结构化剪枝则可以实现更高的压缩率[24]。
动态稀疏训练：通过动态调整模型的稀疏结构，使模型能够适应训练过程中的变化，更有效地学习数据中的模式。这种方法在边缘设备上特别有效，因为它可以在有限的计算资源下实现较高的模型性能。

稀疏与稠密模型对比

特性	稀疏模型	稠密模型	具体数据
计算效率	显著降低计算成本	计算成本高	稀疏注意力可降低40-60%计算量[20]
内存占用	较低	较高	稀疏模型可减少30-50%内存需求[20]
扩展性	优先扩展训练数据	同时增加参数量和计算资源	稀疏模型在相同参数量下可处理更多训练数据[20]
应用场景	边缘设备、移动端	高性能计算平台	稀疏模型适合资源受限环境[24]

实际应用案例

在移动和嵌入式设备上，稀疏模型显著减少了存储需求和计算成本。例如，通过应用稀疏技术，深度学习模型可以在智能手机、可穿戴设备等资源受限设备上高效运行[24]。

对于需要实时响应的应用(如自动驾驶、实时视频处理等)，稀疏模型提高了推理速度，满足了实时性要求。通过减少模型的复杂度和计算量，稀疏模型能够在更短的时间内完成推理过程[24]。

未来优化方向

未来稀疏大模型优化将朝着稀疏与稠密融合的方向发展。混合稀疏-稠密结构的模型既能在关键层保持全连接以捕获复杂特征，又能在计算密集层采用稀疏策略降低整体计算成本[20]。BitNetb1.58和Q-Sparse(可配备MoE)的结合，为未来LLMs在提升效率、降低成本和能耗方面提供了清晰的路径[26]。

六、稀疏大模型的最新研究进展

卡内基梅隆大学的稀疏注意力研究

卡内基梅隆大学研究团队在2025年6月发表了题为《Kinetics: Rethinking Test-Time Scaling Laws》的突破性研究，对大语言模型在测试阶段的资源分配策略提出了全新见解。该研究深入探讨了稀疏注意力如何优化大模型，为测试阶段的资源分配提供了理论指导[25]。

研究表明，稀疏注意力不仅能增加效率，还能提升模型性能，特别是在多模态大语言模型中。这一发现表明稀疏结构可能更适合捕捉多模态信息中的关键依赖关系

。

微软亚洲研究院的Q-Sparse技术进展

2024年9月，微软亚洲研究院对Q-Sparse技术进行了深入研究，进一步优化了稀疏激活机制。研究人员发现，通过与BitNet技术的结合，可以实现更全面的数据类型优化——BitNet专注于模型权重的低比特(1.58bit)，而Q-Sparse专注于网络激活的稀疏化[26]。

最新实验表明，BitNetb1.58和Q-Sparse(可配备MoE)的结合，为未来LLMs在提升效率、降低成本和能耗方面提供了清晰的路径，这一组合方案在多个数据集上展现出优异性能[26]。

豆包大模型的UltraMem架构创新

2025年2月，豆包大模型团队提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE(混合专家模型)推理时高额的访存问题。实验数据显示，UltraMem架构使推理速度较传统MoE架构提升2~6倍，推理成本最高可降低83%[32]。

该研究还揭示了新架构的规模定律(Scaling Law)，证明其不仅具备优异的扩展特性，更在性能上超越了传统MoE架构[32]。

苹果与索邦大学的多模态稀疏架构研究

2025年4月，苹果工程师联合法国索邦大学发布研究，通过对比早期融合和后期融合模型，发现从头训练的早期融合模型在计算效率和扩展性上更具优势[21]。

研究还探索了专家混合(MoE)稀疏架构，发现其能动态分配参数，针对不同模态进行专项优化。相较于稠密模型，MoE稀疏架构可以显著提升性能，尤其在小规模模型中优势明显[21]。

深度稀疏神经网络的理论突破

2024年的研究进一步深化了对深度稀疏神经网络的理论理解。通过层次化稀疏连接结构，这些网络能有效降低高维数据处理中的维度灾难影响。

研究表明，在可计算函数中存在"组合稀疏性"，即仅少数组件被激活，形成分层模块化结构，使网络能高效处理复杂任务。神经元启发式稀疏注意力(NSA)在保持与全注意力基线相当或更优性能的同时，显著优于现有稀疏注意力方法

。

此外，动态稀疏训练方法通过周期性调整模型参数的稀疏分布，利用剪枝和生长两种动态策略优化网络结构，进一步提升了稀疏模型的性能。

七、稀疏大模型的未来展望

稀疏与稠密模型的融合趋势

随着深度学习技术的不断演进，稀疏与稠密模型之间的界限正逐渐模糊。未来，混合稀疏-稠密结构的模型将成为主流，这种模型既能在关键层保持全连接以捕获复杂特征，又能在计算密集层采用稀疏策略降低整体计算成本[20]。

微软亚洲研究院的研究表明，BitNetb1.58和Q-Sparse(可配备MoE)的结合，为未来LLMs在提升效率、降低成本和能耗方面提供了清晰的路径[26]。这种正交且互补的技术组合——BitNet专注于模型权重的低比特(1.58bit)，而Q-Sparse专注于网络激活的稀疏化——代表了未来模型优化的重要方向。

动态稀疏技术的未来发展

动态稀疏训练技术将在未来得到进一步发展，通过周期性调整模型参数的稀疏分布，利用剪枝和生长两种动态策略优化网络结构[20]。这种方法使模型能够适应训练过程中的变化，更有效地学习数据中的模式。

未来的动态稀疏技术将更加智能化，能够根据任务需求和计算资源自适应地调整稀疏率，实现计算效率与模型性能的最佳平衡。这对于在边缘设备和移动端部署大模型尤为重要，将使AI技术能够在更广泛的场景中发挥作用。

多模态融合与稀疏架构

苹果与索邦大学的联合研究揭示了多模态AI的未来方向：早期融合+稀疏架构。研究发现，从头训练的早期融合模型在计算效率和扩展性上更具优势，而专家混合(MoE)稀疏架构能动态分配参数，针对不同模态进行专项优化[21]。

这一研究方向表明，未来的多模态大模型将更倾向于采用稀疏架构，以更好地处理不同模态信息的特性差异，提高模型的整体性能和效率。

稀疏注意力机制的创新

卡内基梅隆大学的研究团队对大语言模型在测试阶段的资源分配策略提出了全新见解，揭示了稀疏注意力如何优化大模型[25]。未来，稀疏注意力机制将更加精细化，能够更准确地识别和保留关键信息，同时大幅降低计算开销。

高效推理架构的突破

豆包大模型团队提出的UltraMem架构代表了稀疏模型推理优化的未来方向。该架构有效解决了MoE推理时高额的访存问题，推理速度较传统MoE架构提升2~6倍，推理成本最高可降低83%[32]。

未来的稀疏大模型将更加注重推理效率的优化，通过创新的架构设计和算法改进，实现更低的延迟和更高的吞吐量，使大模型能够在更多场景中实时响应用户需求。

总之，稀疏大模型的未来发展将朝着更高效、更智能、更灵活的方向迈进，通过稀疏与稠密的融合、动态稀疏技术的进步、多模态融合与稀疏架构的结合以及稀疏注意力机制的创新，为AI技术在各种应用场景中的广泛部署铺平道路。

八、结论

主要研究发现

1. 稀疏架构的效率优势

稀疏大模型通过减少不必要的连接和计算，显著提高了计算效率。微软亚洲研究院的Q-Sparse技术表明，只需激活60%的参数就能实现与全激活稠密模型相当的性能[26]。豆包大模型团队的UltraMem架构解决了MoE推理时的高额访存问题，使推理速度提升2~6倍，推理成本最高降低83%[11]。

2. 稀疏注意力机制的突破

稀疏注意力机制通过近似密集注意力输出来降低计算开销，同时保持或提升模型性能。

神经元启发式稀疏注意力(NSA)在保持与全注意力基线相当或更优性能的同时，显著优于现有稀疏注意力方法。

3. 层次化稀疏连接的理论基础

深度稀疏神经网络通过层次化稀疏连接结构，有效降低了高维数据处理中的维度灾难影响。这种结构通过跨层数据流动的路径优化，实现了参数的高效利用。

4. 动态稀疏训练的有效性

动态稀疏训练通过周期性调整模型参数的稀疏分布，利用剪枝和生长两种动态策略优化网络结构，使模型能够适应训练过程中的变化，更有效地学习数据中的模式[20]。

5. 稀疏与量化技术的互补性

Q-Sparse与BitNet技术的结合展示了稀疏与量化技术的互补性——BitNet专注于模型权重的低比特(1.58bit)，而Q-Sparse专注于网络激活的稀疏化，共同为LLMs推理中的数据类型提供了全面优化[26]。

未来研究方向

1. 稀疏与稠密模型的融合

未来研究将更加关注混合稀疏-稠密结构的模型，这种模型既能在关键层保持全连接以捕获复杂特征，又能在计算密集层采用稀疏策略降低整体计算成本[20]。

2. 动态自适应稀疏技术

未来的动态稀疏技术将更加智能化，能够根据任务需求和计算资源自适应地调整稀疏率，实现计算效率与模型性能的最佳平衡。这对于在边缘设备和移动端部署大模型尤为重要。

3. 多模态融合与稀疏架构结合

苹果与索邦大学的研究表明，早期融合模型结合稀疏架构(如MoE)能够动态分配参数，针对不同模态进行专项优化，相较于稠密模型显著提升性能[21]。这一方向将成为多模态大模型研究的重点。

4. 稀疏注意力机制的精细化

未来的稀疏注意力机制将更加精细化，能够更准确地识别和保留关键信息，同时大幅降低计算开销。卡内基梅隆大学的研究为大模型测试阶段的资源分配策略提供了新思路[10]。

5. 高效推理架构的创新

总之，稀疏大模型研究正逐渐模糊稀疏与稠密模型之间的界限，动态稀疏训练和自适应稀疏结构等技术进步，使稀疏模型在保持高效的同时，逼近甚至超越稠密模型的性能。未来，稀疏与稠密的融合将开启深度学习的新篇章，引领我们进入更加智能、高效、可持续的AI时代。

参考来源：

[PDF] A Survey on Mixture of Experts in Large Language Models - arXiv 文献链接
[PDF] SparseGPT: Massive Language Models Can be Accurately Pruned ... 文献链接
[PDF] Large Language Model Pruning - arXiv 文献链接
[PDF] A Neuro-inspired Topological Sparse Training Algorithm for Large ... 文献链接
[PDF] Sparse Attention Trade-offs in Transformer LLMs - arXiv 文献链接
[PDF] Sparse Bayesian Optimization 文献链接
[PDF] PockEngine: Sparse and Efficient Fine-tuning in a Pocket 文献链接
[PDF] An Efficient Sparse Inference Software Accelerator for Transformer ... 文献链接
[PDF] SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs 文献链接
[PDF] Kinetics: Rethinking Test-Time Scaling Laws 文献链接
[PDF] UltraMem: A Novel Sparse Model Architecture for the Doushan Large ... 文献链接
[PDF] Mixture of Experts - CMU School of Computer Science 文献链接
[PDF] SPARSE AUTOENCODERS FIND HIGHLY INTER - OpenReview 文献链接
[PDF] The Graph Lottery Ticket Hypothesis: Finding Sparse ... - arXiv 文献链接
[PDF] Dynamic Sparse Learning: A Novel Paradigm for Efficient ... - arXiv 文献链接
[PDF] Hardware-Aligned and Natively Trainable Sparse Attention - arXiv 文献链接
[PDF] Efficient Sparse Attention needs Adaptive Token Release 文献链接
Transformer with Sparse Attention Mechanism for Industrial Time ... 原文链接
Low-Rank Approximation for Sparse Attention in Multi-Modal LLMs 原文链接
【大模型】大模型中的稀疏与稠密——一场效率与性能的较量原文链接
苹果联合研究照亮多模态 AI 未来方向:早期融合 + 稀疏架构原文链接
字节豆包大模型团队推出稀疏模型架构UltraMem|环球网原文链接
Dynamic Sparse Training via Balancing the Exploration-Exploitation ... 原文链接
深度学习中的稀疏模型与稀疏网络模型:优化与应用的深度解析原文链接
卡内基梅隆团队:稀疏注意力如何优化大模型? 原文链接
完全激活稀疏大模型,Q-Sparse突破LLM推理效能原文链接
Recurrent Residual Networks Contain Stronger Lottery Tickets 原文链接
Achieving Peak Performance for Large Language Models 原文链接
A Case Study of Enhancing Sparse Retrieval using LLMs 原文链接
Efficient Transformer Inference with Statically Structured Sparse ... 原文链接
FLAT: An Optimized Dataflow for Mitigating Attention Bottlenecks 原文链接
豆包大模型提出稀疏模型架构,推理成本较MoE最高可降83% 原文链接
An Empirical Analysis and Resource Footprint Study of Deploying ... 原文链接