近年来,深度学习领域涌现出许多创新的神经网络架构,它们在特定任务或效率优化上展现出独特优势。以下是一些值得关注的新架构及其核心特点:
KAN 是 2025 年由 MIT、加州理工学院等团队提出的革命性架构,基于Kolmogorov-Arnold 表示定理,将可学习的激活函数嵌入权重中,而非传统 MLP 的固定激活函数。其核心优势包括:
- 参数效率极高:200 参数的 KAN 可复现 DeepMind 用 30 万参数 MLP 的数学定理发现任务,且准确性更高。
- 科学计算突破:在偏微分方程求解、凝聚态物理模拟等任务中表现优异,能发现新公式。
- 抗遗忘性:天然规避灾难性遗忘问题,适合持续学习。
- 可解释性强:激活函数的可学习性使模型决策过程可可视化,便于注入领域知识。
尽管训练速度较慢(因可学习激活函数的计算成本),但 KAN 已在 GitHub 开源并引发广泛关注,成为数学与物理建模的新标杆。
随着模型规模增长,** 混合专家系统(Mixture of Experts)** 成为主流趋势。例如,DeepSeek 的动态稀疏专家网络(Dynamic Sparse MoE)在 2025 年被预测将支撑 80% 的千亿级模型。其核心机制包括:
- 专家分工:多个异构专家模块(如 MLP、ConvGLU)并行处理不同特征,提升泛化能力。
- 动态路由:通过门控机制为每个输入分配最相关的专家,降低计算冗余。
- 稀疏性优化:仅激活部分专家,在保持性能的同时减少内存占用。
MoE 架构尤其适合多模态任务和长序列处理,其动态弹性容量设计(DEC)进一步提升了资源利用率。
针对 Transformer 的二次复杂度问题,研究者提出多种替代方案:
- RWKV:国产开源架构,结合 RNN 与线性注意力,实现内存占用与计算复杂度的线性扩展。其核心思想是 “世界的下一秒仅与上一秒相关”,适合实时推理任务。
- Mamba:基于状态空间模型(SSM)的循环架构,通过线性时间复杂度处理百万 token 级长序列,推理吞吐量提升 5 倍。但外推能力较弱,需结合其他机制优化。
- RetNet:微软亚研提出的多尺度 retention 机制,通过并行与循环两种模式平衡效率与性能,在长文本生成中表现突出。
- FNet:用傅里叶变换替代自注意力,在 GLUE 基准上达到 BERT 92-97% 的准确率,训练速度提升 70% 以上。其频域 - 时域交替变换的特性,为 NLP 任务提供了全新视角。
- AS-MLP:在 MLP-Mixer 基础上引入轴向位移策略,通过水平 / 垂直方向特征移位增强局部感知能力,在 CV 任务中实现类似 CNN 的十字形感受野。其无参数化设计减少了冗余计算,适合轻量化部署。
- ConvNeXt v2:结合全卷积掩码自编码器(FCMAE)与全局响应归一化(GRN)层,在图像重建与分类任务中超越 Swin Transformer。其大核卷积(7×7)与倒置瓶颈结构的优化,进一步融合了 CNN 与 Transformer 的优势。
NAS 技术正从人工设计向自动化演进:
- BGNAS:华南理工大学提出的二分图搜索空间,将文本分类任务的搜索时间复杂度降低 50% 以上,避免 DAG 结构的冗余连接。其动态剪枝机制可实时优化候选算子组合。
- 多分支结构发现:如 FBNetV3 通过 NAS 生成 “多核并行 + 特征拼接” 模块,在移动端延迟降低 25%;AutoSlim 则动态选择卷积核尺寸,在无损精度的前提下减少 40% 计算量。这些发现证明 NAS 能自动生成超越人类设计的高效架构。
- Perceiver:通过交叉注意力模块融合多模态特征,在统一潜在空间中进行深度处理,适合跨模态检索与生成任务。其迭代式交叉注意力机制,能逐步细化不同模态间的语义对齐。
- PCME:将图像与文本表示为概率分布,通过均值与方差捕捉数据不确定性,在一对多对应关系处理中表现优异。其局部注意力机制进一步提升了空间特征聚合效率。
- LeViT:结合卷积嵌入与 Transformer,在保持性能的同时减少参数量,适合边缘设备部署。
- MobileViT:将 ViT 的全局建模能力与 MobileNet 的轻量化设计结合,在移动端实现高效推理。
这些架构的出现,标志着深度学习正从单一范式向多元化、专业化方向发展。无论是数学理论驱动的 KAN,还是工程优化导向的 MoE,都为解决复杂问题提供了新工具。未来,架构设计将更注重领域适配性与资源效率,而神经架构搜索与混合范式(如 CNN+Transformer+MLP)的结合,可能成为下一个突破点。