当前位置: 首页 > news >正文

除了 transformer 还有哪些 新的 神经网络架构

近年来,深度学习领域涌现出许多创新的神经网络架构,它们在特定任务或效率优化上展现出独特优势。以下是一些值得关注的新架构及其核心特点:

一、基于数学定理的全新架构:KAN(科尔莫格罗夫 - 阿诺德网络)


KAN 是 2025 年由 MIT、加州理工学院等团队提出的革命性架构,基于Kolmogorov-Arnold 表示定理,将可学习的激活函数嵌入权重中,而非传统 MLP 的固定激活函数。其核心优势包括:

  • 参数效率极高:200 参数的 KAN 可复现 DeepMind 用 30 万参数 MLP 的数学定理发现任务,且准确性更高。
  • 科学计算突破:在偏微分方程求解、凝聚态物理模拟等任务中表现优异,能发现新公式。
  • 抗遗忘性:天然规避灾难性遗忘问题,适合持续学习。
  • 可解释性强:激活函数的可学习性使模型决策过程可可视化,便于注入领域知识。

尽管训练速度较慢(因可学习激活函数的计算成本),但 KAN 已在 GitHub 开源并引发广泛关注,成为数学与物理建模的新标杆。

二、混合专家系统(MoE)与动态稀疏架构


随着模型规模增长,** 混合专家系统(Mixture of Experts)** 成为主流趋势。例如,DeepSeek 的动态稀疏专家网络(Dynamic Sparse MoE)在 2025 年被预测将支撑 80% 的千亿级模型。其核心机制包括:

  • 专家分工:多个异构专家模块(如 MLP、ConvGLU)并行处理不同特征,提升泛化能力。
  • 动态路由:通过门控机制为每个输入分配最相关的专家,降低计算冗余。
  • 稀疏性优化:仅激活部分专家,在保持性能的同时减少内存占用。
    MoE 架构尤其适合多模态任务和长序列处理,其动态弹性容量设计(DEC)进一步提升了资源利用率。

三、非 Transformer 架构的创新探索


针对 Transformer 的二次复杂度问题,研究者提出多种替代方案:

  1. RWKV:国产开源架构,结合 RNN 与线性注意力,实现内存占用与计算复杂度的线性扩展。其核心思想是 “世界的下一秒仅与上一秒相关”,适合实时推理任务。
  2. Mamba:基于状态空间模型(SSM)的循环架构,通过线性时间复杂度处理百万 token 级长序列,推理吞吐量提升 5 倍。但外推能力较弱,需结合其他机制优化。
  3. RetNet:微软亚研提出的多尺度 retention 机制,通过并行与循环两种模式平衡效率与性能,在长文本生成中表现突出。
  4. FNet:用傅里叶变换替代自注意力,在 GLUE 基准上达到 BERT 92-97% 的准确率,训练速度提升 70% 以上。其频域 - 时域交替变换的特性,为 NLP 任务提供了全新视角。

四、MLP 与 CNN 的进化版本


  1. AS-MLP:在 MLP-Mixer 基础上引入轴向位移策略,通过水平 / 垂直方向特征移位增强局部感知能力,在 CV 任务中实现类似 CNN 的十字形感受野。其无参数化设计减少了冗余计算,适合轻量化部署。
  2. ConvNeXt v2:结合全卷积掩码自编码器(FCMAE)与全局响应归一化(GRN)层,在图像重建与分类任务中超越 Swin Transformer。其大核卷积(7×7)与倒置瓶颈结构的优化,进一步融合了 CNN 与 Transformer 的优势。

五、神经架构搜索(NAS)的新范式


NAS 技术正从人工设计向自动化演进:

  1. BGNAS:华南理工大学提出的二分图搜索空间,将文本分类任务的搜索时间复杂度降低 50% 以上,避免 DAG 结构的冗余连接。其动态剪枝机制可实时优化候选算子组合。
  2. 多分支结构发现:如 FBNetV3 通过 NAS 生成 “多核并行 + 特征拼接” 模块,在移动端延迟降低 25%;AutoSlim 则动态选择卷积核尺寸,在无损精度的前提下减少 40% 计算量。这些发现证明 NAS 能自动生成超越人类设计的高效架构。

六、多模态与生成模型架构


  1. Perceiver:通过交叉注意力模块融合多模态特征,在统一潜在空间中进行深度处理,适合跨模态检索与生成任务。其迭代式交叉注意力机制,能逐步细化不同模态间的语义对齐。
  2. PCME:将图像与文本表示为概率分布,通过均值与方差捕捉数据不确定性,在一对多对应关系处理中表现优异。其局部注意力机制进一步提升了空间特征聚合效率。

七、轻量级与高效架构


  1. LeViT:结合卷积嵌入与 Transformer,在保持性能的同时减少参数量,适合边缘设备部署。
  2. MobileViT:将 ViT 的全局建模能力与 MobileNet 的轻量化设计结合,在移动端实现高效推理。

这些架构的出现,标志着深度学习正从单一范式向多元化、专业化方向发展。无论是数学理论驱动的 KAN,还是工程优化导向的 MoE,都为解决复杂问题提供了新工具。未来,架构设计将更注重领域适配性与资源效率,而神经架构搜索与混合范式(如 CNN+Transformer+MLP)的结合,可能成为下一个突破点。


文章转载自:

http://2r3YMHrJ.nndbz.cn
http://UghFed3Y.nndbz.cn
http://0WHBCO1Y.nndbz.cn
http://y3KMnmfY.nndbz.cn
http://g9R7RjFv.nndbz.cn
http://tU2Njm6O.nndbz.cn
http://9Fkhk7XS.nndbz.cn
http://qSx2sGet.nndbz.cn
http://ncXqVZB3.nndbz.cn
http://TNwheiTs.nndbz.cn
http://eT2XZlzn.nndbz.cn
http://iWbPkg7r.nndbz.cn
http://qyx2SLEt.nndbz.cn
http://VHFOBkbW.nndbz.cn
http://Jowi7VCn.nndbz.cn
http://zKfgUCHz.nndbz.cn
http://N4mhfGUG.nndbz.cn
http://V4cLXIv8.nndbz.cn
http://aPeiYt5t.nndbz.cn
http://dv6m92Ul.nndbz.cn
http://s0tWBmCo.nndbz.cn
http://BARR0gFJ.nndbz.cn
http://36f9jEIM.nndbz.cn
http://WplbRliR.nndbz.cn
http://qsaaQtP1.nndbz.cn
http://osOWV3Hn.nndbz.cn
http://Ey9Ftbk2.nndbz.cn
http://HrsZc2AN.nndbz.cn
http://w1k3sNUG.nndbz.cn
http://JnDMvYZx.nndbz.cn
http://www.dtcms.com/a/382666.html

相关文章:

  • 鸿蒙NEXT的Web组件网络安全与隐私保护实践
  • D. Coprime
  • 利用python pandas库清洗病例处方清洗步骤
  • 数据库在并发访问时,不同隔离级别下脏读幻读问题
  • Python核心技术开发指南(065)——with语句
  • Python核心技术开发指南(064)——析构方法
  • 20250913-01: Langchain概念:Runnable可运行接口
  • 记一次谷歌语法获取路径 针对空白页面
  • Java GC:从GC Roots到分代设计的哲学
  • 一款4000℃高温材料设计方案及性能预测
  • 【leetcode】64. 最小路径和
  • 2.10组件间的通信
  • MinerU学习
  • 网络安全学习
  • 如何用 Rust 重写 SQLite 数据库(一):项目探索
  • Qwen3-80B-A3B混合注意力机制
  • OBS使用教程:OBS多路推流插件如何下载?如何安装使用?
  • 禁用 vscode 的终端的粘滞滚动
  • 人工智能通识与实践 - 人工智能概述
  • Symantec卸载
  • 第34章 AI在文娱与内容创作领域的应用
  • 学生信息管理系统(面向对象初步接触)
  • LangChain 中 Output Parsers 是什么?
  • Wolfspeed重组计划已确认
  • 【C++】继承机制深度解析:多继承与菱形继承
  • 如何用Maxscript在选择样条线顶点放置球体?
  • (LeetCode 面试经典 150 题) 190. 颠倒二进制位(位运算)
  • P1043题解
  • 如何用 Rust 重写 SQLite 数据库(二):项目探索
  • SQLI-labs[Part 2]