当前位置: 首页 > news >正文

Training-free Neural Architecture Search for RNNs and Transformers(预览版本)

摘要 

神经架构搜索 (NAS) 允许自动创建新的有效神经网络架构,为手动设计复杂架构的繁琐过程提供了替代方案。然而,传统的 NAS 算法速度慢,需要大量的计算能力。最近的研究调查了图像分类架构的无训练 NAS 指标,大大加快了搜索算法的速度。在本文中,我们研究了针对语言建模任务的循环神经网络 (RNN) 和基于 BERT 的 Transformer 架构的无训练 NAS 指标。首先,我们开发了一种新的无训练指标,称为隐藏协方差,它可以预测 RNN 架构的训练性能,并且明显优于现有的无训练指标。我们在 NAS-Bench-NLP 基准上通过实验评估了隐藏协方差指标的有效性。其次,我们发现 Transformer 架构的当前搜索空间范式并未针对无训练神经架构搜索进行优化。相反,简单的定性分析可以有效地将搜索空间缩小到性能最佳的架构。这一结论基于我们对现有免训练指标和近期 Transformer 剪枝文献中开发的新指标的研究,这些指标在我们自己训练过的 BERT 架构基准上进行了评估。最终,我们的分析表明,架构搜索空间和免训练指标必须一起开发才能取得有效的结果。 

相关文章:

  • 基于Rye的Django项目通过Pyinstaller用Github工作流简单打包
  • [原创](Modern C++)现代C++的关键性概念: 非常独特的std::sentinel_for概念(哨兵概念)
  • LeetCode Hot100刷题——反转链表(迭代+递归)
  • 【c++】反转字符串
  • 二次SQL注入
  • 线程安全问题(面试重难点)
  • Python asyncIO 面试题及参考答案 草
  • 【数据结构与算法】Java描述:第二节:LinkedList 链表
  • Python 数据可视化
  • Python包结构与 `__init__.py` 详解
  • FusionInsight MRS云原生数据湖
  • Python贝壳网二手小区数据爬取(2025年3月更)
  • Python教学:语法检测问题-由DeepSeek产生
  • 30-判断子序列
  • Educational Codeforces Round 7 F. The Sum of the k-th Powers 多项式、拉格朗日插值
  • 浏览器信息收集插件之 雪瞳 —— 洞悉无形,守护无界
  • 标量、向量、矩阵与张量:从维度理解数据结构的层次
  • 攻防世界web:NewsCenter(含sqlmap基本参数讲解)
  • 水管滴水漏水检测数据集VOC+YOLO格式2708张1类别
  • MongoDB winx64 msi包安装详细教程
  • 岳阳网站制作/网络营销的现状和发展趋势
  • 个人网站如何做推广/百度seo快速排名优化
  • 网站建设价位/深圳做网站的公司有哪些
  • 免费的黄金网站有哪些/百度百家号注册
  • 如何免费建一个wordpress/seo推广方法
  • 会计公司网站模板下载/站长之家官网