当前位置: 首页 > news >正文

(更新中)PATNAS: A Path-Based Training-Free NeuralArchitecture Search

 

摘要 

评估网络架构的高成本阻碍了神经架构搜索 (NAS) 的发展。最近,提出了几种零成本代理,作为一种有前途的方法,以降低 NAS 中网络架构的评估成本。它们可以在初始阶段的几秒钟内快速估计网络的最终性能。然而,现有的零成本代理要么忽略了网络结构对性能的影响,要么仅限于特定任务。为了解决这些问题,我们提出了一种名为骨架路径核跟踪 (SPKT) 的新型零成本代理,它利用整个网络架构的骨架路径结构信息。然后,我们将其集成到名为 PATNAS 的有效 NAS 贝叶斯优化框架中,并证明其在不同数据集上的有效性。结果表明,我们提出的 SPKT 零成本代理可以在多个任务中与网络的最终性能实现高度相关。此外,它可以显著加快寻找最佳性能网络架构的搜索过程。


I. INTRODUCTION

在NAS的背景下,设计一个零成本代理应满足以下要求:

i) 优秀的预测能力:它应该能够很好地指示一个完全训练的网络的表现,即,零成本代理在初始化时预测的网络排名应该与通过完全训练后的最终准确度排名一致。

ii) 高度的通用性:它能够适应多种类型的网络,并且能够在不同的搜索空间中,以及在不同的数据集和任务上具有良好的泛化能力。

iii) 稳定性:零成本代理估计的网络排名应该在不同的数据批次和权重初始化方法下保持相对稳定。

iv) 增量学习能力:理想情况下,零成本代理的预测能力应该随着训练过程的进行而逐渐提高,即,网络之间的排名会随着步骤的增加逐步接近实际的排名。

为满足这些要求,已经提出了几种零成本代理方法。一种简单直接的零成本代理方法是通过汇总每个参数的重要性度量来估计网络的性能。然而,这些方法忽视了网络的整体结构,并且在某些特定的搜索空间中,可能会对具有梯度爆炸的大型网络产生不当的偏好。另一种流行的零成本代理方法通过衡量神经网络的表现力作为网络性能的指标。它们通过计算不同数据点之间的网络激活的相关性,或计算神经网络在其输入空间中划分的唯一线性区域的数量来衡量网络的表现力。不幸的是,这些得分对输入数据非常敏感,并且可能在不同的输入数据点之间产生显著的变化。

此外,前述的零成本代理方法本质上是启发式的,并且缺乏理论保证。受神经切线核(NTK)的启发,NTK能够很好地表征网络在初始化时的收敛性,并且提供了对网络学习能力的量化边界,因此已经提出了一些基于NTK的零成本代理,用于无训练的网络性能估计。NTK是由网络输出相对于输入的梯度决定的。然而,这些方法忽视了网络结构信息对性能的影响。例如,如图1(c)和(d)所示,两个不同的网络具有相同的基于NTK的零成本代理得分,但它们的性能差异显著。

现有的零成本代理方法很少考虑网络结构信息(如跳跃连接)对网络性能的影响。然而,正如Ning等人和Krishnakumar等人所揭示的,大多数零成本代理在不同任务中的表现不可靠。它们在特定的搜索空间内表现良好,但在大多数任务中,其性能远不如基于计算量(flops)和参数总数等简单基准。能否将网络结构信息注入零成本代理的设计中,以提高其在不同任务中的表现?为此,我们提出了一种骨架路径核,用于通过利用网络的骨架路径信息来表示整个网络的结构信息。然后,我们使用骨架路径核跟踪(SPKT)作为一种新的零成本代理用于NAS。

我们证明了SPKT为网络收敛性能提供了合理的上界。此外,SPKT的得分仅由网络架构和初始化权重决定。为了验证我们提出的SPKT零成本代理的有效性,我们将其与其他流行的零成本代理在多个搜索空间中进行了比较。结果表明,SPKT能够在不同任务中始终如一地与网络的真实性能具有较高的相关性。此外,SPKT生成的排名在不同的数据批次和权重初始化方案下保持相对稳定。更重要的是,随着训练的进行,SPKT的预测能力逐步提高,因为它可以充分利用训练过程中权重信息。

为了研究SPKT加速NAS的能力,我们进一步将其集成到一种有效的贝叶斯优化NAS框架中,称为PATNAS。结果表明,SPKT可以显著加速寻找最佳性能神经网络的过程,并适用于不同的任务和数据集。


II. RELATED WORK

A. Neural Architecture Search (NAS)

神经架构搜索(NAS)[18], [33], [34]方法因其能够自动发现适用于特定任务的高性能网络架构而获得广泛关注。传统的NAS方法,如强化学习[6], [35]和进化搜索[5]算法,由于评估成千上万的网络架构成本高昂而受到制约。为了解决这个问题,提出了多种方法。一种流行的方法是一次性NAS(one-shot NAS)[11], [13]。它首先训练一个超网络,然后从该超网络中采样子网络,其中子网络的权重继承自训练好的超网络。因此,我们可以通过共享的权重快速评估子网络的性能。不幸的是,训练一个巨大的超网络非常慢[12]。此外,最近的研究[2], [33]表明,共享权重的子网络的性能与其独立性能之间的相关性较差。另一种常见的减少网络评估成本的方法是基于预测器的NAS[14], [25]。它首先收集一定数量的架构-准确度对,然后利用这些对训练一个代理模型,用于预测未见网络的最终准确度或排名。不幸的是,它仍然需要完全训练一定数量的网络,以构建一个准确且鲁棒的代理模型[36], [37], [38]。White等人[14]进行了一项全面的比较,比较了31种性能预测器的多个系列,并表明某些系列的预测器可以组合在一起,以获得更好的预测能力。Ding等人[39]提出了网络编码传播(NCP),它通过反向传播神经预测器的梯度来解决多个视觉任务,并在多个数据集上构建了一个多任务NAS基准(NAS-Bench-MR)。最近,Asthana等人[40]利用离散条件图扩散过程作为代理预测器,生成高性能的神经网络架构。贝叶斯优化最近作为一种高性能的NAS框架兴起,因为它可以通过迭代更新代理预测器来快速找到最佳性能的神经网络架构。White等人[16]开发了一种名为BANANAS的贝叶斯优化框架,并在多个流行的NAS基准上取得了良好的性能。最近,Shen等人[41]设计了一种高效的贝叶斯优化(BO)框架,称为ProxyBO,它利用零成本代理加速NAS。他们通过将收购函数得分和零成本代理得分的排名结合起来,改进了选择下一个有前景架构的过程。与ProxyBO不同,我们提出的PATNAS框架利用零成本代理来加热初始种群,增强代理模型的输入特征,并通过有效结合贝叶斯优化(BO)和零成本代理的优势来帮助选择下一个采样点。 

B. Zero-Shot NAS

最近,零-shot NAS [19], [25], [32], [41], [42], [43]因其能够利用零成本代理预测神经网络在初始化时的性能而获得广泛关注。已经提出了许多零成本代理,以减少NAS中神经网络的评估成本[44]。

基于参数重要性的零成本代理:基于参数重要性的零成本代理通过计算在从网络中移除特定参数时,重要性度量的变化来评分整个网络[27]。受到初始化修剪工作的启发[45], [46], [47],Abdelfattah等人[23]采用了几种参数级别的显著性度量,包括grad_norm、snip、grasp、synflow和fisher,在初始化时通过一次前向/反向传播来评分整个网络。然而,正如Ning等人[25]所显示的,这些基于参数的零成本代理忽略了网络结构信息对网络性能的影响,并且在选择具有梯度爆炸的网络架构时具有较大的偏差。与这些基于参数的零成本代理相比,我们提出的SPKT零成本代理通过骨架路径核引入了网络结构信息,并且由于它处于一个尺度不变的路径空间中,可以避免梯度爆炸问题。

基于网络表现力的零成本代理:另一种流行的零成本代理试图通过网络的表现力来估计网络性能[18]。基于观察到好的架构在不同类数据点之间的神经元激活重叠较少,Mellor等人[24]设计了一种启发式零成本代理,通过计算初始化时不同数据点之间的网络激活的相关性。后来,Lopes等人[48]通过探索网络激活在初始化时的类内和类间相关性,改进了这一代理。与此同时,Lin等人[22]定义了一个随机初始化网络的期望高斯复杂度来表示网络的表现力,并证明它与最终的网络性能呈正相关。或者,Chen等人[26]选择使用网络的线性激活区域的数量来估计网络的表现力。尽管这些基于网络表现力的零成本代理在估计网络性能时已显示出有效性,但它们对数据点非常敏感。与它们相比,我们提出的SPKT零成本代理解耦了数据对网络性能的影响,并且仅由网络架构和初始权重决定。

基于理论启发的零成本代理:不幸的是,上述提到的零成本代理缺乏理论解释[20]。最近,一些工作利用神经切线核(NTK)[28], [29], [31]设计了零成本代理。NTK表征了神经网络的训练动态。在常量NTK和无限宽网络的假设下,神经网络的可训练性可以通过初始化时的NTK完全表征。Chen等人[26]使用NTK的condnum作为TE-NAS零成本代理的一部分,并显示它与网络性能呈负相关。Shu等人[27]提出了一种无标签和无数据的零成本代理,称为NASI,它近似NTK的迹作为网络性能的指示。与此同时,Mok等人[30]开发了一种新的NTK度量,称为LGA,用于捕捉现代神经网络架构的高度非线性特性。此外,Shu等人[20]对现有的基于梯度的无训练度量进行了统一的理论分析,并展示了NTK度量与基于参数重要性的零成本代理(如snip和grasp)之间的关系。Jiang等人[49]发现,网络特征图的皮尔逊相关矩阵影响过度参数化神经网络的收敛速度和泛化能力。因此,他们使用皮尔逊相关矩阵的最小特征值,该矩阵构建在每个网络层的特征图上,用于构建MeCo零成本代理。我们提出的SPKT代理也可以通过NTK理论来解释。它为网络的训练收敛提供了一个上界,并作为NTK的结构相关部分。重要的是,我们的SPKT代理仅由网络架构及其初始权重驱动,有效地解耦了数据和结构对网络性能的影响。

相关文章:

  • Unity插件-适用于画面传输的FMETP STREAM使用方法(三)基础使用
  • OSPF路由协议详解---通俗易懂!
  • 在图像/视频中裁剪出人脸区域
  • 鸿蒙开发核心之Stage模型
  • LeetCode hot 100 每日一题(9)——560. 和为 K 的子数组
  • C#零基础入门篇(18. 文件操作指南)
  • Transformer:GPT背后的造脑工程全解析(含手搓过程)
  • 《量子门与AI神经元:计算世界的奇妙碰撞》
  • 基于云漂移优化(Cloud Drift Optimization,CDO)算法的多个无人机协同路径规划(可以自定义无人机数量及起始点),MATLAB代码
  • 《量子比特:AI复杂算法破局的关键力量》
  • Leetcode 3489. Zero Array Transformation IV
  • MinGW下编译nginx源码
  • SpringBoot实现接口重试方案
  • mac电脑如何将wps接入deepseek (傻瓜式教学)
  • 阿里云CEN创建实验
  • RTSP/Onvif安防视频EasyNVR平台 vs.多协议接入视频汇聚EasyCVR平台:设备分组的区别
  • Qt画动态环形或饼状图接口程序
  • langchain整合数据库
  • 深入理解 Java 线程池
  • CSS 盒模型
  • 如何做建材网站的线下推广/软文广告案例500字
  • 做不锈钢管网站/品牌网站建设制作
  • 免费建网站电话/如何做网销
  • 山西响应式网站建设哪家有/凡科建站网站
  • 建筑专业网站/网店如何引流与推广
  • 有那些做自媒体短视频的网站/营销策划书格式及范文