当前位置：首页 > news >正文

NLP模型优化

news 2025/10/31 7:22:41

模型优化是指将机器学习模型进行系统化转换，以在目标部署环境中实现高效执行，同时保持可接受的准确性和功能性。该学科涵盖了管理竞争性目标之间权衡的技术，包括计算复杂度、内存利用率、推理延迟和能源效率。该领域通过参数减少消除冗余、通过数值表示优化提高精度、通过算法和架构改进提高计算效率。模型优化使得复杂的机器学习能力能够在不同的计算环境中部署，从高性能云基础设施到资源受限的边缘设备，从而扩展了机器学习系统的实际应用范围。
在这里插入图片描述

模型优化通过三个层次（高效模型表示、高效数值表示和高效硬件实现）进行，每个层次解决系统性能和资源利用的不同方面。这些层次允许在模型精度、计算成本和内存占用之间进行结构化的权衡，以满足不同部署环境的需求。

Pruning 剪枝

内存墙限制了系统性能：随着模型规模的增长，内存带宽成为瓶颈而非计算能力。剪枝通过参数消除直接解决这一限制，从而降低内存需求。最先进的机器学习模型通常包含数百万或数十亿个参数，其中许多对最终预测的贡献微乎其微。虽然大型模型增强了表示能力和泛化能力，但它们也引入了内存占用、计算成本和可扩展性方面的低效性，这些都会影响在云、边缘和移动环境中的训练和部署。

参数对于保持准确性的必要性差异很大。许多权重对决策过程贡献微不足道，通过移除它们可以在不显著降低性能的情况下实现显著的效率提升。这种冗余存在是因为现代神经网络过度参数化严重，意味着它们拥有的权重远多于解决任务所必需的数量。这种过度参数化在训练过程中具有重要意义，它提供了多条优化路径并有助于避免不良局部最小值，但在部署时却创造了压缩的机会。

剪枝是一种模型优化技术，通过从神经网络中移除不必要的参数来保持预测性能。通过系统地消除冗余权重、神经元或层，剪枝可以减小模型尺寸和计算成本，使其在存储、推理和部署方面更加高效。

剪枝使模型能够变得更小、更快、更高效，而无需进行架构重新设计。通过消除冗余，剪枝直接解决了机器学习系统的内存、计算和可扩展性限制，使其成为在不同硬件平台上部署模型的关键技术。

现代框架提供了内置 API，使得这些优化技术易于使用。PyTorch 提供了 torch.nn.utils.prune 用于剪枝操作，而 TensorFlow 提供了模型优化工具包 14 ，其中包含如 tfmot.sparsity.keras.prune_low_magnitude() 等函数。这些工具将复杂的科研算法转化为实际函数调用，使优化对各级从业者都变得可行。

剪枝方法根据从神经网络中移除的结构类型而有所不同。主要目标包括神经元、通道和层，每种结构对模型的架构和性能都有不同的影响。

神经元剪枝会移除整个神经元及其相关的权重和偏差，从而减小层的宽度。这种技术通常应用于全连接层。
通道剪枝（或过滤器剪枝）是卷积神经网络中常用的技术，它通过移除整个通道或过滤器来减少特征图的深度，从而影响网络提取某些特征的能力。在图像处理任务中，当计算效率是优先考虑因素时，通道剪枝尤为有价值。
层剪枝从网络中移除整个层，显著减少了深度。虽然这种方法可以带来显著的效率提升，但它需要仔细权衡以确保模型保留足够的容量来捕捉复杂的模式。

Unstructured Pruning 非结构化剪枝

非结构化剪枝在保留整体网络架构的同时移除单个权重。在训练过程中，某些连接变得冗余，对最终计算贡献不大。剪除这些薄弱连接可以降低内存需求，同时保留模型的大部分精度。

非结构化剪枝的主要优势在于内存效率。通过减少非零参数的数量，剪枝后的模型需要更少的存储空间，这在将模型部署到内存有限的嵌入式或移动设备时尤其有利。

Structured Pruning 结构化剪枝

非结构化剪枝从神经网络中移除单个权重，而结构化剪枝则移除整个计算单元，如神经元、过滤器、通道或层。这种方法特别有利于硬件效率，因为它能产生更小的密集模型，可直接映射到现代机器学习加速器。与非结构化剪枝不同，后者会导致稀疏权重矩阵，需要专门的执行内核来利用计算优势，结构化剪枝通过减小网络架构的整体大小，在通用硬件上实现更高效的推理。

结构化剪枝的动机在于观察到并非所有神经元、过滤器或层都对模型的预测做出同等贡献。某些单元主要携带冗余或低影响信息，移除它们并不会显著降低模型性能。挑战在于识别哪些结构可以剪枝同时保持准确性。
在这里插入图片描述

剪枝策略：非结构化剪枝通过移除单个权重来实现稀疏性，需要专用硬件以实现高效计算，而结构化剪枝移除整个神经元或过滤器，保留网络结构并能在标准硬件上实现加速。该图对比了两种方法产生的权重矩阵和网络架构，突出了稀疏程度与计算效率之间的权衡。

基于幅度的剪枝，该方法根据其相关权重的幅度来移除整个神经元或过滤器。
基于激活的剪枝，它评估神经元或过滤器在数据集上的平均激活值。那些持续产生低激活值的神经元对网络决策过程贡献的信息较少，可以被安全地移除。

Dynamic Pruning 动态剪枝

动态剪枝可以通过运行时稀疏技术实现，其中模型根据输入特征主动确定要利用的参数。激活条件剪枝通过选择性地使那些对特定输入表现出低激活值的神经元或通道失效，体现了这种方法（J. Hu 等人，2023）。这种方法引入了输入相关的稀疏模式，在不永久修改模型架构的情况下，有效减少了推理过程中的计算工作量。

另一种动态剪枝方法在训练过程中进行，其中稀疏性在整个优化过程中逐渐引入和调整。例如，渐进式幅度剪枝方法从密集网络开始，随着训练的进行，逐步增加剪枝参数的比例。这些方法并非永久移除参数，而是允许网络通过在训练后期阶段证明重要的连接重新生长来恢复因剪枝导致的容量损失。

剪枝权衡

Aspect 方面	Unstructured Pruning 非结构化剪枝	Structured Pruning 结构化剪枝	Dynamic Pruning 动态剪枝
被移除的是什么？	模型中的单个权重	整个神经元、通道、滤波器或层	根据运行时条件调整剪枝
模型结构	稀疏权重矩阵；原始架构保持不变	模型架构被修改；剪枝层被完全移除	结构动态适应
对内存的影响	通过消除非零权重来减少模型存储	通过移除整个组件来减少模型存储	根据实时剪枝而变化

非结构化剪枝、结构化剪枝和动态剪枝分别以不同的方式修改模型权重，影响模型大小和计算效率；非结构化剪枝提供最大的压缩率，但需要专用硬件，而动态剪枝适应输入数据，在准确性和资源使用之间取得平衡。

在非结构化、结构化和动态剪枝的广泛类别之外，不同的剪枝工作流程会影响模型的效率和精度保持。迭代剪枝和一次性剪枝是两种广泛使用的剪枝策略，每种策略都有其自身的优点和权衡。

Iterative Pruning 迭代剪枝：迭代剪枝通过多次剪枝循环和微调，逐步实现结构移除。在每一轮循环中，算法根据预定义的重要性指标移除一小部分结构。随后模型将进行微调以适应这些结构变化，再进入下一轮剪枝迭代。这种系统性的方法有助于防止准确性的突然下降，同时允许网络逐步适应降低的复杂度。
One-shot Pruning 单步剪枝：单步剪枝通过一次性移除多个架构组件，随后进行大规模的微调阶段以恢复模型精度。这种激进的方法能够快速压缩模型，但同时也存在精度退化的更大风险，因为网络必须同时适应显著的结构变化。

选择剪枝策略需要仔细评估项目需求和约束。单次剪枝通过同时移除多个参数实现快速模型压缩，适用于优先考虑部署速度而非准确性的场景。然而，这种激进方法与渐进式方法相比，通常会导致更大的性能退化。另一方面，迭代剪枝虽然计算密集且耗时，但通过多轮结构化参数减少，通常能实现更优越的准确性保持。这种系统方法使网络能够逐步适应结构变化，保留维持模型性能的重要连接。权衡之处在于优化时间和计算开销的增加。通过系统地评估这些因素，从业者可以选择一种剪枝方法，在效率提升与模型性能之间为其特定用例实现最佳平衡。

PyTorch、TensorFlow 和 ONNX 等机器学习框架提供了专门的剪枝工具，允许从业者高效地实现这些技术，同时确保与部署硬件的兼容性。

标准	Unstructured Pruning 非结构化剪枝	Structured Pruning 结构化剪枝	Dynamic Pruning 动态剪枝
内存效率	↑↑ 高	↑ 中	↑ 中
计算效率	→ 中	↑↑ 高	↑ 高
准确率保持	↑ 中等	↓↓ 低	↑↑ 高
硬件兼容性	↓ 低	↑↑ 高	→ 中
实现复杂度	→ 中	↑ 中度	↓↓ 高

Knowledge Distillation 知识蒸馏

知识蒸馏通过使用大型预训练教师模型的指导来训练一个更小的学生模型，从教师模型丰富的输出分布中学习，而不是从简单的正确/错误标签中学习。

这一区别很重要，因为教师模型提供的比真实标签更丰富的学习信号。以图像分类为例：一个真实标签可能说“这是一只狗”（独热编码：[0, 1, 0, 0, …]）。但一个训练好的教师模型可能输出[0.02, 0.85, 0.08, 0.05, …]，表明虽然“狗”最有可能，但图像与“狼”（0.08）和“狐狸”（0.05）有一些共同特征。这种类间相似性信息帮助学生学习特征关系，而这些关系是硬标签无法传达的。

知识蒸馏与剪枝不同。剪枝从现有模型中移除参数，而蒸馏使用大型预训练教师模型的指导来训练一个独立的、更小的架构。学生模型优化以匹配教师模型的软预测（类别上的概率分布），而不是简单地从标记数据中学习。
在这里插入图片描述

教师模型使用带有温度 $T$ 的软化 softmax 函数生成概率分布，学生模型则使用这些软标签以及真实标签进行训练。

知识蒸馏：学生模型从预训练教师模型生成的软化概率分布中学习，从而转移超出硬标签的知识。该过程使学生能够通过利用教师模型的泛化能力和类间关系，以更少的参数实现与教师相当的性能。

学生模型的训练过程包含两个损失项：

蒸馏损失（Distillation loss）：一种损失函数（通常基于 Kullback-Leibler（KL）散度 23 ），用于最小化学生模型和教师模型软标签分布之间的差异。
学生损失（Student loss）：一种标准的交叉熵损失，确保学生模型正确分类硬标签。

Kullback-Leibler（KL）散度：由 Kullback 和 Leibler（Kullback and Leibler 1951）引入的信息理论度量，用于量化概率分布之间的差异。在知识蒸馏中，典型的 KL 散度值范围为 0.1-2.0 nats；值大于 3.0 表示教师-学生模型对齐不良，需要调整温度或修改架构。

这两种损失函数的组合使学生模型能够同时吸收来自教师模型的结构化知识和来自数据集的标签监督。这种方法允许较小的模型达到接近其较大教师模型的准确度水平，使知识蒸馏成为模型压缩和高效部署的关键技术。

通过同时从硬标签和软教师输出中学习，学生模型受益于教师模型的泛化能力，即使参数更少，也能提高其区分相似类别的能力。与传统的训练方式不同，在传统训练中模型仅从二元正确性信号中学习，知识蒸馏允许学生模型从教师模型的预测中吸收更丰富的数据分布理解。

软目标的一个关键优势在于它们提供相对置信度水平，而不仅仅是单一的正确答案。考虑一个图像分类任务，目标是区分不同的动物种类。使用硬标签训练的标准模型只会收到关于其预测是否正确的反馈。如果图像包含一只猫，正确的标签是“猫”，而所有其他类别，如“狗”和“狐狸”，都被视为同等错误。然而，一个训练良好的教师模型自然地理解猫在视觉上与狗比与狐狸更相似，其软输出概率可能如图 9 所示，其中相对置信度水平表明，“猫”是最可能的类别，但“狗”仍然是一个合理的替代选项，而“狐狸”的可能性则要小得多。
在这里插入图片描述

软目标分布：相对置信度水平表明哪些类别更有可能对应于给定输入，显示模型能够表达不确定性，并提供超出简单正确或错误标签的细致输出。

与其简单地将学生模型强制严格地将图像分类为猫，教师模型提供了一种更细致的学习信号，表明虽然“狗”是错误的，但它比“狐狸”更是一个合理的错误。这种微妙的信息有助于学生模型在相似类别之间建立更好的决策边界，使其更能抵抗现实世界数据中的模糊性。
这种效果在训练数据有限或存在噪声的情况下尤为有用。在大量数据上训练的大型教师模型已经学会了良好的泛化能力，能够捕捉到小数据集难以发现的模式。学生通过继承这种结构化知识而受益，仿佛它能够访问比显式可用的更大的训练信号。
知识蒸馏的另一个关键优势是其正则化效果。由于软目标将概率质量分布在多个类别上，它们可以防止学生模型过度拟合特定的硬标签。这种正则化提高了模型的泛化能力，并降低了模型对对抗性输入的敏感性。学生模型不再自信地将 1.0 的概率分配给正确类别，将 0.0 分配给所有其他类别，而是学会做出更精确的预测，从而提高了其泛化性能。当学生模型参数较少时，这一点尤为重要，因为较小的网络更容易过度拟合。

知识蒸馏的效率优势体现在三个关键领域：内存效率、计算效率和部署灵活性。

剪枝 vs 知识蒸馏

标准	知识蒸馏	剪枝
精度保持	高——学生从教师学习，更好的泛化	如果过度剪枝，可能会降低准确率
训练成本	更高——需要教师和学生的训练	更低——只需微调
推理速度	高——生成密集、优化的模型	结构化剪枝效率高，非结构化需要特殊支持
硬件兼容性	高——适用于标准加速器	有限——稀疏模型可能需要专门的执行
实现简易度	复杂 – 需要设计教师-学生流程	简单 – 应用训练后

Structured Approximations 结构化近似

基于近似的压缩技术通过重构模型表示来降低复杂性，同时保持表达能力，补充了前面讨论的剪枝和蒸馏方法。

近似方法不是消除单个参数，而是将大型权重矩阵和张量分解为低维组件，使模型能够更高效地存储和执行。这些技术利用了这样一个观察结果：许多高维表示可以通过低秩结构很好地近似，从而在不显著损失性能的情况下减少参数数量。与选择性地移除连接的剪枝方法或转移学习知识的蒸馏方法不同，基于分解的方法通过结构化近似优化模型的内部表示。

近似技术包括：

低秩矩阵分解（Low-Rank Matrix Factorization ，LRMF）：一种将权重矩阵分解为低秩矩阵乘积的方法，以减少存储和计算复杂度。
张量分解（Tensor Decomposition）：将 LRMF 推广到高维张量，能够更有效地表示神经网络中的多路交互。

两种方法都提高了机器学习中的模型效率，特别是在资源受限的环境中，如边缘机器学习和微型机器学习。低秩分解和张量分解通过减少所需的操作次数来加速模型训练和推理。

Low-Rank Factorization 低秩分解

剪枝和知识蒸馏被介绍为减小模型尺寸的方法，剪枝通过选择性地移除参数，而蒸馏则是将知识从较大的模型转移到较小的模型。然而，这些技术并不改变模型参数的结构。相反，它们专注于减少冗余权重或优化训练过程。

低秩矩阵分解（LRMF）提供了一种替代方法，通过用低秩表示来近似模型的权重矩阵，而不是显式地移除或转移信息。这种技术将大型参数矩阵重构为紧凑的低维组件，在保留大部分原始信息的同时，显著降低了存储和计算成本。与创建稀疏表示的剪枝或需要额外训练过程的蒸馏不同，LRMF 是一种纯数学变换，将权重矩阵分解为两个或更多个较小的矩阵。

这种结构化压缩在效率是首要考虑因素的机器学习系统中特别有用，例如边缘计算、云推理和硬件加速的 ML 执行。通过使用低秩近似，模型可以在保持预测准确性的同时显著减少参数存储，这使得 LRMF 成为优化机器学习架构的有价值工具。

下图展示了低秩矩阵分解所实现的参数化减少。观察矩阵 $M$ 如何能被矩阵 $L_k$ 和 $RkTR^{T}_{k}$ 的乘积所近似。从直观上看，网络中的大多数全连接层被存储为投影矩阵 $M$ ，这需要在计算时加载 $m×nm\times n$ 个参数。然而，通过将其分解并近似为两个低秩矩阵的乘积，我们只需在存储方面存储 $m×k+k×nm\times k+k\times n$ 个参数，同时需要额外支付矩阵乘法的计算成本。只要 $k < (n /2)$ ，这种分解在存储总参数更少的同时，增加了计算运行时 $O (mkn)$ 。
在这里插入图片描述

低秩分解：将矩阵分解为低秩逼近可以减少存储和计算所需的参数数量，从而实现高效的模型表示。通过将矩阵 $a$ 表示为两个较小矩阵 $u$ 和 $v$ 的乘积，我们从存储 $m×nm\times n$ 个参数过渡到存储 $m×k+k×nm\times k+k\times n$ 个参数，其中 $k$ 表示降低后的秩。

LRMF 被广泛用于通过减少参数冗余来提高机器学习模型的效率，特别是在全连接层和卷积层中。在更广泛的机器学习系统背景下，分解技术有助于优化模型推理速度、存储效率和适应专用硬件加速器的能力。

Tensor Decomposition 张量分解

在这里插入图片描述

张量分解：多维张量通过分解为低秩分量，能够以紧凑的形式表示高维数据，与直接操作原始张量相比，这可以降低计算成本和内存需求。该技术将矩阵分解扩展到处理现代机器学习模型（如卷积神经网络）中常见的多路交互。

张量分解（Tensor Decomposition，简称 TD）将低秩分解的原理扩展到高阶张量，使得大型多维数组能够表示为低秩分量的形式。鉴于张量经常作为机器学习系统中权重参数、激活值和输入特征的表示出现，它们的直接存储和计算往往变得不切实际。通过将这些张量分解为一组较小的因子，张量分解显著降低了内存需求和计算开销，同时保持了原始结构的完整性。

在卷积神经网络（CNN）中，张量分解用于压缩卷积滤波器，并在推理过程中减少所需的运算次数。标准的卷积层包含一组权重张量，这些张量定义了如何转换输入特征。这些权重张量通常表现出冗余性，意味着它们可以分解为更小的组件，而不会显著降低性能。CP 分解和 Tucker 分解等技术能够使用低秩张量来近似卷积滤波器，从而减少参数数量和卷积运算的计算复杂度。这种结构化压缩形式在边缘和移动机器学习应用中尤其有价值，因为这些应用中内存和计算资源受限。

在自然语言处理（NLP）中，张量分解通常应用于嵌入层和注意力机制。许多 NLP 模型，包括 Transformer，依赖于高维嵌入来表示单词、句子或整个文档。这些嵌入可以通过张量分解进行分解，以减少存储需求，同时不损害其捕捉语义关系的能力。类似地，在基于 Transformer 的架构中，自注意力机制需要大量的张量乘法，这可以通过分解技术进行优化，以降低计算负担并加速推理。

LRMF vs TD

特性	低秩矩阵分解 (LRMF)	张量分解
适用数据结构	二维矩阵	多维张量
压缩机制	将矩阵分解为两个或多个低秩矩阵	将张量分解为多个低秩分量
常用方法	奇异值分解（SVD），交替最小二乘法（ALS）	CP 分解，Tucker 分解，张量链（TT）
计算复杂度	通常较低，对于秩-$ k $的近似，通常为$ O(mnk) $	更高，由于迭代优化和张量收缩
存储减少	将存储从 $ O(mn) $ 减少到 $ O(mk + kn) $	实现更高的压缩率，但需要更复杂的存储表示
推理开销	需要额外的矩阵乘法	引入额外的张量运算，可能增加推理延迟
主要应用场景	全连接层、嵌入、推荐系统	卷积滤波器、注意力机制、多模态学习
实现复杂度	实现更简单，通常涉及直接分解方法	更复杂，需要迭代优化和排序选择

Neural Architecture Search 神经网络架构搜索

神经架构搜索（NAS）通过系统地探索大量可能的架构空间，自动完成这一过程，以识别那些在准确性、计算成本、内存效率和推理延迟之间取得最佳平衡的架构。

NAS 通过三个相互关联的阶段运作：定义搜索空间（架构组件和约束），应用搜索策略（强化学习、进化算法或基于梯度的方法）来探索候选架构，以及评估性能以确保发现的设计满足准确性和效率目标。
在这里插入图片描述

神经架构搜索流程：自动神经架构搜索（NAS）技术迭代优化模型架构及其权重，联合优化性能和效率，与依赖人类专业知识和大量试错的手动设计方法形成对比。该流程能够发现针对特定计算约束的新型高性能架构。

模型效率编码

NAS 在三个关键阶段运行：定义搜索空间、探索候选架构和评估其性能。搜索空间定义了 NAS 可以修改的架构组件和约束。搜索策略决定了 NAS 如何探索可能的架构，根据过去的观察选择有希望的候选者。评估过程确保发现的架构满足多个目标，包括准确率、效率和硬件适用性。

搜索空间定义：这一阶段确立了 NAS 可以修改的架构组件和约束条件，例如层数、卷积类型、激活函数以及特定硬件的优化。一个定义良好的搜索空间能够在创新与计算可行性之间取得平衡。
搜索策略：NAS 使用强化学习、进化算法或基于梯度的技术等方法探索搜索空间。这些方法指导搜索朝着在满足资源约束的同时最大化性能的架构发展。
评估标准：候选架构根据多种指标进行评估，包括准确率、FLOPs、内存消耗、推理延迟和能效。NAS 确保所选架构符合部署要求。

Search Space Definition 搜索空间定义

NAS 的第一步是确定它被允许探索的架构集合，即搜索空间。该空间的大小和结构直接影响 NAS 发现最优模型的效率。一个定义良好的搜索空间必须足够广泛以允许创新，同时也要足够狭窄以避免在不切实际的架构上进行不必要的计算。

典型的 NAS 搜索空间由定义模型结构的模块化构建块组成。这些包括可供选择的层类型，如标准卷积、深度可分离卷积、注意力机制和残差块。搜索空间还定义了网络深度和宽度的约束，指定模型可以有多少层以及每层应包含多少通道。NAS 考虑激活函数，如 ReLU、Swish 或 GELU，这些函数既影响模型的表达能力，也影响计算效率。

搜索空间内的其他架构决策包括卷积核大小、感受野和跳跃连接，这些决策会影响特征提取和模型复杂度。一些神经架构搜索（NAS）实现还集成了硬件感知优化，确保发现的架构与特定硬件（如 GPU、TPU 或移动 CPU）相匹配。

搜索空间的选择决定了神经架构搜索（NAS）优化模型的程度。如果空间过于受限，搜索算法可能无法发现新颖且高效的架构。如果太大，搜索将变得计算成本高昂，需要大量资源来探索众多可能性。找到合适的平衡点可以确保 NAS 能够高效地识别出优于人类设计的架构。

Search Space Exploration 搜索空间探索

一旦搜索空间被定义，NAS 必须确定如何有效地探索不同的架构。搜索策略通过根据过去的观察来选择要评估的架构来指导这一过程。有效的搜索策略必须在探索（测试新架构）与利用（改进有潜力的设计）之间取得平衡。

已经开发出多种方法来高效地探索搜索空间。基于强化学习的神经架构搜索（NAS）将搜索过程表述为一个决策问题，其中智能体按顺序选择架构组件，并根据生成模型的性能接收奖励信号。随着时间的推移，智能体通过最大化该奖励来学习生成更好的架构。虽然有效，但基于强化学习的 NAS 可能计算成本高昂，因为它需要在收敛到最优设计之前训练许多候选模型。

另一种方法使用进化算法，该方法维护一组候选架构，并通过变异和选择迭代地改进它们。具有更高准确性和效率的更强架构被保留下来，而诸如改变层类型或过滤器大小的修改则引入新的变异。研究表明，这种方法比基于强化学习的神经架构搜索（NAS）更有效地平衡了探索和计算可行性。

更近期的基于梯度的 NAS 方法引入了可微分的参数，这些参数代表了架构选择。与将架构视为离散实体不同，基于梯度的方法通过标准梯度下降同时优化模型权重和架构参数。这显著降低了搜索的计算成本，使 NAS 更适用于实际应用。

Candidate Architecture Evaluation 候选架构评估

NAS 探索的每一种架构都必须根据一套预定义标准进行评估。虽然准确率是一个核心指标，但 NAS 也优化效率约束，以确保模型适合部署。评估过程决定了一个架构是否应该保留以供进一步优化，或者是否应该被更有前景的设计所取代。

主要评估指标包括计算复杂度、内存消耗、推理延迟和能效。

NAS 评估指标：多目标优化考虑准确率（top-1/top-5）、延迟（目标硬件上的毫秒）、内存（MB 激活值+参数）和能耗（每次推理的毫焦）。Pareto 最优架构比手动设计提供 15-40%更优的效率前沿。

Search Strategies 搜索策略

NAS 搜索策略比较：不同 NAS 方法在搜索效率、应用场景和局限性之间的权衡。强化学习提供无约束探索，但成本高昂；进化方法利用并行性；基于梯度的方法以潜在的最优性权衡实现了显著的加速。

策略	搜索效率	何时使用	主要挑战
强化学习	400-1000 GPU 天	新颖领域，无约束搜索	高计算成本
进化算法	200-500 GPU 天	提供并行基础设施	需要大规模种群
基于梯度的（DARTS）	1-4 GPU 天	计算资源预算有限	可能收敛到次优局部最小值