06-EGFA-NAS——一种基于爆炸引力场算法的神经结构搜索方法

复杂智能系统<img src="/media/202408//1724856290.953221.png" /><a href="https://doi.org/10.1007/s40747-023-01230-0">https://doi.org/10.1007/s40747-023-01230-0</a>原物EGFA-NAS：一种基于爆炸重力场算法的神经结构搜索方法胡雪梅1 ·黄兰1、2 ·佳曾<img src="/media/202408//1724856290.980504.png" />1 ·王康平1 ·王燕1、3收到日期：2023年3月3日/接受日期：2023年9月3日 ©作者(s) 2023摘要神经结构搜索（NAS）是一项极其复杂的优化任务。近年来，基于种群的优化算法，如进化算法， 已被采用作为自动设 计神经网络的搜索策略。各种基于种群的NAS方法在寻找高性能的神经结构方面都很有前景。受行星形成过程启发的爆 炸引力场算法（EGFA）是一种新的基于种群的优化算法，与经典的基于种群的PSO算法相比，具有良好的全局优化能力 和显著的效率。因此，本文试图开发一种更有效的NAS方法，称为EGFA-NAS，利用EGFA的工作机制，将搜索离散空间松 弛为一个连续空间，然后利用EGFA和梯度下降来优化候选架构的权值。为了降低计算成本，提出了一种利用EGFA-NAS 种群机制的训练策略。此外，对爆炸过程中产生的粉尘个体提出了权重继承策略，以提高性能和效率。在两个典型的 微搜索空间：NAS-板凳-201和飞镖中，研究了EGFA-NAS的性能，并与各种最先进的NAS竞争对手进行了比较。实验结果 表明，EGFA-NAS在图像分类任务上能够匹配或优于最先进的NAS方法，具有显著的效率提高。关键词神经结构搜索爆炸引力场算法复杂优化任务深度神经网络B 黄岚huanglan@jlu.edu.cn B 王燕wy6868@jlu.edu.cn胡雪梅<img src="/media/202408//1724856291.0357141.png" />huxm18@mails.jlu.edu.cn<table><tr><td>123</td><td>贾增zengjia22@mails.jlu.edu.cn王康平wangkp@jlu.edu.cn吉林大学计算机科学与技术学院，长春130012吉林大学教育部符号计算与知识工程重点实验室，长春 130012吉林大学人工智能学院，长春130012</td></tr></table>介绍深度神经网络（DNNs）在各种具有挑战性的任务中取得了 重大进展，包括图像分类[1-4]、 目标检测[5 –7]和分割 [8,9]。神经结构的创新是该研究进展背后的关键因素之 一。例如，VGGNet [1]建议使用更小的卷积滤波器，并堆 叠了一系列的卷积层， 以获得更好的性能。ResNet [10] 引入了残差块，有利于更深层次神经网络的训练。DenseNet [11]设计了密集连接的块来堆叠来自不同深度 的特征。一般来说，手动设计一个强大而高效的神经网络 架构需要大量的专家实验和领域知识。直到最近，一系列 的神经结构搜索（NAS）方法被提出，为普通用户和学习 者带来了极大的便利，并使他们能够从深度神经网络的成 功中获益。published online:30september2023 1 2 3通常，一个NAS任务可以看作是一个复杂的优化问题。在机器学习和计算智能方面，基于种群的智能优化算法， 如遗传算法（GA）和粒子群优化（PSO），在1990年末采 用了神经进化算法，以优化神经网络的拓扑结构和超参数 [12-14]。近年来，许多采用基于种群的智能优化算法作 为搜索策略的NAS方法受到了越来越多的关注。虽然遗传 算法等智能优化算法在各种复杂的优化任务上具有良好的 搜索性能，但仍存在较高的计算成本。这个缺点在NAS任 务中尤其如此，因为NAS过程涉及到大量的体系结构评估 。更具体地说，对于NAS任务，每个网络架构评估都涉及 到从头开始对大量数据进行深度神经网络的完成训练。例 如，分层EA [15]消耗300个GPU天，和[16]-A[16]消耗3150 GPU天来搜索CIFAR10上的架构。此外，强化水泥学习（RL）也被用于自动设计神经结 构，如[7,17,18]。基于rl的NAS方法的一个显著限制是， 尽管其性能显著，但在计算上也很昂贵。例如，典型的基 于rl的方法NASNet-A方法需要2000个GPU天才能在CIFAR10 上获得优化的CNN架构。这些方法需要大量的计算资源，这是大多数研究人员和学习者负担不起的。为了降低计算 成本，ENAS [18]提出了一种参数共享策略，该策略通过 使用超集在架构之间共享权重，并被应用于各种梯度下降 （GD）NAS方法，如[19 –21]。与基于ea和rl的NAS方法相 比，基于gd的NAS方法通常更有效，它们采用梯度下降来 优化候选架构的权重。然而，基于gd的NAS方法仍然有一 些局限性，例如因为在搜索过程中需要过多的GPU内存，并导致过早收敛 到局部最优[22,23]。近年来，一些基于人群的方法，如各种基于ea的方法 [15,16,24-28]，已经被用于NAS任务，并取得了一些进展 。受行星形成过程启发的爆炸引力场算法（EGFA） [29]是 一种新型的智能优化算法，与经典的基于种群的优化算法 相比，具有良好的全局优化能力和显著的效率。现在，计 算的时间和资源限制仍然是使用和开发NAS方法的主要瓶颈。因此，本文 试图开发一种更有效的NAS方法，利用EGFA的工作机制，以发现一个具有竞争性的学习精度的最优神经架构，但只 消耗少量的计算时间和资源。具体来说，所提出的EGFA -NAS结合利用了EGFA和梯度descenttooptimizetheweightsofthecandidatearchi tectures 。为了降低计算成本，埃及人提出了一种利用 EGFA-NAS种群机制的训练策略。为了提高效率和性能，EGFA-NAS对爆炸作业过程中新产生的新粉尘个体提出了权 重继承策略。本文的主要贡献总结如下。1.提出了一种基于人口的NAS方法，称为EGFA-NAS，利用 EGFA和梯度下降共同优化候选架构的权重，并适用于 任何通用微搜索空间与固定数量的边缘和确定候选操 作集，如NAS-Bench-201和飞镖搜索空间。2 . 提出了一种利用种群机制来降低计算成本的训练策略 。具体来说，所有的尘埃个体在每个时代合作完成数 据集的训练。虽然每个尘埃个体只在每个时代的部分 批次的训练，itwillbetrainedonallbatchesoveralargenumber的 时代。3 . Aweightinheritanceisproposedtoimproveperforman ce和效率。具体来说，在爆炸操作过程中，每个新产 生的尘埃个体的重量w都是继承自中心尘埃的。利用 这种策略，新生成的数据可以在当前时期直接进行评 估，而无需再训练。4.实验结果表明，与四种最先进的NAS方法相比，EGFA- NAS搜索的最优神经网络结构具有竞争性的学习精度 和最小的计算成本。本文的其余部分组织如下。“相关工作 ”介绍了该工 作的相关工作。“所提出的NAS方法 ”详细描述了所提出 的NAS方法的细节。实验设计和结果分别在“实验设计 ” 和“实验结果 ”中提出。最后一部分是放在“结论 ”中的 结论。相关工作NAS任务的一般制定NAS是一项极其复杂的优化任务，其主要目标是将人工设 计神经网络的过程转化为自动寻找最优的体系结构。NAS 的过程可以被描述出来。1 . 在研究过程中，这些搜索策 略从搜索空间中抽取一个候选架构。然后，我们训练体系 结构收敛并评估体系结构的性能。接下来，搜索策略根据 最后一个体系结构的评估结果，选择另一个候选体系结构 进行培训和评估。在NAS任务中，表示神经网络结构为a，神经网络所有 函数的权值为wA.那么NAS的目标是找到一个可以实现最小 验证损失的体系结构Alv通过尽量减少训练损失来进行训 练后lt，如等式所示( 1).(1)<table><tr><td>。r…</td></tr></table>w的位置 是A的最佳权值，达到训练数据集的损失最小。lt和lv分别为训练数据集和验证数据集上的损失。这两种 损失不仅由体系结构A决定，还由权重w决定。这是一个以 双级优化问题[30]，以a为上层变量，为低级变量。NAS方法搜索策略决定了如何采样神经网络架构。根据不同种类的 搜索策略，NAS方法大致可以分为三种猫-条件：基于ea的NAS方法，基于rl的NAS方法，基于gd的 NAS方法。基于EA的NAS方法基于ea的NAS方法使用进化算法（EAs）对神经结构进行采 样。早期基于ea的网络优化研究被提出为神经进化的概念 [12-14]，它不仅优化了网络的拓扑结构，而且还优化了 与网络相关的超参数和连接权值。近年来，基于ea的NAS 方法引起了越来越多的关注。例如，谢等人。2017年发布 了第一个基于ea的NAS工作GeNet [31]，该工作使用固定 长度的二进制字符串对候选架构进行编码。Real等。通过 EA搜索网络架构，并开始搜索从平凡的初始条件[27]中进行搜索。随后，Real等人。进 化出了一种图像分类器：变形网-a[16]，它通过引入年龄 的概念来修改比赛的选择，并首次超过了手工设计。刘等 人。提出了分层EA [15]，它结合了一种新的分层遗传表 示方案，模仿模块化的设计模式和表达性搜索空间。Elsken等人。提出了一种用于多目标架构搜索的柠檬水进 化算法。苏加努梅塔尔。构建了基于笛卡尔遗传规划（CG P） [25]的CNN架构。太阳等。提出了CNN-GA [26]和AE-CNN [32]，发展CNN架构，基于网络和网络块。为了加速 进化深度学习中的适应度评估，Sun和Wang等人。提出了 一种基于随机森林[33]的端到端离线性能预测器。尽管上述基于ea的NAS方法搜索的神经网络结构与最先 进的处理设计的CNNs相比取得了具有竞争力的性能，但作 为基于种群的方法，由于涉及到大量的健康评估，他们仍然面临着巨大的资源 成本。在搜索阶段，每个新生成的候选体系结构都需要在 一个训练数据集上进行训练，并在一个验证数据集上进行 评估。那么，大多数基于ea的NAS方法都很耗时。例如，在CIFAR10数据集上搜索架构，分层EA [15]需要300 GPU 天，Amoe[16]-[16]需要3150 GPU天，CNN-GA [26]需要35 GPU天，AE-CNN [32]需要27 GPU天。因此，必须加快基于 ea的NAS方法的评价过程，特别是在计算资源有限的情况 下。基于rl的NAS方法主体、环境和奖励是强化学习（RL）的三个因素。在文本 中，将控制器从搜索空间采样网络架构定义为代理的行为 , 以网络性能为奖励，控制器在下一次迭代中根据奖励进 行更新。Zoph最早的基于rl的NAS方法由等人提出。在2017年，它使用rnn作为控制器，对网络架构进行采样， 并通过策略梯度[7]生成操作。随后，Zoph等人。采用近 端优化策略来优化RNN控制器[17]。蔡等人。提出了一种 基于rl的算法：无代理NAS[34]，这是一种处理硬件度量 的替代策略。BlockQNN [35]使用q-学习范式自动构建高 性能网络。图1神经过程 体系结构搜索<img src="/media/202408//1724856291.125911.jpeg" /><table><tr><td></td></tr></table>早期的基于rl的NAS方法通常计算成本很高。为了降低 计算成本，work [ 17]提出了著名的NASNet搜索空间允许我们在CIFAR10数据集上搜索最佳单元格然后通过将这个单元的更多副本叠加在一起，将这个单元 应用到ImageNet数据集。ENAS [18]提出了一个parameter -sharingstrategyandtheone-shotestimator（OSE），它 将所有候选架构视为该网络的子图。然后，所有的候选体 系结构都可以共享这些参数。基于GD的NAS方法近年来，人们对采用梯度下降（GD）方法越来越感兴趣。 一种典型的基于GD的NAS方法是飞镖[19]，它通过松弛策 略将离散搜索空间转换为连续搜索空间后，通过GD方法对 网络体系结构参数进行优化。随后，董等人。提出了GDAS [20]，它开发了一个可学习的可微采样器来加速搜索过程 。谢等人。提出了SNAS [21] ，它训练神经操作参数andarchitecturedistributionparametersbyprop osi nganovel搜索梯度。上述无代理NAS[34]proposedagradient-basedapproachtohandlenon- differentiable硬件目标。与基于ea和基于rl的NAS方法相比，基于gd的NAS方法 都是有效的，因为它们将候选网络的结构表示为有向无环 图（DAGs），并使用了参数共享策略。然而，基于gd的NAS方法也存在一些缺点。例如，参考文献[22,23]指出， 飞镖倾向于选择跳过连接操作，这将导致搜索架构的性能 下降。为了克服飞镖[19]的缺点，人们提出了几种不同的 飞镖方法，如飞镖-[36]、飞镖+ [37]、RC-飞镖[38]和 β -飞镖[39]。除了上述三种NAS方法外，还有其他没有提到或没有提 到的NAS方法完全属于上述类别。例如，Liu等人。提出了采用基于序列模型的优化（SMBO）策略。爆炸重力场算法爆炸引力场算法（EGFA） [29]是一种基于原始GFA[40 –43] 的新的优化算法，它基于SNDM [44]刺激行星的形成过程。它是由我们的研究团队在2019年提出的，在解决基准函 数[29]和特征选择任务[45]等优化问题和任务方面取得了 良好的性能。与传统的基于种群的智能算法，如遗传算法 （GA）和粒子群优化（PSO）的智能算法相比，EGFA具有 更好的全局优化能力和显著的效率。此外，在某些条件下 , 概率为1的thefactthatEGFAconvergestotheglobal最佳 解已被证明为[29]。在EGFA中，所有的个体都可以被模拟成有质量的尘埃 粒子，每个个体都属于某一群体。在每一组中，以质量值 最大的一组为中心尘埃，其余为周围的尘埃颗粒。基于SNDM [44]的思想，每个中心的尘埃被引力场吸引它周围 的尘埃，引力场使周围所有的尘埃粒子向它们的中心移动 。在EGFA中，每个尘埃粒子可以用一个四元组（位置、质 量、组、标志）表示，其中标志是一个布尔值，表示它是 否是一个中心，位置对应于问题的解决方案，组表示组数 , 质量是目标函数的值。当质量值越大时，解就越好。对 于EGFA有6个基本操作，如图所示。2 : (1)粉尘采样（DS） 、 (2)初始化， (3)组、 (4)移动和旋转， (5)吸收，然后(6)爆炸。EGFA的详细流程总结如下 :步骤1：通过粉尘采样（DS）定位子空间。DS的任务是 有效地定位一个足够小的搜索空间，它更有可能包含最优 解。步骤2：根据步骤1定位的子空间，随机初始化粉尘数 量。步骤3：将粉尘种群随机分为几个亚组，并计算所有个 体的质量值。在每组中，设置最大质量值<img src="/media/202408//1724856291.202942.png" /><table><tr><td></td></tr></table>图2、EGFA工作流程图作为中心，将其旗帜设为1；将其他个体设为周围尘埃颗 粒，设为0。步骤4：检查停止情况。如果满足停止条件，返回最佳 解，算法终止，否则进入步骤5。步骤5：执行移动和旋转操作。在每一组中，每个中心 通过引力场吸引其周围的尘埃粒子，而引力场使周围所有 的尘埃粒子向它们的中心移动。步骤6：执行吸收操作。周围的一些足够靠近其中心的 尘埃颗粒被这些中心吸收。在这个过程中，粉尘种群的规 模将会减小。步骤7：进行爆炸操作，在中心周围产生一些新的尘埃 颗粒。当爆炸操作完成后，算法转到步骤4。另外，步骤1中的DS避免了一个长时间的迭代过程，因 为该算法只在比原始搜索空间足够小的子空间中进行搜索 。爆炸操作保持了种群的规模，可以阻止算法因为陷入局 部最优而陷入停滞行为。在本文中，我们提出了一种基于爆炸引力场算法的NAS 方法，简称EGFA-NAS。在EGFA-NAS中，一个个体（一个尘 埃粒子）代表了一个候选的网络架构。EGFA-NAS的目标是 发现一个性能最好的网络架构，例如在测试数据集上的准 确性。对于NAS任务，包含最好的足够小的子空间是困难 的来定位和计算密集型。因此，埃及人放弃了第一次手术DS 。作为一种基于人群的NAS任务的方法，有几个关键问题 需要解决。即(1)要搜索哪种类型的搜索空间， (2)如何表 示和编码CNN网络， (3)如何加速网络架构评估过程， (4) 如何使用启发式信息来指导搜索过程。建议的NAS方法微搜索空间、超NASNet[17]、飞镖[19]和NAS-板凳-201[23]搜索空间最近被广泛用于NAS任务，通过叠加多个 块的数量来搜索神经细胞形成块并构建网络的宏骨架[16- 20,23,46]。在此工作中，我们提出了一种有效的微搜索 空间的NAS方法。为了充分研究我们所提方法的性能，我 们选择了两个经典的微搜索空间：i。e., NAS-Bench-201 和镖搜索空间测试。搜索空间的表示在这项工作中，我们寻找一个计算单元作为最终体系结构 的构建块，并将一个单元表示为一个有向无环图（DAG）。具体来说，一个节点表示信息流，e。g., cnn中的一个 特征图和两个节点之间的一条边提供了候选操作，这被称 为由人类专家设计的成功模块。我们将O表示为候选操作 集。为了在正向传播过程中更有效地处理中间节点，需要 搜索两种细胞：步幅为1的正常细胞和步幅为2的减少细胞 （块）。一旦识别了这两种细胞，我们就可以堆叠搜索细 胞的多个副本，组成一个整个神经网络。在这个部分中， 我们分别介绍了两个搜索空间： NAS-Bench-201和飞镖搜 索空间。NAS工作台-201NAS-Bench-201由Dong等人提出。 [23]，这是一个与算法 无关的微搜索空间。具体来说，来自mNAS-Bench-201的单 元格包括一个输入节点、三个计算节点，最后一个计算节 点也是下一个单元格的输出节点。单元格中的每条边都有 五个候选选项。然后NAS-Bench-201中的一个单元可以表示为一个DAG，其节点完全连接，有5C=总共有15,625个候选细胞。在NAS-Bench201中，候选操作集O包含以下五 个操作： (1)归零、 (2)跳过连接、 (3) 1 × 1卷积， (4) 3×3卷积，和(5) 3×3平均池化。如图所示。3、NAS-Bench201的宏骨架主要由三个普通 块堆叠，并由两个还原块连接。每个正常细胞块由B正常细胞组成。缩减块是基本的缩减块[ 10]， whichservestodown-samplethespatialsizeanddouble是 输入特征映射的通道]。骨架由一个3×3卷积启动，最后 是无小叶平均池化层，将特征映射平化为一个特征向量。此外，工作[23]评估每个候选的archi- 在三个不同的数据集上进行nas-板凳-201的检测：CIFAR10，CIFAR100 [47]，和ImageNet16120 [48]。一旦 找到了最终的架构，再训练过程就不是必要的，我们可以 通过[23]提供的API直接获得网络的最终性能。飞镖搜索空间飞镖[19]搜索空间是一种流行的微搜索空间， 由Liu等人 提出。这类似于NASNet [ 17]搜索空间，但删除了一些未 使用的操作，并添加了一些强大的操作。具体来说，飞镖 搜索空间中的一个单元格包含两个输入节点、四个计算节 点和一个输出节点。输出节点是四个计算节点的连接。如 图中所示。4、在一个单元格中有14条边用于搜索，每条 边有8个选项。与NAS-Bench-201不同，单元格中的节点在 搜索阶段并没有完全连接。此外，在评估阶段，每个节点 只与之前的两个节点连接。在飞镖搜索空间，候选操作集 O包含以下八个操作： (1)识别， (2)归零， (3) 3×3深度 独立卷积， (4) 3×3扩张深度分离卷积， (5) 5×5深度分 离卷积， (6) 5×5扩张深度分离卷积， (7) 3×3平均池， (8) 3×3最大池。如图所示。4、B个正常细胞堆积为一个正常细胞块。对于一个给定的图像，它向前思考一个3×3的卷积，然后 向前思考一个三个正常的块，中间有两个还原单元。在本 文中，我们遵循[ 19]来建立飞镖搜索空间的整体网络架 构。搜索过程的总体图5显示了埃及人中搜索的整个过程。 (a)边缘上的操作初 始化未知。 (b)搜索空间的连续松弛和对具有混合概率的 边缘的候选操作进行采样。 (c)同时优化混合概率和细胞 的权重。 (d).从学习到的混合概率中推断出细胞的最终 结构细胞的表示和编码正如在“搜索空间的表示 ”中所讨论的，在本工作中要搜 索的单元格可以用dag来表示。具体来说，每个计算节点 代表一个特征图，它是从之前的特征图转换而来的。每个edgeinthisDAGisassociatedwithanoperationtransf orming都将特征从一个节点映射到另一个节点。所有可 能的操作都从候选操作集中选择O。那么任意节点j的输出 都可以表示为等式(2).<img src="/media/202408//1724856291.2263901.jpeg" /><table><tr><td></td></tr></table>(2)其中，Ii和Ij分别表示节点i和节点j的输出。oi, j表示 将特征映射从节点i转换到节点j的操作，从节点j中选择。在NAS-Bench-201 [23]中，一个正常的细胞包含四个 节点，i。e., {Ii |0≤i≤3} 。I0是前一层的输出张量 , I1,I2,I3是节点1、2、3的输出张量， 由等式计算出来 吗(2).根据工作[23]，一个普通单元格包含6条边，每条 边有5个候选操作。在飞镖搜索空间中，一个单元格包含7个节点，i。e., {Ii |0≤i≤6} 。I0和I1输入张量，I2,I3,I4和I5是节点 2、3、4、5的输出张量。I6表示这个单元格的输出，它是 四个计算节点的连接，i。e.,I6=I2UI3UI4UI5.将e定义为单元格的边数， |O|表示候选操作集O的大小 。根据上述对NAS-Bench-201和飞镖搜索空间的描述，一 个细胞可以被编码为大小为e×|O|的a。在NAS-Bench-201 , e = 6， |O| = 5中，A是一个大小为6×5的张量。在飞 镖搜索空间中，e = 14， |O| = 8，A是一个大小为14×8 的张量。一个单元格的一般表示形式被表示为等式(3).<img src="/media/202408//1724856291.254071.jpeg" /><table><tr><td></td></tr></table>(3)在哪里<img src="/media/202408//1724856291.277855.png" />p表示采样边缘p，a的|O|候选操作的概率的第q个元素是什么ip并表示对边缘p的第q个候选操作进行采样 的概率。事实上，为细胞进行编码的方式是<img src="/media/202408//1724856291.303932.png" />图3NAS台201宏观骨架<img src="/media/202408//1724856291.409767.jpeg" /><table><tr><td></td></tr></table><img src="/media/202408//1724856291.416356.png" />图4个飞镖搜索空间的宏骨架<table><tr><td></td></tr></table>图5.整个搜索过程平衡(3)可用于任何微搜索空间，其中搜索单元具有固定 数量的边数e和已定义的候选操作集o。搜索空间的连续松弛正如在“搜索空间的表示 ”中所述，一个神经网络结构由 单元格的许多副本组成。这些单元格从NAS-Bench-201和 飞镖搜索空间中采样。具体地说，从节点j到节点i，我们 以离散概率从候选操作集O中采样变换函数α (i ← j) . 在搜索过程中，我们通过等式计算了一个单元格中的每个 节点(4).<img src="/media/202408//1724856291.429535.jpeg" /><table><tr><td></td></tr></table>(4)其中， |O|为集合O， α 的候选操作数<img src="/media/202408//1724856291.432731.png" /> ← j)表示该边的概 率 (i ← j)从…选择第k个候选操作作为转换函数，ok表示第k个候选操作 , Ij为节点j，w的输出<img src="/media/202408//1724856291.437085.png" /> ← j)o的函数是权重吗k紧张不安 (i ← j) .为了使搜索空间连续，我们放宽了一个特定操作 α 的概率<img src="/media/202408//1724856291.442625.png" /> ← j)通过等式来完成所有可能的操作(5).<img src="/media/202408//1724856291.446878.jpeg" /><table><tr><td></td></tr></table>(5)我在哪里。i.d的样本从Gumble（0,1），ck =-日志（ - 日志(u)）与u~Unif[0,1]。 τ是软最高温度；在本工作 中， τ设置为10与研究[23]相同。培训策略在本工作中，我们的目标是通过利用EGFA-NAS的种群机制 来降低计算成本。主<img src="/media/202408//1724856291.4572318.jpeg" />图6培训策略 egfanas训练策略的思想如图所示。6. 具体来说，定义dt作为训 练数据集，batch_num作为批数dt，n为种群大小。在每个 时期，每个尘埃个体都在对k个批次进行训练，其中k个=Lbatch_num/n ”。所有的尘埃个体都在每个时代合作完 成对数据集的训练。这个训练过程会重复进行，直到达到最大的时代数。每个尘埃个体（架构网络）将是trainedonmanydifferentbatchessincethenumberof batches batch_num通常大于种群大小n，训练过程重 复大量的时期。在本工作中，分别为NAS-Bench-201的CIFAR10，andsetthemaximumnumberofepochsas80and 200 设置了batch_num = 98，n = 20，k = 5。虽然每个尘埃 个体（架构网络）在每个历元上只在一个子集（1/n训练 数据）上进行训练，但该训练策略将在大量epoch上的所 有训练数据上进行训练。此外， 由于事实，每个灰尘个人负责培训工作的一部 分，和每个时代的完整训练完成所有个人的参与，因此 EGFA-NAS的效率是不敏感的人口大小n的设置，将实验确 认在“参数设置NAS-Bench-201 ”。爆炸操作和权重继承在神经结构搜索的背景下，一个灰尘在EGFA-NAS代表了一个候选体系结构，不仅维护了原始的四 个属性：位置、质量、组数和一个布尔标志，指示它是否 是2.3中描述的中心，而且还维护了一个属性“w ”来记录 单元格中函数的权重。每个尘埃颗粒可以用五个元组（位 置、w、质量、组、标志）来表示。在EGFA-NAS中，将位 置表示为操作混合概率A，那么一个神经网络结构可以表 示为（ a、w、质量、组、标志）。作为一种基于群体的NAS方法，EGFA-NAS的主要计算瓶 颈是涉及到大量的体系结构评价。我们试图利用EGFA的工 作机制来降低计算成本。在每个时期， 由于在爆炸操作过 程中需要训练一些新产生的尘埃粒子（体系结构），因此 会产生额外的计算成本。另一方面，新的尘埃颗粒是基于 中心尘埃产生的，新产生的尘埃颗粒与中心之间有密切的 关系。基于上述两个观察结果，我们提出了一种在爆炸操 作过程中的权重继承策略。在算法1中描述了在EGFA-NAS 中的爆炸操作的细节。<img src="/media/202408//1724856291.4680068.png" /><table><tr><td colspan="6"><img src="/media/202408//1724856291.479805.png" /></td></tr><tr><td colspan="6"><img src="/media/202408//1724856291.4843981.png" /></td></tr><tr><td colspan="4">radius ui,curreaatepoch epc ch,, du sst population<img src="/media/202408//1724856291.4889338.png" /></td><td colspan="2"><img src="/media/202408//1724856291.491939.png" /></td></tr><tr><td colspan="6"><img src="/media/202408//1724856291.510838.png" /></td></tr><tr><td colspan="2"><img src="/media/202408//1724856291.5236218.png" /><img src="/media/202408//1724856291.531722.png" /></td><td colspan="4"><img src="/media/202408//1724856291.5495539.png" />for each n⃞genratgdindixidual dust, do duc st,-A=center. A*(l-r)+Aas m*r<img src="/media/202408//1724856291.566296.png" /><img src="/media/202408//1724856291.570101.png" /><img src="/media/202408//1724856291.579318.png" /></td></tr><tr><td colspan="3">9.foreach indixidual dust,</td><td colspan="3"><img src="/media/202408//1724856291.61839.png" /></td></tr><tr><td><img src="/media/202408//1724856291.6646552.png" /></td><td colspan="4"><img src="/media/202408//1724856291.6995368.png" /><img src="/media/202408//1724856291.7097301.png" /><img src="/media/202408//1724856291.749471.png" /></td><td>gf dust</td></tr><tr><td colspan="6">I3. d usf, w=d usf,w-⃞vs w., Lr(dust,w,d usf, A)<img src="/media/202408//1724856291.791789.png" /><img src="/media/202408//1724856291.798002.png" /><img src="/media/202408//1724856291.808279.png" /><img src="/media/202408//1724856291.815846.png" /><img src="/media/202408//1724856291.8279428.png" />I9. Return Dust are sr</td></tr></table>如算法1所示，第一部分（第1-8行）是基于中心尘埃 产生新个体的过程。尘埃i的候选运算的概率A计算为第4 线，细胞中函数的权重w从中心尘埃继承为第5线。第二部 分（第9-14行）计算新生的尘埃颗粒的质量值，并更新参 数w。第15线结合了粉尘吸收（以前工艺的输出）和新建 的粉尘数量新尘.最后一部分（第16-18行）更新每一组的 中心灰尘。利用权重继承，新产生的粉尘可以在当前时期 直接进行评估，而无需再训练。图7说明了产生新的粉尘particlesbymeansofweightinheritanceduringtheex plosion操作的过程。<img src="/media/202408//1724856291.877866.png" />i表示对边i采样|O|候选操作的概 率，wi记录边i的函数的权重。图中右侧的分区。7显示新生成的尘埃种群以m为大小，新尘埃粒子的混合概率A基 于算法1中的中心为第4行，参数w继承自算法1中的中心尘 埃粒子为第5行。EGFA-NAS的过程如上所述，在NAS的过程中，架构A和权重w两个参数需要 进行优化。为了解决双层优化问题，我们将原始训练数据 集分为两部分：新的训练数据集dt以及验证数据集设计， 然后使用新的训练数据集dt若要优化参数w，请使用验证 数据集设计来优化参数A。在EGFA-NAS中，我们应用了EGFA和梯度下降图7.产生新产品的过程 尘粒重量<img src="/media/202408//1724856291.891468.png" /><table><tr><td></td></tr></table>爆炸过程中的遗传 活动同时对参数w和参数体系结构A进行迭代优化。EGFA-NAS的 生产过程详细描述如下：步骤1：初始化所有参数，包括粉尘种群大小n、g组数 、吸收操作的吸收率表、最大周期数、最大半径rmax和最 小半径rmin为爆炸策略；初始化粉尘人口尘埃={尘埃0灰 尘1， · · · , dustn-1}随机。对于每一个尘埃，位置( 第i个单元结构的尘埃。A)是随机初始化的，即 × |O|。(3). 在初始化后，每个细胞都可以堆叠成一个神经网络 。然后是在训练数据集上的损失lt以及在验证数据集上的 损失lv可以计算。为了优化两个参数w和A的同时，我们使 用了等式(6)来评价网络体系结构的性能，并表示为等式 (6)作为灰尘的质量值。值得注意的是lt和lv不是完全训 练后网络架构的损失，而是当前时期训练数据集和验证数 据集的损失。dusti .质量= L + L，(6)损失在哪里lt和lv由等式计算(7)，即交叉熵损失函数[49]<img src="/media/202408//1724856291.919766.png" />。L = - (y ln<img src="/media/202408//1724856291.931285.png" />+ (1 - y) ln (1 -<img src="/media/202408//1724856291.935099.png" />)),对x(7)其中x表示数据样本，y为真实标签，表示预测标签，s为 数据的大小。j步骤2：将粉尘数量分为g个亚组。在EGFA-NAS中，g值 设为2，设定质量最大的粉尘颗粒为中心粉尘，其余为周 围粉尘颗粒。对于dusti，属性标志被设置为等式(8)，其 中best_massj为第j组中的最大质量值。<img src="/media/202408//1724856291.941622.jpeg" /><table><tr><td></td></tr></table>(8)步骤3：检查终止条件。EGFA-NAS有两种终止条件，一 种是最大期，另一种是尘埃种群质量值的平均变化条件。 一旦满足了一个条件，EGFA-NAS的主回路就结束了。然后 返回最优网络结构A，推导神经网络结构，进入步骤4。步骤4：执行调节和旋转操作。周围的尘埃颗粒向中心 的尘埃移动。对于每一个尘粒尘，运动速度由等式计算 (9).<img src="/media/202408//1724856292.0840042.jpeg" /><table><tr><td></td></tr></table>(9)中心。A展示了中心尘埃的细胞结构；灰尘。A表示第i个 细胞的结构；随机的是一个随机生成的6×-5张量。p是移 动的速度，q是一个接近于零的值。在这个工作中，我们 设置了p = 0。1, q = 0. 分别为001。我们将尘埃位 置上的运动和旋转操作的速度表示为编A1。此外，在EGFA -NAS中，我们还应用梯度下降来优化参数：A和w。我们将 尘埃位置上的梯度下降速度表示为编A2，这是由等式计算 出来的( 10).编A2 = - ξ 2▽dusti.AL V (dusti .w, dusti .A),(10)where ξ2 isthelearningrate,▽dusti. AL V表示验证数 据集上的架构梯度。如图所示。8、考虑到上述两个因素对细胞结构A的影 响，将尘的位置更新为等式( 11)dusti .一个=斯坦。A + 编A1+ 编A2 .(11)在此过程中，对于每一个尘粒尘，我们不仅需要优化 参数尘。A，但也需要以优化参数的灰尘。w，它是由等式更新的( 12).dusti .w = dusti .w - ξ 1▽dusti.wL T(dusti .w,dus ti.A), (12)其中 ξ 1是学习率， ▽susti吗.wL T表示训练数据集上的 架构梯度。步骤5：进行吸收操作。周围一些质量值较小的尘埃颗 粒会被其中心尘埃吸收。在这个过程中，粉尘的大小会发 生变化，新的大小由吸收率abs决定( 13).n = n * (1 - abs), (13)步骤6：执行爆炸操作。在步骤5的过程中，一些质量 值较小的尘埃颗粒被其中心的尘埃颗粒吸收。为了保持尘 埃数量的大小，在这个过程中，会在中心尘埃颗粒周围产 生一些新的尘埃颗粒。这部分在“爆炸操作和权重继承 ” 中详细描述。在步骤6完成后，转到步骤3。根据以上对埃及人的详细描述，算法1显示了EGFA-NAS 的伪代码。步骤1（第1-3行）是初始化。第2步（第4-5行 ) 是分组的操作。步骤3（第6行）检查终止条件。步骤4 （第7-12行）是运动和旋转的过程。步骤5（第13行）是 吸收操作。步骤6（第14行）为爆炸操作。其中，n为初始种群的大小，abs表示吸收率。在这个工作中，我们将abs设为0.5。<img src="/media/202408//1724856292.138888.png" /><img src="/media/202408//1724856292.186264.png" />	Alg <img src="/media/202408//1724856292.232102.png" /><img src="/media/202408//1724856292.4064598.png" /><img src="/media/202408//1724856292.445497.png" /><img src="/media/202408//1724856292.574378.png" /><s>	ut put </s><img src="/media/202408//1724856292.664445.png" /><img src="/media/202408//1724856292.700594.png" /><img src="/media/202408//1724856292.948907.png" /><img src="/media/202408//1724856292.986197.png" /><img src="/media/202408//1724856293.0565429.png" /><img src="/media/202408//1724856293.176299.png" /><img src="/media/202408//1724856293.261642.png" /><img src="/media/202408//1724856293.3310652.png" /><img src="/media/202408//1724856293.524363.png" /><img src="/media/202408//1724856293.5618649.png" />fgr<img src="/media/202408//1724856293.5886762.png" />gae hindi i adal<img src="/media/202408//1724856293.6954398.png" /><img src="/media/202408//1724856293.76334.png" />by Eq.(9)-(11) by<img src="/media/202408//1724856293.824841.png" /><img src="/media/202408//1724856293.83076.png" /><img src="/media/202408//1724856293.895778.png" /><img src="/media/202408//1724856293.951117.png" /><img src="/media/202408//1724856293.997649.png" /><img src="/media/202408//1724856294.080918.png" /><img src="/media/202408//1724856294.182485.png" /><img src="/media/202408//1724856294.280961.png" /><img src="/media/202408//1724856294.3034828.png" /><img src="/media/202408//1724856294.3334599.png" /><img src="/media/202408//1724856294.354033.png" /><img src="/media/202408//1724856294.392899.png" /><table><tr><td></td></tr></table>图8 Changeoftheithcellstructure A在运动和旋转操作过程中实验设计EGFA-NAS的目标是在一个复杂的任务中搜索最优的神经 networkarchitectureautomaticallywhichcanachiev esatisfying性能，如图像分类。为此，我们设计了一 系列的实验来证明所提出的EGFA-NAS与最先进的NAS方法 相比的优势。首先，我们利用所提出的EGFA-NAS在基准搜 索空间中搜索神经网络架构：NAS-EGFA 20ch，并通过研 究CIFAR10、CIFAR100和ImageNet16120上搜索架构的分类 精度和计算成本来评估所提出的EGFA-NAS的性能。其次， 我们从准确性和损失两方面研究了相对评价与绝对评价的 一致性。第三，我们研究了权重继承策略的有效性。最后 , 我们在更大、更实用的搜索空间：飞镖搜索空间中研究 了所提出的EGFA-NAS，并研究了EGFA-NAS的性能和普遍性。我们首先在基准测试搜索空间中执行建议的EGFA-NAS ： NAS-Bench-201。当搜索过程结束时，最优体系结构的 绝对性能评估可以通过NASBench-201的API直接获得，而 计算成本可以忽略不计。利用NAS-Bench-201，验证了搜 索网络架构的相对性能评价和绝对性能评价的一致性。此 外，我们还验证了在NAS-Bench-201搜索空间中进行权重 继承的有效性。但当飞镖搜索空间中的搜索过程终止时， 最优的网络体系结构需要从头开始进行再训练，并在测试 数据集上进行测试。测试分类精度报告作为我们的实验结 果。 在本节的其余部分中，我们将介绍同行竞争对手，以与此提议的EGFA-NAS进行比较基准数据集，最后是两个典型搜索空间的参数设置： NAS-Bench-201和飞镖搜索空间。同行竞争对手为了证明所提出的EGFA-NAS的优势，我们选择了一系列的 竞争对手进行比较。“NAS-Bench-201的竞争对手 ”介绍 了EGFA-NAS在NAS-板凳-201搜索空间中搜索的最优架构的 性能比较，“DARTS搜索空间的竞争对手 ”与EGFA-NAS在 飞镖搜索空间中搜索的最优架构的性能比较。NAS-Bench-201的竞争对手DuetothefactsthatNAS-Bench-201（onlyhasfivecandida te操作）搜索空间，分类精度低于其他搜索空间搜索的最 佳空间，EGFA在NAS-Bench-201中搜索的最优架构的性能 仅与在NAS-Bench-201搜索空间中报告结果的竞争对手相 比。所选的竞争对手主要是高效的gdbasednas方法，包括 DARTS-V1[19]、飞镖-V2[19]、SETN [50]、iDARTS [51] 和GDAS [20]。另外三个被选择的NAS竞争对手，即ENAS [18]、RSPS [22]和EvNAS [52]，分别利用RL、随机搜索 和EA作为NAS任务的搜索策略。飞镖搜索空间的竞争对手飞镖搜索空间是用于NAS任务的功能搜索空间，其中最优网络结构采用promisingperformancecomparedwiththestate-of-the-artmanually设计的CNN结构。为了比较EGFA-NAS搜索的最 优网络架构在飞镖搜索空间中的性能，我们选择了四种不 同的竞争对手进行比较。1.第一种竞争对手是最先进的CNN架构， 由领域专家手动 设计，包括ResNet101 [10]、DenseNet-BC [11]、SENet [53]、IGCV3 [54]、洗牌网[55]、VGG [1]和 Wide ResNet [56]。2.The second kind of competitors are the state-of -theart EA-based NAS methods, includingHierarchical EA [15],AmoebaNet-A[16],LEMONADE[24],CGP-CNN [25], CNN-GA [26], AE-CNN [32], and AE-CNN +E2EPP[33],LargeEvo[27],GeNet[31],SI-EvoNet[57], NSGA-Net [28], and MOEA-PS [58].3 . 第三种竞争对手利用RL来搜索CNN架构，如NASNet-A [17]、NASNetA + CutOut [17]、无代理NAS [34]、 BlockQNN [35]、DPP-Net [59]、MetaQNN [60]和 ENAS [18]。4.第四类竞争对手主要是基于GD的NAS方法，如飞镖-V1+Cut[19]、飞镖-V2+Cut[19]、RC-飞镖[38]和SNAS[21]。此外，还选择了PNAS [40]进行比较，并采用 了基于序列模型的优化（SMBO）策略。基准数据集为了研究EGFA-NAS在NAS任务上的性能，我们在两个不同 的搜索空间中测试了EGFA-NAS，包括NAS-Bench-201和飞 镖搜索空间。所有实验都涉及三个基准数据集： CIFAR10 、CIFAR100 [47]和ImageNet16120 [48]，这些数据集被 广泛应用于最先进的cnn和NAS方法的实验研究中。在这项 工作中，每个架构在NAS-Bench-201中进行训练和评估CIFAR10，CIFAR100 [47]，和ImageNet16120 [48]。在飞 镖搜索空间中搜索的每个体系结构都在CIFAR10，CIFAR100上进行训练和评估。每个数据集可分为三个ub集 ：训练集、验证集和测试集。CIFAR10：它是一个由60K幅带有类的图像组成的图像分类 数据集。原始集包含50K的训练图像和10K的测试图像。 由 于需要一个验证集，原始训练集被随机分成两个具有相同 大小的子集，每个子集包含包含10个类的25K幅图像。在 本工作中，我们将一个子集作为新的训练集，将另一个子 集作为验证集。CIFAR100：它具有与CIFAR10图像相同的图像，但它将图 像分为100个细粒度类。CIFAR100原始图像在训练集中包 含50K图像，在测试集中包含10K图像。在本工作中，原始 训练集被随机分成两个大小相同的子集。一个被认为是训 练集，另一个被认为是新的验证集。用于图像分类的ImageNet16120：ImageNetisalarge-scaleandwell-known数据集。图像16120是由16×16像素 从ImageNet [61]的降采样变体(i。e., ImageNet 16 × 16).ImageNet16120包含所有带有∈ [0,119]标签的图像。 总之，ImageNet16120由151.7K用于训练的图像、3K用于 验证的图像和120个类的测试的3K图像组成。参数设置本节将详细介绍了EGFA-NAS的参数设置。表1搜索过程的超参数设置<table><tr><td>参数</td><td>价值</td></tr><tr><td>初始通道</td><td>16</td></tr><tr><td>B</td><td>5</td></tr><tr><td>优化器</td><td>SGD</td></tr><tr><td>涅斯捷罗夫</td><td>1</td></tr><tr><td>动量</td><td>0.9</td></tr><tr><td>批量大小</td><td>256</td></tr><tr><td>LR调度程序</td><td>余弦</td></tr><tr><td>初始LR</td><td>2.5 × 10-2</td></tr><tr><td>min_LR</td><td>1 × 10-3</td></tr><tr><td>权重衰减</td><td>5 × 10-4</td></tr><tr><td>随机翻转</td><td>0.5</td></tr></table>NAS-台架-201的参数设置对于NAS-Bench-201搜索空间，参数设置只涉及搜索过程 , 因为NAS-Bench201为每个架构提供了绝对（最终）性能 评估，我们可以直接从头开始获得最优架构的评估，而无 需从头开始进行再训练。我们采用相同的骨架网络。3.具体来说，我们将第一个卷积层的初始通道数设置为16； 将一个正常块B中的细胞数设置为5。在搜索过程中，几乎 参数设置遵循[23]，如表1所示。具体来说，我们通过Nesterov动量SGD来训练每个体系结构，使用交叉熵损失 作为批大小为256的损失函数。我们设置了体重10×- 4 并将学习速率从2衰减。5 ×10-2至1×10-3使用余弦退 火调度器。在NAS-Bench-201搜索空间中，我们在三个不同的数据 集上设置了相同的超参数： CIFAR10、CIFAR100 [47]和 ImageNet16120 [48]，除了由于图像分辨率略有差异而导 致的数据增强部分。对于CIFAR10和CIFAR100，我们使用 概率为0.5的随机翻转，4像素填充的随机裁剪32×32补丁 , 以及RGB通道上的归一化。对于ImageNet16120，我们使 用相同的策略，除了随机裁剪16×16个2像素填充的补丁。表1中列出的参数与神经网络体系结构有关。作为一种 基于种群的方法，埃及人有自己的参数。具体来说，我们 将组数g设置为2，将吸收操作的吸收率abs设置为0.5，设 置最大半径rmax为0。1，并设置最小半径rmin对于爆炸操 作的取值为0.001。作为一种基于种群的NAS方法，更多的时代可能会带来 更好的性能，但计算成本也会增加。我们调查的影响表2所搜索的最佳架构的相对 和绝对性能（准确性）CIFAR10上的EGFA-NAS 不同时期的数量表3搜索到的最佳架构的相对 和绝对性能（准确性）CIFAR10上的EGFA-NAS 不同种群大小<table><tr><td>数据集</td><td>的数量 时代</td><td>相对的 表演</td><td>绝对的 表演</td><td>搜索成本(GPU天 数）</td></tr><tr><td rowspan="5">西法尔10</td><td>40</td><td>38.12</td><td>91.71</td><td>0.025</td></tr><tr><td>60</td><td>43.91</td><td>92.16</td><td>0.037</td></tr><tr><td>80</td><td>48.27</td><td>93.67</td><td>0.048</td></tr><tr><td>100</td><td>53.05</td><td>93.67</td><td>0.062</td></tr><tr><td>120</td><td>57.58</td><td>93.67</td><td>0.076</td></tr></table><table><tr><td>数据集</td><td>人口规模</td><td>相对的 表演</td><td>绝对的 表演</td><td>搜索成本(GPU天 数）</td></tr><tr><td rowspan="5">西法尔10</td><td>10</td><td>50.08</td><td>93.28</td><td>0.0481</td></tr><tr><td>15</td><td>49.00</td><td>93.36</td><td>0.0482</td></tr><tr><td>20</td><td>51.02</td><td>93.67</td><td>0.0482</td></tr><tr><td>25</td><td>48.83</td><td>93.67</td><td>0.0481</td></tr><tr><td>30</td><td>49.61</td><td>93.67</td><td>0.0482</td></tr></table>请注意，所有的实验设置都受到我们可用的计算资源的限制。所有的实验都是通过PyTorch 1.7在一个NVIDIA GeForce RTX 3090 GPU卡上实现的。计算成本以“GPU日 ”来计算，计算方法是将GPU卡的数量乘 以之后的搜索时间[ 19,20,62]。在CIFAR10数据集上的性能和计算成本上的最大周期数。EGFA-NAS在CIFAR10上搜索的最佳架构的相对和绝对性能 （精度）如表2所示。在不进行再训练的情况下，在搜索 阶段的最后一个阶段评估了搜索架构的相对性能。NAS-Bench-201提供的API查询搜索体系结构的绝对性能。从表 2的结果可以看出，当epoch数设置为80时，最佳性能（CI FAR10的准确率为93.67%）。当周期数增加到100时，绝对 性能没有提高，但计算成本更大。因此，我们在NASBench-201的实验中将时代数设为80。一般来说，种群规模是影响基于种群的方法的性能和 效率的关键因素，更大的种群规模通常会导致更好的性能 , 但也会导致搜索成本的增加。但是，在埃及语中，我们 提出了一种训练策略，它利用所有的灰尘个体来完成每个 时代的数据训练。该训练策略降低了绩效对种群规模的敏 感性，这可以通过表3中的结果来验证。具体来说，EGFA- NAS不仅具有相似的性能，而且对不同的种群规模具有相 似的搜索成本（GPU日）。此外，EGFA-NAS搜索的架构在 种群规模为n≥20时获得了最佳的绝对性能。鉴于上述情 况观察，我们在本工作中将种群大小n设置为20。总之，EGFA-NAS的绝对性能（准确性）和搜索成本（GPU日）与 最大时代数密切相关，但与种群大小关系不大。飞镖搜索空间的参数设置在飞镖搜索中搜索cnn的神经细胞在[7,17]后的CIFAR10/100上的空格。“宏skeletonofDARTSsearchspaceisshownasFig. ”4 . Thepa rametersettingforDARTSsearchspacecanbedividedintotwoparts :(1)搜索阶段和(2)评价阶段。在搜索阶段，我们将第一个卷积层的初始通道数设置 为16，正常块B的单元数设为2，周期数为200。对于训练 参数w，我们通过Nesterov动量SGD对每个架构进行优化， 批处理大小为256，设置初始学习率为2。5 × 10-2，并 退火至1×10-3使用余弦退火调度器。我们设置动量为 0.9，衰减权重为5×10-4.为了优化参数A，我们使用具 有默认设置的Adam优化器。在评估阶段，我们对搜索到的网络总共训练了600个时 代。我们将初始通道设置为33，将正常块B的细胞数设置 为6或8。我们开始的学习率为2。5 × 10-2然后用余弦 调度器将其缩减为0。我们将路径下降的概率设为0，并将 辅助塔的权重设为0.4。.2 其他的表4飞镖搜索空间的超参数设置<table><tr><td>参数</td><td>搜索</td><td>评价</td></tr><tr><td>埃普克斯</td><td>200</td><td>600</td></tr><tr><td>初始通道</td><td>16</td><td>33</td></tr><tr><td>B</td><td>2</td><td>6/8</td></tr><tr><td>优化器</td><td>SGD/亚当</td><td>SGD</td></tr><tr><td>批量大小</td><td>256</td><td>256</td></tr><tr><td>涅斯捷罗夫</td><td>1</td><td>1</td></tr><tr><td>动量</td><td>0.9</td><td>0.9</td></tr><tr><td>调度程序</td><td>余弦</td><td>余弦</td></tr><tr><td>初始LR</td><td>2.5 × 10-2</td><td>2.5 × 10-2</td></tr><tr><td>Min_LR</td><td>1 × 10-3</td><td>0</td></tr><tr><td>衰减重量</td><td>5 × 10-4</td><td>5 × 10-4</td></tr></table>参数设置设置与搜索阶段相同（表4）。与NAS-Bench-201（ e = 6， |O| = 5）相比，飞镖搜索 空间（ e = 14， |O| = 8）是一个更大的搜索空间。然后 , 我们将时代的数量设置为200个来探索飞镖搜索空间。 关于埃及的其他参数，如种群大小n、组数g、吸收率abs 、最大半径r最大和最大半径rmin，设置为“参数设置 ” 相同NAS-Bench-201 ”。实验结果在NAS-Bench-201搜索空间中的总体结果EGFA-NAS和其他竞争对手在NAS-Bench-201中发现的最优 网络在分类精度和计算成本（GPU天）方面的实验结果如 表5所示。符号“- ”表示没有报告相应的结果。iDARTS[51]和EvNAS [52]的研究结果来源于原始发表的论文，其 他竞争对手的研究结果来源于[23]。粗体突出显示的结果 是最优最佳架构的结果和EGFA-NAS搜索的架构的结果。从表5的结果中，我们可以观察到，埃及人可以比同行 竞争对手取得更好的性能：飞镖-V1[19]，飞镖-V 2[19] , SETN[50]，iDARTS[51]，GDAS[20]，ENAS[18]，RSPS[22]，和EvNAS [52]。具体来说，在NAS-Bench-201 搜索空间中，EGFA-NAS发现了一个只有1.29M参数的网络 架构，它消耗了0.048个GPU天andachieves93.67%accuracyonCIFAR10。对于cifar100数 据集，EGFA-NAS达到71.29%的精度.231M参数，并消耗0.094 GPU天。对于ImageNet16120，EGFA-NAS搜索的体系结构具有1.32M参数和0.236 GPU天成 本，获得了42.33%的准确率。受搜索空间较小的限制：NASBench-201，搜索的网络架构的性能无法与最先进的设 计的CNN网络相比。但通过EGFA-NAS搜索的网络体系结构 的性能差异最小(0.7%worseonCIFAR10,2.22%worseonCIFAR100，和4。与 其他竞争对手相比，ImageNet16-101搜索空间的性能比 ImageNet16-120差95%。此外，与所提出的EGFA-NAS相比 , 所有选定的同行竞争对手具有最好的效率。请注意，表5中列出的竞争对手的搜索成本（GPU天数 ) 是从[23]中提取出来的。但是引用[23]并不指示结果属 于哪个数据集。通过在CIFAR10数据集上运行[23]提供的 代码，得到CIFAR10数据集的参数数。EGFANAS的搜索成本 （GPU天）分别是三个数据集在计算平台上计算的计算消 耗一个NVIDIA GeForce RTX 3090 GPU卡。相对绩效评价的有效性由于NAS-Bench-201 [23]为每个候选架构提供的评估信息 , 在本节中，我们利用NAS-Bench-201提供的API获得绝对 （最终）性能评估（损失和准确性）搜索架构没有再培训 , 并验证EGFA-NAS采用的评估策略的有效性。图9显示了 相对性能评价与绝对性能评价在损失方面的比较。9a)和 准确性。9b)onCIFAR10.在图中。9“代表 ”代表相对表现 , 而“腹肌 ”代表绝对表现。在架构搜索阶段，在当前时 期的验证数据集上获得了搜索架构的相对性能。从图中的 结果来看。9，我们可以观察到，搜索架构的相对性能不 能与其绝对性能相比，这是因为在搜索阶段搜索的架构没 有得到充分的训练。图9说明了相对性能的变化趋势与搜 索到的架构的绝对性能是一致的。此外，我们可以观察到 , EGFA-NAS仅在前几个时代不够稳定，当时代数大于30时 , 可以实现性能稳定的体系结构。以上观察结果验证了所 采用的评价策略的有效性由EGFA-NAS。表5比较在CIFAR10、CIFAR100和ImageNet16120数据集上的分类 精度（%）和计算成本（GPU天）的EGFA-NAS<table><tr><td>方法</td><td>搜索 策略</td><td>GPU 天</td><td>参数(M)</td><td>西法尔10</td><td>西法尔100</td><td>ImageNet16120</td></tr><tr><td>飞镖v1[ 19]</td><td>gd</td><td>0.13</td><td>0.07a</td><td>54.30</td><td>15.61</td><td>16.32</td></tr><tr><td>飞镖v2[ 19]</td><td>gd</td><td>0.41</td><td>0.07a</td><td>54.30</td><td>15.61</td><td>16.32</td></tr><tr><td>iDARTS[51]</td><td>gd</td><td>–</td><td>–</td><td>93.58</td><td>70.83</td><td>40.89</td></tr><tr><td>SETN [50]</td><td>gd</td><td>0.35</td><td>0.41a</td><td>86.19</td><td>56.87</td><td>31.90</td></tr><tr><td>GDAS [20]</td><td>gd</td><td>0.33</td><td>1.2a</td><td>93.51</td><td>70.61</td><td>41.71</td></tr><tr><td>ENAS [18]</td><td>rl</td><td>0.15</td><td>0.07a</td><td>54.30</td><td>15.61</td><td>16.32</td></tr><tr><td>RSPS [22]</td><td>随机的</td><td>0.10</td><td>0.43a</td><td>87.66</td><td>58.33</td><td>31.44</td></tr><tr><td>EvNAS [52]</td><td>ea</td><td>0.26</td><td>–</td><td>92.18</td><td>66.74</td><td>39.00</td></tr><tr><td>最佳EGFA-</td><td>–</td><td>–</td><td>–</td><td>94.37</td><td>73.51</td><td>47.31</td></tr><tr><td>NAS</td><td>埃格法</td><td>0.048</td><td>1.29</td><td>93.67</td><td>–</td><td>–</td></tr><tr><td>egfanas</td><td>埃格法</td><td>0.094</td><td>1.23</td><td>–</td><td>71.29</td><td>–</td></tr><tr><td>egfanas</td><td>埃格法</td><td>0.246</td><td>1.32</td><td>–</td><td>–</td><td>42.33</td></tr></table>a通过运行由[23]公开发布的代码来计算的<img src="/media/202408//1724856294.454648.jpeg" /><table><tr><td></td></tr></table>图9对EGFA-NAS搜索的体系结构的相对评价和绝对评价的比较权重继承策略的有效性ToimprovetheefficiencyofEGFA-NASandreducethecomputational成本，我们提出了一个在 爆炸操作中的权重继承策略，如“爆炸操作和权重继承 ” 所述。具体来说，新产生的尘埃个体的参数w是继承自它 们的中心产生的。在本节中，我们试图通过在CIFAR10上 随机生成参数w来替换该策略来验证权重继承策略的有效 性，并且其他设置保持不变。为了更清楚地观察我们提出 的策略与随机生成参数w的方法之间的差异，我们在本实 验中将周期数设为300。这个使用权值继承和随机生成参数w的方法对搜索的网络体系 结构的估计（相对）性能如图所示。10a和c，分别在准确 性和损失方面。通过这两种策略搜索的网络体系结构的最 终（绝对）性能如图所示。10b和d，分别在准确性和损失 方面。结果如图所示。10显示了两种策略的估计（相对） 性能之间有很大的差异。尽管这两种策略在CIFAR10上搜 索的体系结构的最终（绝对）性能相似，但使用所提出的 权重继承的EGFA-NAS可以比使用随机生成参数w的方法更 早地获得最佳的网络体系结构。此外，通过继承权重搜索 的体系结构的最终性能稍好一些（准确率为93.67%）<img src="/media/202408//1724856294.463664.jpeg" />复杂智能系统<table><tr><td></td><td></td><td></td></tr></table>图10采用权值继承策略和随机生成参数w比较EGFA-NAS的性能 西法尔10而不是采用随机生成参数w的方法（准确率为96.36%）。在飞镖搜索空间中的总体结果EGFA-NAS在飞镖搜索空间中发现的最优网络在分类精度和 计算成本（GPU天）方面的实验结果如表6所示。符号“- ”表示没有报告相应的结果。符号“* ”表示从[ 19]中提 取的结果。模式“a/b ”在表5.4表示“a ”是CIFAR10和“b ”的结果是CIFAR100的结果。大多数竞争对手的研究结果都是从原 始发表的论文中提取出来的。B = 6或8表示再训练阶段正 常阻滞中正常细胞的数量。以粗体突出显示的结果是由EGFA-NAS搜索的架构的结果。表6的结果显示，EGFA-NAS（B = 8） 比大多数最先进 的手工设计的CNN网络具有更好的性能，包括ResNet101、 ResNet + CutOut、SENet、IGCV3、洗牌Net、VGG和WideResNet, butalittleworsethanDenseNet-BC(1.05%on CIFAR100).与VGG相比，通过EGFA-NAS（B = 8 ) 搜索的最优网络架构对CIFAR100的性能提高了13.9%， 对CIFAR10的性能提高了3.89%。与12种基于EA的NAS方法相比，EGFANAS（B = 8）的性 能优于分层EA、A、A、CGP-CNN、CNN-GA、AE-CNN、AECNN+E2ENPP、AECNN EVo、SI-EvoNet和MOEAPS，但略低 于柠檬水(0。19%)和NSGA-Net（0.02%） 的CIFAR10。EGFA-NAS（B = 8）在CIFAR100上达到了最好的分类准确 率（81.85%），并且比所有基于e1的NAS方法消耗了最小 的搜索成本（0.21 GPU天）。与6种基于rl的NAS方法相比，埃及人（B = 8）的性能 比NASNet-A、NASNet-A +切割、BlockQNN、DPP-Net、MetaQNN和ENAS更好，但在CIFAR10上略差于无代理NAS（0. 86%）。通过EGFA-NAS（B = 8）搜索的最优网络体系结构 的性能提高为4。CIFAR10为15%，CIFAR100为8.99%，表6比较EGFA-NAS在CIFAR10和CIFAR100 上的分类精度（%）和计算成本 （GPU天）<table><tr><td>方法</td><td>搜索 策略</td><td>GPU天数</td><td>参数 (M)</td><td>西法尔10</td><td>西法尔100</td></tr><tr><td>ResNet101 [10]</td><td>手册</td><td>–</td><td>1.7</td><td>93.57</td><td>74.84</td></tr><tr><td>ResNet +切断[10]</td><td>手册</td><td>–</td><td>1.7</td><td>95.39</td><td>77.90</td></tr><tr><td>DenseNet-BC [11]</td><td>手册</td><td>–</td><td>25.6</td><td>96.54</td><td>82.82</td></tr><tr><td>SENet [53]</td><td>手册</td><td>–</td><td>11.2</td><td>95.95</td><td>–</td></tr><tr><td>IGCV3 [54]</td><td>手册</td><td>–</td><td>2.2</td><td>94.96</td><td>77.95</td></tr><tr><td>ShuffleNet [55]</td><td>手册</td><td>–</td><td>1.06</td><td>90.87</td><td>77.14</td></tr><tr><td>VGG [1]</td><td>手册</td><td>–</td><td>28.05</td><td>93.34</td><td>67.95</td></tr><tr><td>宽ResNet [56]</td><td>手册</td><td>–</td><td>36.48</td><td>95.83</td><td>79.50</td></tr><tr><td>层次结构EA [15]</td><td>ea</td><td>300</td><td>61.3</td><td>96.37</td><td>–</td></tr><tr><td>AmoebaNet-A [16]</td><td>ea</td><td>3150</td><td>3.2</td><td>96.66</td><td>81.07</td></tr><tr><td>柠檬水[24]</td><td>ea</td><td>90</td><td>13.1</td><td>97.42</td><td>–</td></tr><tr><td>CGP-CNN [25]</td><td>ea</td><td>27</td><td>1.7</td><td>94.02</td><td>–</td></tr><tr><td>cnnga[26]</td><td>ea</td><td>35/40</td><td>2.9/4.1</td><td>96.78</td><td>79.47</td></tr><tr><td>[32]-cnn</td><td>ea</td><td>27/36</td><td>2.0/5.4</td><td>95.3</td><td>77.6</td></tr><tr><td>AE-CNN + E2EPP [33]</td><td>ea</td><td>7/10</td><td>4.3/20.9</td><td>94.7</td><td>77.98</td></tr><tr><td>LargeEvo [27]</td><td>ea</td><td>2750/2750</td><td>5.4/40.4</td><td>94.6</td><td>77.00</td></tr><tr><td>GeNet [31]</td><td>ea</td><td>–</td><td>–</td><td>94.61</td><td>74.88</td></tr><tr><td>SI-EvoNet [57]</td><td>ea</td><td>0.46/0.81</td><td>0.51/0.99</td><td>96.02</td><td>79.16</td></tr><tr><td>NSGA-Net [28]</td><td>ea</td><td>4/8</td><td>3.3/3.3</td><td>97.25</td><td>79.26</td></tr><tr><td>MOEA-PS [58]</td><td>ea</td><td>2.6/5.2</td><td>3.0/5.8</td><td>97.23</td><td>81.03</td></tr><tr><td>NASNet-A [17]</td><td>rl</td><td>2000</td><td>3.3</td><td>96.59</td><td>–</td></tr><tr><td>NASNet-+裁断[17]</td><td>rl</td><td>2000</td><td>3.1</td><td>97.17</td><td>–</td></tr><tr><td>无氧NAS [34]</td><td>rl</td><td>1500</td><td>5.7</td><td>97.92</td><td>–</td></tr><tr><td>BlockQNN [35]</td><td>rl</td><td>96</td><td>39.8</td><td>96.46</td><td>–</td></tr><tr><td>DPP网[59]</td><td>rl</td><td>8</td><td>0.45</td><td>94.16</td><td></td></tr><tr><td>MetaQNN [60]</td><td>rl</td><td>90</td><td>11.2</td><td>93.08</td><td>72.86</td></tr><tr><td>ENAS [18]</td><td>rl</td><td>0.5</td><td>4.6</td><td>97.06</td><td>–</td></tr><tr><td>ENAS [18]*</td><td>rl</td><td>4</td><td>4.2</td><td>97.09</td><td>–</td></tr><tr><td>飞镖-V1+切断[19]</td><td>gd</td><td>1.5</td><td>3.3</td><td>97.00</td><td></td></tr><tr><td>飞镖-V2+切断[19]</td><td>gd</td><td>4</td><td>3.4</td><td>97.18</td><td>82.46</td></tr><tr><td>直流飞镖[38]</td><td>gd</td><td>1</td><td>0.43</td><td>95.83</td><td></td></tr><tr><td>SNAS [21]</td><td>gd</td><td>1.5</td><td>2.8</td><td>97.15</td><td>–</td></tr><tr><td>PNAS [40]</td><td>少数民族 事物办公 室</td><td>225</td><td>3.2</td><td>96.37</td><td>80.47</td></tr><tr><td>EGFA-NAS（B = 6）</td><td>埃格法</td><td>0.21/0.4</td><td>2.56/2.15</td><td>96.57</td><td>80.08</td></tr><tr><td>EGFA-NAS（B = 8）</td><td>埃格法</td><td>0.21/0.4</td><td>3.47/2.88</td><td>97.23</td><td>81.85</td></tr></table>*从参考文献[19]中提取与MetaQNN相比。与ENAS相比，所提出的EGFA-NAS（B = 8 ) 具有最好的效率，甚至消耗最少的GPU天，在已发表的 论文中，CIFAR10只消耗0.5个GPU天。与四种基于gd的NAS方法和PNAS相比，EGFA-NAS（B =8）的性能优于飞镖-V1+削减 ，rc-飞镖 ，和SNAS ，但略差于飞镖- V2+削减（ 0.61%） 在CIFAR100 。 虽然基于gd的NAS方 法通常比基于ea和基于rl的方法有更好的效率，但我们的 支持与所有选择的基于gd的NAS方法相比，提出的EGFA-NAS（B = 8）具有最好的效率。此外，在再训练阶段，当在正常块中设置更多的细胞 时，EGFA-NAS可以获得更好的最终学习精度，但会导致更 多的参数。表6中的总体结果表明，该EGFA-NAS不仅具有 竞争性的学习精度，而且具有最好的效率四种竞争对手。结论本文提出了一种基于EGFA的有效的基于种群的NAS方法，称为EGFA-NAS，该方法可以实现具有竞争性学习精度的最 优神经结构，但计算成本较小。具体来说，EGFA-NAS将 离散的搜索空间松弛为一个连续的搜索空间，然后同时利用EGFA和梯度descenttooptimizetheweightsofthecandidatearchi tectures 。所提出的EGFA-NAS的训练和权重继承策略大 大降低了计算成本。在NAS-Bench-201和飞镖两个典型微 搜索空间的实验结果表明，EGFA-NAS在图像分类任务上能 够匹配或优于现有的NAS方法，具有显著的效率提高。具 体来说，对于searchtheCIFAR10onthecomputationalplatformwithone NVIDIA GeForce RTX 3090 GPU卡，EGFA-NAS在NAS-Bench -201搜索空间中获得最优神经结构，准确率为93.67%，但 只消耗0.048 GPU天，在飞镖搜索空间中发现最优神经结 构，准确率为97.23%，成本为0.21 GPU天。虽然EGFA-NAS在自动设计高性能的神经网络方面很有 前景，但它仍有一个局限性。与其他使用低保真度评估策 略的NAS方法类似，EGFA-NAS在搜索阶段采用的相对评估 可能会导致缺少一些有前途的体系结构。在未来的工作中 , 我们将尝试为轻量级NAS设计一个更好的、具有更好的排名一致性的评估策略。这项工作得到了国家自然基金会的支持国家科学基金项目。62072212)，中国吉林省土地开发项目(编号为 。20220508125RC ，20230201065GX) ，吉林省大数据智能认 知重点实验室(no 。20210504003GH).数据可用性数据将根据要求提供。 声明利益冲突，通讯作者代表所有作者声明，不存在利益冲突。开放获取本文授权在知识共享署名4.0国际许可，允许使用、共享、 适应、分布和复制在任何媒介或格式，只要你给适当的信贷原作者 (s)和来源，提供一个链接到知识共享许可，并表明如果有变化。本 文中的图片或其他第三方材料都包含在文章的知识共享许可中，除 非在材料的信用额度中另有说明。如果材料不包括在文章的知识共 享许可中，并且您的预期使用不被法律法规允许或超过许可，youwillneedtoobtainpermissiondirectlyfromthecopyright 持有人。要查看此许可证的副本，请访问http://创意载体网站。org/licenses/by/4.0/.参考文献1. 齐瑟曼A（2015）用于大规模图像识别的深度卷积网络。arXiv 预印本，arXiv： 1409.15562.Huang G，Sun Y，Liu Z等人（2016）具有随机深度的深度网络 。在： Leibe B，Matas J，Sebe N，焊接M（eds）计算机视觉-ECCV2016。施普林格国际出版公司，中国商会，第646-661页 3 . （2012）用于图像分类的多柱深度神经网络。见：IEEE计算机视觉国际会议论文集。CVPR，普罗维登斯，第3642-3649页 4.（2017）深度卷积神经网络分类。CommunACM60：84-90。<a href="https://doi.org/10.1145/3065386">https://doi.org/10.1145/3065386</a>5.（2015）。见：IEEE计算机视觉国际会议论文集。ICCV, pp 1440 – 14486.赵Z，郑P，徐S（2019）深度学习的对象检测：综述。IEEE跨神 经Netw学习系统30 ：3212-3232。<a href="https://doi.org/10.1109/TNNLS.2018.2876865">https://doi.org/10.1109/TNNLS.2018.2876865</a>7.Zoph B，Le QV（2017）利用强化学习的神经结构搜索。arXiv 预印本，arXiv ：1611.015788 .P（2019）医学图像分割的深度学习技术：成就和挑战。J数字 成像32 ：582-596 。https://doi.org/10.1007/ s10278-019 -00227-x9 . ῠU（2020）理解图像分割的深度学习技术。ACMComputSurv52 ：1-35。https://doi.org/10.1145/33297841 0 . 贺克，张九，RenS，等（2016）负责图像识别的学习。见：IEEE计算机视觉和模式识别会议论文集。CVPR, pp 770 – 77811.黄G、Liu Z、Van Der Maaten L等人（2017）密集连通卷积网络 。见：IEEE计算机视觉和模式识别会议论文集。pp 4700 –470812.Praczyk T（2016）合作协同进化神经网络。如果30：2843-2858。https://doi.org/10.3233/IFS-16209513.COVNET：一种用于进化人工神经网络的合作协同进化模型。IEEETransNeuralNetw14:575 –596.https:// doi.org/10.1109/TNN.2003.81061814.姚X（1999）正在进化中的人工神经网络。项目IEEE87： 1423- 1447。https://doi.org/10.1109/5.78421915.Liu H，Simonyan K，Vinyals O，等人（2018）高效架构搜索 的层次表示。arXiv预印本，arXiv： 1711.0043616.Real E，Aggarwal A，黄Y，Le QV（2019）图像分类器架构搜 索的正则化演化。AAAI33：4780-4789。<a href="https://doi.org/10.1609/aaai.v33i01.33014780">https://doi.org/10.1609/aaai.v33i01.33014780</a>17.J，Le QV（2018）学习可扩展图像识别的可转移架构。在：诉 讼程序，oftheIEEEconferenceoncomputervisionandpatternrecognitio n.CVPR, pp 8697 –871018.Pham H，Guan M，Zoph B，等人（2018）通过参数共享进行高效 的神经结构搜索。参见：第35届机器学习国际会议论文集。PMLR, pp 4095 – 410419.Liu H，Simonyan K，Yang Y（2019）飞镖：可区分架构搜索。arXiv预印本，arXiv ：1806.0905520.Dong X，Yang Y（2019）在4个gpu小时内寻找一个健壮的神经 结构。见：IEEE计算机视觉国际会议论文集。CVPR, pp 1761 – 177021.谢S，郑H，刘C，Lin L（2020）SNAS：随机神经结构搜索。arXiv预印本，arXiv ：1812.0992622.神经结构搜索的随机搜索和再现性。第35届人工智能不确定性 会议论文集。PMLR, pp 367 –37723.Dong X，Yang Y（2020）NAS-Bench-201：扩展可重复的神经结 构搜索的范围。arXiv预印本，arXiv： 2001.0032624.ElskenT，HutterF（2019）通过拉马克进化的高效多目标神经 结构搜索。arXiv预印本，arXiv：1804.0908125.T（2017）一种设计卷积神经网络结构的遗传编程方法。见：遗 传和进化计算会议论文集。ACM ，柏林，第497-504页26.Sun Y，Xue B，Zhang M等人（2020）使用遗传算法自动设计CNN 架构。IEEETransCybern50:3840 –3854.<a href="https://doi.org/10.1109/TCYB.2020.2983860">https://doi.org/10.1109/TCYB.2020.2983860</a>27.Real E，Moore S，Selle A等人（2017）图像分类器的大规模 演化。见：第34届机器学习国际会议论文集。PMLR, pp 2902 –291128.NSGA-Net：使用多目标遗传算法进行神经结构搜索。见：遗传和 进化计算会议论文集。ACM，布拉格，第419-427页29.胡X，黄L，王Y，庞W（2019）爆炸引力场算法与粉尘采样进行 无约束优化。AppleSoftComput81：105500。<a href="https://doi.org/10.1016/j..2019.asoc">https://doi.org/10.1016/j..2019.asoc</a> 10550030.Gould S，费尔南多B，Cherian A等（2016）关于参数化精精问 题和精精问题在双级优化中的应用。arXiv :1607.0544731.谢L，Yuille A（2017）基因CNN。见：IEEE计算机视觉国际会 议论文集。ICCV, pp 1379 – 138832.孙Y，薛B，Zhang M，Yen GG（2020）完全自动化了基于块的 CNN架构设计。学习系统31：1242-1254。<a href="https://doi.org/10..2019.1109/TNNLS">https://doi.org/10..2019.1109/TNNLS</a> 291960833.孙Y、王H、Xue B等人（2020）使用基于端到端随机森林的性能 预测器的代理辅助进化深度学习。IEEE跨EvolComput24：350-364 。https:// doi.org/10.1109/TEVC1.2019.29244634.韩S（2019）代理神经网络：在目标任务和硬件上的直接神经结 构搜索。arXiv预印本，arXiv： 1812.0033235.钟Z、Yang Z、Deng B等人（2021）BlockQNN：高效的块状神经 网络架构生成。IEEE反式肛门43：2314-2328。<a href="https://doi.org/10.1109/TPAMI.2020.2969193">https://doi.org/10.1109/TPAMI.2020.2969193</a>3 6 . 楚，王克，张伯，等（2021）飞镖-：稳健走出没有指标的性能 崩溃。arXiv预印本，arXiv :2009.0102737.梁H，Zhang S，Sun J，等人（2020）飞镖+：改进的可微分架 构搜索与早期停止。arXiv预印本，arXiv :1909.0603538.Jin X，Wang J，Slocum J，等人（2019）rc-飞镖：资源约束 可微分架构搜索。arXiv预印本，arXiv： 1912.1281439.Ye P，Li B，Li Y，等人（2022） β-DARTS：可微体系结构搜索 的贝塔衰变正则化。在：继续参加ieeeee的计算机视觉和模式 识别会议。CVPR,新奥尔良，洛杉矶，美国，第10864-10873页。<a href="https://doi.org/10.1109/">https://doi.org/10.1109/</a> CVPR52688.2022.0106040.LiuC，ZophB，NoumannM等人（2018）渐进式神经结构搜索。见 ：欧洲计算机视觉会议论文集。ECCV, pp 19 – 344 1 . （2010）重力场研究了该算法在基因簇中的应用。算法Mol Biol 5：32。https:// doi.org/10.1186/1748-7188-5-3242.Zheng M，Sun Y，Liu G等人（2012）改进的重力场算法及其在 层次聚类中的应用。PLoS17：e49039。<a href="https://doi.org/10.1371/journal.pone.0049039">https://doi.org/10.1371/journal.pone.0049039</a>43.郑M，吴J，黄Y等人（2012）通过奇异值分解和引力场算法推断 基因调控网络。PLoS17：e51141。<a href="https://doi.org/10.1371/journal.pone.0051141">https://doi.org/10.1371/journal.pone.0051141</a>44 . 萨夫罗诺夫VS（1972）原行星云的演化和地球和行星的形成。 以色列科学翻译计划，耶路撒冷45.EGFAFS：一种新的基于爆炸万有引力场算法的特征选择算法。熵 24：873。https://doi.org/10.3390/e2407087346.Real E，Moore S，Selle A，等人（2017）图像分类器的大规模 进化。在：机器学习国际会议。PMLR, pp 2902 –291147.KrizheveskA，HintonG（2009）从微小的图像中学习多层特征 。7.48.作为CIFAR数据集替代品的ImageNet的降采样变体。arXiv预印 本，arXiv：1707.0881949.Zhang Z，Sabuncu M（2018）用有噪声标签训练深度神经网络 的广义交叉熵损失。辅助神经输入过程系统。31.50.Dong X，Yang Y（2019）通过自评估模板网络进行一次性神经 结构搜索。见：IEEE计算机视觉国际会议论文集。ICCV, pp 3681 – 369051.张M，Su SW，Shirui P等人（2021）iDARTS：具有随机隐式梯 度的可微分架构搜索。见：第38届机器学习国际会议论文集。 PMLR, pp 12557 – 1256652.（2021）利用一次性模型进化神经结构。见：遗传和进化计算 会议论文集。ACM ，法国里尔出版社，第910-918页53.Jie H，Li S，Gang S（2018）挤压与激励网络。在：ProceedingsoftheIEEEconferenceoncomputervisionandp attern识别。CVPR, pp 7132 – 714154.王J（2018）IGCV3：高效深度神经网络的交叉低秩组卷积。arXiv预印本，arXiv：1806.0017855. shufflenet（2018）：一种非常高效的移动设备卷积神经网络 。见：IEEE计算机视觉和模式识别会议论文集。CVPR, pp6848 – 68565 6 . ZagoruykoS, KomodakisN (2017)WideResidualNetworks.arXiv 预印本，arXiv：1605.0714657.Zhang H，Jin Y，程R，Hao K（2021）高效进化searchofattentionconvolutionalnetworksviasampledtra in ingand节点遗传。IEEE反式Evol输出25 ：371-385。https:// doi.org/10.1109/TEVC2.2020.30402758.薛Y，ChenC，Słowik A（2023）基于概率叠加的多目标进化算法 。IEEE反comput27：778-786。https://doi.org/10.1109/TEVC2.2023.32526159.C，JuanD等（2018）DPP-Net：设备感知渐进搜索帕累托最优神 经结构。见：欧洲计算机视觉会议论文集。ECCV, pp 517 –53160.Raskar R（2017）设计了使用强化学习的神经网络架构。arXiv 预印本，arXiv :1611.0216761.邓J，东W，Socher R，等（2009）ImageNet：一个大规模的分层 图像数据库。见：IEEE计算机视觉国际会议论文集。CVPR ，迈 阿密，第248-255页62.Fan L，Wang H（2022）基于网络嵌入的替代辅助进化神经结构 搜索。复杂的Intell系统。<a href="https://doi.org/10.1007/s40747-022-00929-w">https://doi.org/10.1007/s40747-022-00929-w</a>出版商的笔记施普林格自然保持中立的管辖权主张在出版的地图和 机构附属。