战伤统计分析
02-What Ukraine’s bloody battlefield is teaching medics
05-大规模伤亡事件对医生和护士焦虑、抑郁和创伤后应激障碍的影响——一项系统审查方案。
01-Decision Support System Proposal for Medical Evacuations in Military Operations
01-军事行动中医疗后送的决策支持系统建议_1_23_translate
03-983例平民爆炸和弹道伤亡分析及伤害负担模板的生成——一项观察性研究
04-Characterization of Female US Marine Recruits- Workload, Caloric Expenditure, Fitness, Injury Rates, and Menstrual Cycle Disruption during Bootcamp
03-Analysis of 983 civilian blast and ballistic casualties and the generation of a template of injury burden- An observational study
04-美国海军陆战队女性新兵的特征——训练期间的工作量、热量消耗、体能、受伤率和月经周期中断
08-在救援现场,受害者周围环境的3D模型生成
07--估计冲突损失和报告偏差
06-EGFA-NAS- a neural architecture search method based on explosion gravitation field algorithm
05-Effects of mass casualty incidents on anxiety, depression and PTSD among doctors and nurses- a systematic review protocol.
06-EGFA-NAS——一种基于爆炸引力场算法的神经结构搜索方法
07-Estimating conflict losses and reporting biases
09-新技术应用中的精益方法——院前紧急医疗服务的风险、态势感知和复原力整合
08-Generation of 3D models of victims within their surroundings at rescue sites
10-胸腹枪伤的处理——来自南非一个主要创伤中心的经验
09-Lean approach in the application of new technologies- integration of risk, situational awareness, and resilience by a prehospital emergency medical service
10-Management of thoracoabdominal gunshot wounds – Experience from a major trauma centre in South Africa
02-乌克兰血腥的战场教给医护人员的是什么_1_1_translate
士兵跳伞造成骨科损伤的描述性研究
美国陆军部队类型的肌肉骨骼损伤发生率:一项前瞻性队列研究
军事静线空降作战中受伤的危险因素:系统回顾和荟萃分析
战伤数据库研究进展与启示
从角色2到角色3医疗设施期间战斗人员伤亡管理
美军联合创伤系统应用进展及其对我军战伤救治的启示
2014-2020年俄乌战争混合时期作战伤员膨胀子弹致结肠枪伤
关于“2001-2013年军事行动中的战斗创伤教训”的联合创伤系统更新 英文05 Joint Trauma System
创伤与伤害小组委员会 剧院创伤经验教训 英文 Theater_Trauma_Lessons_Learned
创伤和伤害小组委员会战区创伤经验教训 英文 111813Trauma and Injury Update on Theater Trauma Lessons Learned
向国防卫生委员会提交的关于“2001-2013年军事行动中的战斗创伤教训”的联合创伤系统更新 2016/8/9
战斗伤亡护理研究计划 会议材料 -
-
+
首页
06-EGFA-NAS——一种基于爆炸引力场算法的神经结构搜索方法
<p>复杂智能系统</p><p><img src="/media/202408//1724856290.953221.png" /><a href="https://doi.org/10.1007/s40747-023-01230-0">https://doi.org/10.1007/s40747-023-01230-0</a></p><p><strong>原物</strong></p><p><strong>EGFA-NAS:一种基于爆炸重力场算法的神经结构搜索方法</strong></p><p><strong>胡雪梅1</strong> <strong>·黄兰1、2</strong> <strong>·佳曾</strong><img src="/media/202408//1724856290.980504.png" /><strong>1</strong> <strong>·王康平1</strong> <strong>·王燕1、3</strong></p><p>收到日期:2023年3月3日/接受日期:2023年9月3日 ©作者(s) 2023</p><p><strong>摘要</strong></p><p>神经结构搜索(NAS)是一项极其复杂的优化任务。近年来,基于种群的优化算法,如进化算法, 已被采用作为自动设 计神经网络的搜索策略。各种基于种群的NAS方法在寻找高性能的神经结构方面都很有前景。受行星形成过程启发的爆 炸引力场算法(EGFA)是一种新的基于种群的优化算法,与经典的基于种群的PSO算法相比,具有良好的全局优化能力 和显著的效率。因此,本文试图开发一种更有效的NAS方法,称为EGFA-NAS,利用EGFA的工作机制,将搜索离散空间松 弛为一个连续空间,然后利用EGFA和梯度下降来优化候选架构的权值。为了降低计算成本,提出了一种利用EGFA-NAS 种群机制的训练策略。此外,对爆炸过程中产生的粉尘个体提出了权重继承策略,以提高性能和效率。在两个典型的 微搜索空间:NAS-板凳-201和飞镖中,研究了EGFA-NAS的性能,并与各种最先进的NAS竞争对手进行了比较。实验结果 表明,EGFA-NAS在图像分类任务上能够匹配或优于最先进的NAS方法,具有显著的效率提高。</p><p>关键词神经结构搜索爆炸引力场算法复杂优化任务深度神经网络</p><p>B 黄岚</p><p>huanglan@jlu.edu.cn B 王燕</p><p>wy6868@jlu.edu.cn</p><p>胡雪梅</p><p><img src="/media/202408//1724856291.0357141.png" />huxm18@mails.jlu.edu.cn</p><table><tr><td><p>1</p><p>2</p><p>3</p></td><td><p>贾增</p><p>zengjia22@mails.jlu.edu.cn</p><p>王康平</p><p>wangkp@jlu.edu.cn</p><p>吉林大学计算机科学与技术学院,长春130012</p><p>吉林大学教育部符号计算与知识工程重点实验室,长春 130012</p><p>吉林大学人工智能学院,长春130012</p></td></tr></table><p><strong>介绍</strong></p><p>深度神经网络(DNNs)在各种具有挑战性的任务中取得了 重大进展,包括图像分类[1-4]、 目标检测[5 –7]和分割 [8,9]。神经结构的创新是该研究进展背后的关键因素之 一。例如,VGGNet [1]建议使用更小的卷积滤波器,并堆 叠了一系列的卷积层, 以获得更好的性能。ResNet [10] 引入了残差块,有利于更深层次神经网络的训练。</p><p>DenseNet [11]设计了密集连接的块来堆叠来自不同深度 的特征。一般来说,手动设计一个强大而高效的神经网络 架构需要大量的专家实验和领域知识。直到最近,一系列 的神经结构搜索(NAS)方法被提出,为普通用户和学习 者带来了极大的便利,并使他们能够从深度神经网络的成 功中获益。</p><p>published online:30september2023 1 2 3</p><p>通常,一个NAS任务可以看作是一个复杂的优化问题。</p><p>在机器学习和计算智能方面,基于种群的智能优化算法, 如遗传算法(GA)和粒子群优化(PSO),在1990年末采 用了神经进化算法,以优化神经网络的拓扑结构和超参数 [12-14]。近年来,许多采用基于种群的智能优化算法作 为搜索策略的NAS方法受到了越来越多的关注。虽然遗传 算法等智能优化算法在各种复杂的优化任务上具有良好的 搜索性能,但仍存在较高的计算成本。这个缺点在NAS任 务中尤其如此,因为NAS过程涉及到大量的体系结构评估 。更具体地说,对于NAS任务,每个网络架构评估都涉及 到从头开始对大量数据进行深度神经网络的完成训练。例 如,分层EA [15]消耗300个GPU天,</p><p>和[16]-A[16]消耗3150 GPU天来搜索CIFAR10上的架构。</p><p>此外,强化水泥学习(RL)也被用于自动设计神经结 构,如[7,17,18]。基于rl的NAS方法的一个显著限制是, 尽管其性能显著,但在计算上也很昂贵。例如,典型的基 于rl的方法NASNet-A方法需要2000个GPU天才能在CIFAR10 上获得优化的CNN架构。这些方法需要大量的计算资源,</p><p>这是大多数研究人员和学习者负担不起的。为了降低计算 成本,ENAS [18]提出了一种参数共享策略,该策略通过 使用超集在架构之间共享权重,并被应用于各种梯度下降 (GD)NAS方法,如[19 –21]。与基于ea和rl的NAS方法相 比,基于gd的NAS方法通常更有效,它们采用梯度下降来 优化候选架构的权重。然而,基于gd的NAS方法仍然有一 些局限性,例如</p><p>因为在搜索过程中需要过多的GPU内存,并导致过早收敛 到局部最优[22,23]。</p><p>近年来,一些基于人群的方法,如各种基于ea的方法 [15,16,24-28],已经被用于NAS任务,并取得了一些进展 。受行星形成过程启发的爆炸引力场算法(EGFA) [29]是 一种新型的智能优化算法,与经典的基于种群的优化算法 相比,具有良好的全局优化能力和显著的效率。现在,计 算的时间和资源</p><p>限制仍然是使用和开发NAS方法的主要瓶颈。因此,本文 试图开发一种更有效的NAS方法,利用EGFA的工作机制,</p><p>以发现一个具有竞争性的学习精度的最优神经架构,但只 消耗少量的计算时间和资源。具体来说,所提出的EGFA -NAS结合利用了EGFA和梯度</p><p>descenttooptimizetheweightsofthecandidatearchi tectures 。为了降低计算成本,埃及人提出了一种利用 EGFA-NAS种群机制的训练策略。为了提高效率和性能,</p><p>EGFA-NAS对爆炸作业过程中新产生的新粉尘个体提出了权 重继承策略。本文的主要贡献总结如下。</p><p>1.提出了一种基于人口的NAS方法,称为EGFA-NAS,利用 EGFA和梯度下降共同优化候选架构的权重,并适用于 任何通用微搜索空间与固定数量的边缘和确定候选操 作集,如NAS-Bench-201和飞镖搜索空间。</p><p>2 . 提出了一种利用种群机制来降低计算成本的训练策略 。具体来说,所有的尘埃个体在每个时代合作完成数 据集的训练。虽然每个尘埃个体只在每个时代的部分 批次的训练,</p><p>itwillbetrainedonallbatchesoveralargenumber的 时代。</p><p>3 . Aweightinheritanceisproposedtoimproveperforman ce和效率。具体来说,在爆炸操作过程中,每个新产 生的尘埃个体的重量w都是继承自中心尘埃的。利用 这种策略,新生成的数据可以在当前时期直接进行评 估,而无需再训练。</p><p>4.实验结果表明,与四种最先进的NAS方法相比,EGFA- NAS搜索的最优神经网络结构具有竞争性的学习精度 和最小的计算成本。</p><p>本文的其余部分组织如下。“相关工作 ”介绍了该工 作的相关工作。“所提出的NAS方法 ”详细描述了所提出 的NAS方法的细节。实验设计和结果分别在“实验设计 ” 和“实验结果 ”中提出。最后一部分是放在“结论 ”中的 结论。</p><p><strong>相关工作</strong></p><p><strong>NAS任务的一般制定</strong></p><p>NAS是一项极其复杂的优化任务,其主要目标是将人工设 计神经网络的过程转化为自动寻找最优的体系结构。NAS 的过程可以被描述出来。1 . 在研究过程中,这些搜索策 略从搜索空间中抽取一个候选架构。然后,我们训练体系 结构收敛并评估体系结构的性能。接下来,搜索策略根据 最后一个体系结构的评估结果,选择另一个候选体系结构 进行培训和评估。</p><p>在NAS任务中,表示神经网络结构为a,神经网络所有 函数的权值为w<em>A</em>.那么NAS的目标是找到一个可以实现最小 验证损失的体系结构A<em>lv</em>通过尽量减少训练损失来进行训 练后<em>lt</em>,如等式所示( 1).</p><p>(1)</p><table><tr><td><p>。r…</p></td></tr></table><p>w的位置 是A的最佳权值,达到训练数据集的损失最小。</p><p><em>lt</em>和<em>lv</em>分别为训练数据集和验证数据集上的损失。这两种 损失不仅由体系结构A决定,还由权重w决定。这是一个以 双级优化问题[30],以a为上层变量,为低级变量。</p><p><strong>NAS方法</strong></p><p>搜索策略决定了如何采样神经网络架构。根据不同种类的 搜索策略,NAS方法大致可以分为三种猫-</p><p>条件:基于ea的NAS方法,基于rl的NAS方法,基于gd的 NAS方法。</p><p><strong>基于EA的NAS方法</strong></p><p>基于ea的NAS方法使用进化算法(EAs)对神经结构进行采 样。早期基于ea的网络优化研究被提出为神经进化的概念 [12-14],它不仅优化了网络的拓扑结构,而且还优化了 与网络相关的超参数和连接权值。近年来,基于ea的NAS 方法引起了越来越多的关注。例如,谢等人。2017年发布 了第一个基于ea的NAS工作GeNet [31],该工作使用固定 长度的二进制字符串对候选架构进行编码。Real等。通过 EA搜索网络架构,并开始搜索</p><p>从平凡的初始条件[27]中进行搜索。随后,Real等人。进 化出了一种图像分类器:变形网-a[16],它通过引入年龄 的概念来修改比赛的选择,并首次超过了手工设计。刘等 人。提出了分层EA [15],它结合了一种新的分层遗传表 示方案,模仿模块化的设计模式和表达性搜索空间。</p><p>Elsken等人。提出了一种用于多目标架构搜索的柠檬水进 化算法。苏加努梅塔尔。构建了基于笛卡尔遗传规划(CG P) [25]的CNN架构。太阳等。提出了CNN-GA [26]和AE-</p><p>CNN [32],发展CNN架构,基于网络和网络块。为了加速 进化深度学习中的适应度评估,Sun和Wang等人。提出了 一种基于随机森林[33]的端到端离线性能预测器。</p><p>尽管上述基于ea的NAS方法搜索的神经网络结构与最先 进的处理设计的CNNs相比取得了具有竞争力的性能,但作 为基于种群的方法,</p><p>由于涉及到大量的健康评估,他们仍然面临着巨大的资源 成本。在搜索阶段,每个新生成的候选体系结构都需要在 一个训练数据集上进行训练,并在一个验证数据集上进行 评估。那么,大多数基于ea的NAS方法都很耗时。例如,</p><p>在CIFAR10数据集上搜索架构,分层EA [15]需要300 GPU 天,Amoe[16]-[16]需要3150 GPU天,CNN-GA [26]需要35 GPU天,AE-CNN [32]需要27 GPU天。因此,必须加快基于 ea的NAS方法的评价过程,特别是在计算资源有限的情况 下。</p><p><strong>基于rl的NAS方法</strong></p><p>主体、环境和奖励是强化学习(RL)的三个因素。在文本 中,将控制器从搜索空间采样网络架构定义为代理的行为 , 以网络性能为奖励,控制器在下一次迭代中根据奖励进 行更新。Zoph最早的基于rl的NAS方法由等人提出。在</p><p>2017年,它使用rnn作为控制器,对网络架构进行采样, 并通过策略梯度[7]生成操作。随后,Zoph等人。采用近 端优化策略来优化RNN控制器[17]。蔡等人。提出了一种 基于rl的算法:无代理NAS[34],这是一种处理硬件度量 的替代策略。BlockQNN [35]使用q-学习范式自动构建高 性能网络。</p><p><strong>图</strong>1神经过程 体系结构搜索</p><img src="/media/202408//1724856291.125911.jpeg" /><table><tr><td></td></tr></table><p>早期的基于rl的NAS方法通常计算成本很高。为了降低 计算成本,work [ 17]提出了著名的NASNet搜索空间</p><p>允许我们在CIFAR10数据集上搜索最佳单元格</p><p>然后通过将这个单元的更多副本叠加在一起,将这个单元 应用到ImageNet数据集。ENAS [18]提出了一个parameter -sharingstrategyandtheone-shotestimator(OSE),它 将所有候选架构视为该网络的子图。然后,所有的候选体 系结构都可以共享这些参数。</p><p><strong>基于GD的NAS方法</strong></p><p>近年来,人们对采用梯度下降(GD)方法越来越感兴趣。 一种典型的基于GD的NAS方法是飞镖[19],它通过松弛策 略将离散搜索空间转换为连续搜索空间后,通过GD方法对 网络体系结构参数进行优化。随后,董等人。提出了GDAS [20],它开发了一个可学习的可微采样器来加速搜索过程 。谢等人。提出了SNAS [21] ,它训练神经操作参数</p><p>andarchitecturedistributionparametersbyprop osi nganovel搜索梯度。上述无代理</p><p>NAS[34]proposedagradient-basedapproachtohandlenon- differentiable硬件目标。</p><p>与基于ea和基于rl的NAS方法相比,基于gd的NAS方法 都是有效的,因为它们将候选网络的结构表示为有向无环 图(DAGs),并使用了参数共享策略。然而,基于gd的</p><p>NAS方法也存在一些缺点。例如,参考文献[22,23]指出, 飞镖倾向于选择跳过连接操作,这将导致搜索架构的性能 下降。为了克服飞镖[19]的缺点,人们提出了几种不同的 飞镖方法,如飞镖-[36]、飞镖+ [37]、RC-飞镖[38]和 β -飞镖[39]。</p><p>除了上述三种NAS方法外,还有其他没有提到或没有提 到的NAS方法</p><p>完全属于上述类别。例如,Liu等人。</p><p>提出了采用基于序列模型的优化(SMBO)策略。</p><p><strong>爆炸重力场算法</strong></p><p>爆炸引力场算法(EGFA) [29]是一种基于原始GFA[40 –43] 的新的优化算法,它基于SNDM [44]刺激行星的形成过程</p><p>。它是由我们的研究团队在2019年提出的,在解决基准函 数[29]和特征选择任务[45]等优化问题和任务方面取得了 良好的性能。与传统的基于种群的智能算法,如遗传算法 (GA)和粒子群优化(PSO)的智能算法相比,EGFA具有 更好的全局优化能力和显著的效率。此外,在某些条件下 , 概率为1的thefactthatEGFAconvergestotheglobal最佳 解已被证明为[29]。</p><p>在EGFA中,所有的个体都可以被模拟成有质量的尘埃 粒子,每个个体都属于某一群体。在每一组中,以质量值 最大的一组为中心尘埃,其余为周围的尘埃颗粒。基于</p><p>SNDM [44]的思想,每个中心的尘埃被引力场吸引它周围 的尘埃,引力场使周围所有的尘埃粒子向它们的中心移动 。在EGFA中,每个尘埃粒子可以用一个四元组(位置、质 量、组、标志)表示,其中标志是一个布尔值,表示它是 否是一个中心,位置对应于问题的解决方案,组表示组数 , 质量是目标函数的值。当质量值越大时,解就越好。对 于EGFA有6个基本操作,如图所示。2 : (1)粉尘采样(DS) 、 (2)初始化, (3)组、 (4)移动和</p><p>旋转, (5)吸收,然后(6)爆炸。EGFA的详细流程总结如下 :</p><p>步骤1:通过粉尘采样(DS)定位子空间。DS的任务是 有效地定位一个足够小的搜索空间,它更有可能包含最优 解。</p><p>步骤2:根据步骤1定位的子空间,随机初始化粉尘数 量。</p><p>步骤3:将粉尘种群随机分为几个亚组,并计算所有个 体的质量值。在每组中,设置最大质量值</p><img src="/media/202408//1724856291.202942.png" /><table><tr><td></td></tr></table><p><strong>图</strong>2、EGFA工作流程图</p><p>作为中心,将其旗帜设为1;将其他个体设为周围尘埃颗 粒,设为0。</p><p>步骤4:检查停止情况。如果满足停止条件,返回最佳 解,算法终止,否则进入步骤5。</p><p>步骤5:执行移动和旋转操作。在每一组中,每个中心 通过引力场吸引其周围的尘埃粒子,而引力场使周围所有 的尘埃粒子向它们的中心移动。</p><p>步骤6:执行吸收操作。周围的一些足够靠近其中心的 尘埃颗粒被这些中心吸收。在这个过程中,粉尘种群的规 模将会减小。</p><p>步骤7:进行爆炸操作,在中心周围产生一些新的尘埃 颗粒。当爆炸操作完成后,算法转到步骤4。</p><p>另外,步骤1中的DS避免了一个长时间的迭代过程,因 为该算法只在比原始搜索空间足够小的子空间中进行搜索 。爆炸操作保持了种群的规模,可以阻止算法因为陷入局 部最优而陷入停滞行为。</p><p>在本文中,我们提出了一种基于爆炸引力场算法的NAS 方法,简称EGFA-NAS。在EGFA-NAS中,一个个体(一个尘 埃粒子)代表了一个候选的网络架构。EGFA-NAS的目标是 发现一个性能最好的网络架构,例如在测试数据集上的准 确性。对于NAS任务,包含最好的足够小的子空间是困难 的</p><p>来定位和计算密集型。因此,埃及人放弃了第一次手术DS 。作为一种基于人群的NAS任务的方法,有几个关键问题 需要解决。即(1)要搜索哪种类型的搜索空间, (2)如何表 示和编码CNN网络, (3)如何加速网络架构评估过程, (4) 如何使用启发式信息来指导搜索过程。</p><p><strong>建议的NAS方法</strong></p><p>微搜索空间、超NASNet[17]、飞镖[19]和NAS-板凳-</p><p>201[23]搜索空间最近被广泛用于NAS任务,通过叠加多个 块的数量来搜索神经细胞形成块并构建网络的宏骨架[16- 20,23,46]。在此工作中,我们提出了一种有效的微搜索 空间的NAS方法。为了充分研究我们所提方法的性能,我 们选择了两个经典的微搜索空间:i。e., NAS-Bench-201 和镖搜索空间测试。</p><p><strong>搜索空间的表示</strong></p><p>在这项工作中,我们寻找一个计算单元作为最终体系结构 的构建块,并将一个单元表示为一个有向无环图(DAG)</p><p>。具体来说,一个节点表示信息流,e。g., cnn中的一个 特征图和两个节点之间的一条边提供了候选操作,这被称 为由人类专家设计的成功模块。我们将O表示为候选操作 集。为了在正向传播过程中更有效地处理中间节点,需要 搜索两种细胞:步幅为1的正常细胞和步幅为2的减少细胞 (块)。一旦识别了这两种细胞,我们就可以堆叠搜索细 胞的多个副本,组成一个整个神经网络。在这个部分中, 我们分别介绍了两个搜索空间: NAS-Bench-201和飞镖搜 索空间。</p><p><strong>NAS工作台-201</strong></p><p>NAS-Bench-201由Dong等人提出。 [23],这是一个与算法 无关的微搜索空间。具体来说,来自mNAS-Bench-201的单 元格包括一个输入节点、三个计算节点,最后一个计算节 点也是下一个单元格的输出节点。单元格中的每条边都有 五个候选选项。然后NAS-Bench-201中的一个单元可以表</p><p>示为一个DAG,其节点完全连接,有5C=总共有15,625个</p><p>候选细胞。在NAS-Bench201中,候选操作集O包含以下五 个操作: (1)归零、 (2)跳过连接、 (3) 1 × 1</p><p>卷积, (4) 3×3卷积,和(5) 3×3平均池化。</p><p>如图所示。3、NAS-Bench201的宏骨架主要由三个普通 块堆叠,并由两个还原块连接。每个正常细胞块由B正常</p><p>细胞组成。缩减块是基本的缩减块[ 10], whichservestodown-samplethespatialsizeanddouble是 输入特征映射的通道]。骨架由一个3×3卷积启动,最后 是无小叶平均池化层,将特征映射平化为一个特征向量。</p><p>此外,工作[23]评估每个候选的archi- 在三个不同的数据集上进行nas-板凳-201的检测:</p><p>CIFAR10,CIFAR100 [47],和ImageNet16120 [48]。一旦 找到了最终的架构,再训练过程就不是必要的,我们可以 通过[23]提供的API直接获得网络的最终性能。</p><p><strong>飞镖搜索空间</strong></p><p>飞镖[19]搜索空间是一种流行的微搜索空间, 由Liu等人 提出。这类似于NASNet [ 17]搜索空间,但删除了一些未 使用的操作,并添加了一些强大的操作。具体来说,飞镖 搜索空间中的一个单元格包含两个输入节点、四个计算节 点和一个输出节点。输出节点是四个计算节点的连接。如 图中所示。4、在一个单元格中有14条边用于搜索,每条 边有8个选项。与NAS-Bench-201不同,单元格中的节点在 搜索阶段并没有完全连接。此外,在评估阶段,每个节点 只与之前的两个节点连接。在飞镖搜索空间,候选操作集 O包含以下八个操作: (1)识别, (2)归零, (3) 3×3深度 独立卷积, (4) 3×3扩张深度分离卷积, (5) 5×5深度分 离卷积, (6) 5×5扩张深度分离卷积, (7) 3×3平均池, (8) 3×3最大池。</p><p>如图所示。4、B个正常细胞堆积为一个正常细胞块。</p><p>对于一个给定的图像,它向前思考一个3×3的卷积,然后 向前思考一个三个正常的块,中间有两个还原单元。在本 文中,我们遵循[ 19]来建立飞镖搜索空间的整体网络架 构。</p><p><strong>搜索过程的总体</strong></p><p>图5显示了埃及人中搜索的整个过程。 (a)边缘上的操作初 始化未知。 (b)搜索空间的连续松弛和对具有混合概率的 边缘的候选操作进行采样。 (c)同时优化混合概率和细胞 的权重。 (d).从学习到的混合概率中推断出细胞的最终 结构</p><p><strong>细胞的表示和编码</strong></p><p>正如在“搜索空间的表示 ”中所讨论的,在本工作中要搜 索的单元格可以用dag来表示。具体来说,每个计算节点 代表一个特征图,它是从之前的特征图转换而来的。每</p><p>个</p><p>edgeinthisDAGisassociatedwithanoperationtransf orming都将特征从一个节点映射到另一个节点。所有可 能的操作都从候选操作集中选择O。那么任意节点j的输出 都可以表示为等式(2).</p><img src="/media/202408//1724856291.2263901.jpeg" /><table><tr><td></td></tr></table><p>(2)</p><p>其中,Ii和Ij分别表示节点i和节点j的输出。<em>oi</em>, j表示 将特征映射从节点i转换到节点j的操作,从节点j中选择</p><p>。</p><p>在NAS-Bench-201 [23]中,一个正常的细胞包含四个 节点,i。e., {Ii |0≤i≤3} 。<em>I0</em>是前一层的输出张量 , <em>I1</em>,<em>I2</em>,<em>I3</em>是节点1、2、3的输出张量, 由等式计算出来 吗(2).根据工作[23],一个普通单元格包含6条边,每条 边有5个候选操作。</p><p>在飞镖搜索空间中,一个单元格包含7个节点,i。e., {Ii |0≤i≤6} 。<em>I0</em>和<em>I1</em>输入张量,<em>I2</em>,<em>I3</em>,<em>I4</em>和<em>I5</em>是节点 2、3、4、5的输出张量。<em>I6</em>表示这个单元格的输出,它是 四个计算节点的连接,i。e.,<em>I6</em>=<em>I2</em>U<em>I3</em>U<em>I4</em>U<em>I5</em>.</p><p>将e定义为单元格的边数, |O|表示候选操作集O的大小 。根据上述对NAS-Bench-201和飞镖搜索空间的描述,一 个细胞可以被编码为大小为e×|O|的a。在NAS-Bench-201 , e = 6, |O| = 5中,A是一个大小为6×5的张量。在飞 镖搜索空间中,e = 14, |O| = 8,A是一个大小为14×8 的张量。一个单元格的一般表示形式被表示为等式(3).</p><img src="/media/202408//1724856291.254071.jpeg" /><table><tr><td></td></tr></table><p>(3)</p><p>在哪里<img src="/media/202408//1724856291.277855.png" /><em>p</em>表示采样边缘p,a的|O|候选操作的概率的第q</p><p>个元素是什么i<em>p</em>并表示对边缘p的第q个候选操作进行采样 的概率。事实上,为细胞进行编码的方式是</p><p><img src="/media/202408//1724856291.303932.png" /></p><p><strong>图</strong>3NAS台201宏观骨架</p><img src="/media/202408//1724856291.409767.jpeg" /><table><tr><td></td></tr></table><p><img src="/media/202408//1724856291.416356.png" /><strong>图</strong>4个飞镖搜索空间的宏骨架</p><table><tr><td></td></tr></table><p><strong>图</strong>5.整个搜索过程</p><p>平衡(3)可用于任何微搜索空间,其中搜索单元具有固定 数量的边数e和已定义的候选操作集o。</p><p><strong>搜索空间的连续松弛</strong></p><p>正如在“搜索空间的表示 ”中所述,一个神经网络结构由 单元格的许多副本组成。这些单元格从NAS-Bench-201和 飞镖搜索空间中采样。具体地说,从节点j到节点i,我们 以离散概率从候选操作集O中采样变换函数α (i ← j) . 在搜索过程中,我们通过等式计算了一个单元格中的每个 节点(4).</p><img src="/media/202408//1724856291.429535.jpeg" /><table><tr><td></td></tr></table><p>(4)</p><p>其中, |O|为集合O, α 的候选操作数<img src="/media/202408//1724856291.432731.png" /> ← j)表示该边的概 率 (i ← j)从…</p><p>选择第k个候选操作作为转换函数,o<em>k</em>表示第k个候选操作 , Ij为节点j,w的输出<img src="/media/202408//1724856291.437085.png" /> ← j)o的函数是权重吗<em>k</em>紧张不安 (i ← j) .为了使搜索空间连续,我们放宽了一个特定操作 α 的概率<img src="/media/202408//1724856291.442625.png" /> ← j)通过等式来完成所有可能的操作(5).</p><img src="/media/202408//1724856291.446878.jpeg" /><table><tr><td></td></tr></table><p>(5)</p><p>我在哪里。i.d的样本从Gumble(0,1),ck =-日志( - 日志(u))与u~Unif[0,1]。 τ是软最高温度;在本工作 中, τ设置为10与研究[23]相同。</p><p><strong>培训策略</strong></p><p>在本工作中,我们的目标是通过利用EGFA-NAS的种群机制 来降低计算成本。主</p><p><img src="/media/202408//1724856291.4572318.jpeg" /><strong>图</strong>6培训策略 egfanas</p><p>训练策略的思想如图所示。6. 具体来说,定义<em>dt</em>作为训 练数据集,batch_num作为批数<em>dt</em>,n为种群大小。在每个 时期,每个尘埃个体都在对k个批次进行训练,其中k个</p><p>=Lbatch_num/n ”。所有的尘埃个体都在每个时代合作完 成对数据集的训练。这个训练过程会重复进行,直到达到</p><p>最大的时代数。每个尘埃个体(架构网络)将是</p><p>trainedonmanydifferentbatchessincethenumberof batches batch_num通常大于种群大小n,训练过程重 复大量的时期。在本工作中,分别为NAS-Bench-201的</p><p>CIFAR10,andsetthemaximumnumberofepochsas80and 200 设置了batch_num = 98,n = 20,k = 5。虽然每个尘埃 个体(架构网络)在每个历元上只在一个子集(1/n训练 数据)上进行训练,但该训练策略将在大量epoch上的所 有训练数据上进行训练。</p><p>此外, 由于事实,每个灰尘个人负责培训工作的一部 分,和每个时代的完整训练完成所有个人的参与,因此 EGFA-NAS的效率是不敏感的人口大小n的设置,将实验确 认在“参数设置</p><p>NAS-Bench-201 ”。</p><p><strong>爆炸操作和权重继承</strong></p><p>在神经结构搜索的背景下,一个灰尘在</p><p>EGFA-NAS代表了一个候选体系结构,不仅维护了原始的四 个属性:位置、质量、组数和一个布尔标志,指示它是否 是2.3中描述的中心,而且还维护了一个属性“w ”来记录 单元格中函数的权重。每个尘埃颗粒可以用五个元组(位 置、w、质量、组、标志)来表示。在EGFA-NAS中,将位 置表示为操作混合概率A,那么一个神经网络结构可以表 示为( a、w、质量、组、标志)。</p><p>作为一种基于群体的NAS方法,EGFA-NAS的主要计算瓶 颈是涉及到大量的体系结构评价。我们试图利用EGFA的工 作机制来降低计算成本。在每个时期, 由于在爆炸操作过 程中需要训练一些新产生的尘埃粒子(体系结构),因此 会产生额外的计算成本。另一方面,新的尘埃颗粒是基于 中心尘埃产生的,新产生的尘埃颗粒与中心之间有密切的 关系。基于上述两个观察结果,我们提出了一种在爆炸操 作过程中的权重继承策略。在算法1中描述了在EGFA-NAS 中的爆炸操作的细节。</p><p><img src="/media/202408//1724856291.4680068.png" /></p><table><tr><td colspan="6"><p><img src="/media/202408//1724856291.479805.png" /></p></td></tr><tr><td colspan="6"><p><img src="/media/202408//1724856291.4843981.png" /></p></td></tr><tr><td colspan="4"><p>radius ui,curreaatepoch epc ch,, du sst population</p><p><img src="/media/202408//1724856291.4889338.png" /></p></td><td colspan="2"><p><img src="/media/202408//1724856291.491939.png" /></p></td></tr><tr><td colspan="6"><p><img src="/media/202408//1724856291.510838.png" /></p></td></tr><tr><td colspan="2"><p><img src="/media/202408//1724856291.5236218.png" /></p><p><img src="/media/202408//1724856291.531722.png" /></p></td><td colspan="4"><p><img src="/media/202408//1724856291.5495539.png" /></p><p>for each n⃞genratgdindixidual dust, do duc st,-A=center. A*(l-r)+Aas m*r</p><p><img src="/media/202408//1724856291.566296.png" /></p><p><img src="/media/202408//1724856291.570101.png" /></p><p><img src="/media/202408//1724856291.579318.png" /></p></td></tr><tr><td colspan="3"><p>9.foreach indixidual dust,</p></td><td colspan="3"><p><img src="/media/202408//1724856291.61839.png" /></p></td></tr><tr><td><p><img src="/media/202408//1724856291.6646552.png" /></p></td><td colspan="4"><p><img src="/media/202408//1724856291.6995368.png" /></p><p><img src="/media/202408//1724856291.7097301.png" /></p><p><img src="/media/202408//1724856291.749471.png" /></p></td><td><p>gf dust</p></td></tr><tr><td colspan="6"><p>I3. d usf, w=d usf,w-⃞vs w., Lr(dust,w,d usf, A)</p><p><img src="/media/202408//1724856291.791789.png" /></p><p><img src="/media/202408//1724856291.798002.png" /></p><p><img src="/media/202408//1724856291.808279.png" /></p><p><img src="/media/202408//1724856291.815846.png" /></p><p><img src="/media/202408//1724856291.8279428.png" /></p><p>I9. Return Dust are sr</p></td></tr></table><p>如算法1所示,第一部分(第1-8行)是基于中心尘埃 产生新个体的过程。尘埃i的候选运算的概率A计算为第4 线,细胞中函数的权重w从中心尘埃继承为第5线。第二部 分(第9-14行)计算新生的尘埃颗粒的质量值,并更新参 数w。第15线结合了粉尘吸收(以前工艺的输出)和新建 的粉尘数量<em>新尘</em>.最后一部分(第16-18行)更新每一组的 中心灰尘。利用权重继承,新产生的粉尘可以在当前时期 直接进行评估,而无需再训练。</p><p>图7说明了产生新的粉尘</p><p>particlesbymeansofweightinheritanceduringtheex plosion操作的过程。<img src="/media/202408//1724856291.877866.png" /><em>i</em>表示对边i采样|O|候选操作的概 率,wi记录边i的函数的权重。图中右侧的分区。7显示</p><p>新生成的尘埃种群以m为大小,新尘埃粒子的混合概率A基 于算法1中的中心为第4行,参数w继承自算法1中的中心尘 埃粒子为第5行。</p><p><strong>EGFA-NAS的过程</strong></p><p>如上所述,在NAS的过程中,架构A和权重w两个参数需要 进行优化。为了解决双层优化问题,我们将原始训练数据 集分为两部分:新的训练数据集<em>dt</em>以及验证数据集<em>设计</em>, 然后使用新的训练数据集<em>dt</em>若要优化参数w,请使用验证 数据集<em>设计</em>来优化参数A。在EGFA-NAS中,我们应用了</p><p>EGFA和梯度下降</p><p><strong>图</strong>7.产生新产品的过程 尘粒重量</p><img src="/media/202408//1724856291.891468.png" /><table><tr><td></td></tr></table><p>爆炸过程中的遗传 活动</p><p>同时对参数w和参数体系结构A进行迭代优化。EGFA-NAS的 生产过程详细描述如下:</p><p>步骤1:初始化所有参数,包括粉尘种群大小n、g组数 、吸收操作的吸收率表、最大周期数、最大半径rmax和最 小半径rmin为爆炸策略;初始化粉尘人口尘埃={尘埃0<em>灰</em> <em>尘</em>1, · · · , dustn-1}随机。对于每一个尘埃,位置( 第i个单元结构的尘埃。A)是随机初始化的,即 × |O|。</p><p>(3). 在初始化后,每个细胞都可以堆叠成一个神经网络 。然后是在训练数据集上的损失<em>lt</em>以及在验证数据集上的 损失<em>lv</em>可以计算。为了优化两个参数w和A的同时,我们使 用了等式(6)来评价网络体系结构的性能,并表示为等式 (6)作为灰尘的质量值。值得注意的是<em>lt</em>和<em>lv</em>不是完全训 练后网络架构的损失,而是当前时期训练数据集和验证数 据集的损失。</p><p><em>dusti</em> <em>.质量=</em> <em>L</em> <em>+</em> <em>L,(6)</em></p><p>损失在哪里<em>lt</em>和<em>lv</em>由等式计算(7),即交叉熵损失函数[49]</p><p><img src="/media/202408//1724856291.919766.png" />。</p><p><em>L</em> <em>=</em> <em>- </em>(y ln<img src="/media/202408//1724856291.931285.png" />+ (1 - y) ln (1 -<img src="/media/202408//1724856291.935099.png" />)),</p><p>对</p><p><em>x</em></p><p>(7)</p><p>其中x表示数据样本,y为真实标签,表示预测标签,s为 数据的大小。j</p><p>步骤2:将粉尘数量分为g个亚组。在EGFA-NAS中,g值 设为2,设定质量最大的粉尘颗粒为中心粉尘,其余为周 围粉尘颗粒。对于dusti,属性标志被设置为等式(8),其 中best_massj为第j组中的最大质量值。</p><img src="/media/202408//1724856291.941622.jpeg" /><table><tr><td></td></tr></table><p>(8)</p><p>步骤3:检查终止条件。EGFA-NAS有两种终止条件,一 种是最大期,另一种是尘埃种群质量值的平均变化条件。 一旦满足了一个条件,EGFA-NAS的主回路就结束了。然后 返回最优网络结构A,推导神经网络结构,进入步骤4。</p><p>步骤4:执行调节和旋转操作。周围的尘埃颗粒向中心 的尘埃移动。对于每一个尘粒尘,运动速度由等式计算 (9).</p><img src="/media/202408//1724856292.0840042.jpeg" /><table><tr><td></td></tr></table><p>(9)</p><p><em>中心。</em>A展示了中心尘埃的细胞结构;灰尘。A表示第i个 细胞的结构;随机的是一个随机生成的6×-5张量。p是移 动的速度,q是一个接近于零的值。在这个工作中,我们 设置了p = 0。1, q = 0. 分别为001。我们将尘埃位 置上的运动和旋转操作的速度表示为编A1。此外,在EGFA -NAS中,我们还应用梯度下降来优化参数:A和w。我们将 尘埃位置上的梯度下降速度表示为编A2,这是由等式计算 出来的( 10).</p><p>编A2 = - ξ 2<em>▽dusti</em>.<em>AL</em> <em>V</em> <em>(dusti</em> <em>.w,</em> <em>dusti</em> <em>.</em>A),</p><p>(10)</p><p>where ξ2 isthelearningrate,▽dusti. <em>AL</em> <em>V</em>表示验证数 据集上的架构梯度。</p><p>如图所示。8、考虑到上述两个因素对细胞结构A的影 响,将尘的位置更新为等式( 11)</p><p><em>dusti</em> <em>.一个=斯坦。A</em> <em>+</em> <em>编A1+</em> <em>编A2</em> <em>.</em>(11)</p><p>在此过程中,对于每一个尘粒尘,我们不仅需要优化 参数尘。A,但也需要</p><p>以优化参数的灰尘。w,它是由等式更新的( 12).</p><p><em>dusti</em> <em>.w</em> <em>=</em> <em>dusti</em> <em>.</em>w - ξ 1<em>▽dusti</em>.wL T<em>(dusti</em> <em>.w,</em></p><p><em>dus</em> <em>ti</em></p><p><em>.</em>A), (12)</p><p>其中 ξ 1是学习率, ▽susti吗.wL T表示训练数据集上的 架构梯度。</p><p>步骤5:进行吸收操作。周围一些质量值较小的尘埃颗 粒会被其中心尘埃吸收。在这个过程中,粉尘的大小会发 生变化,新的大小由吸收率abs决定( 13).</p><p>n = n * (1 - abs), (13)</p><p>步骤6:执行爆炸操作。在步骤5的过程中,一些质量 值较小的尘埃颗粒被其中心的尘埃颗粒吸收。为了保持尘 埃数量的大小,在这个过程中,会在中心尘埃颗粒周围产 生一些新的尘埃颗粒。这部分在“爆炸操作和权重继承 ” 中详细描述。</p><p>在步骤6完成后,转到步骤3。</p><p>根据以上对埃及人的详细描述,算法1显示了EGFA-NAS 的伪代码。步骤1(第1-3行)是初始化。第2步(第4-5行 ) 是分组的操作。步骤3(第6行)检查终止条件。步骤4 (第7-12行)是运动和旋转的过程。步骤5(第13行)是 吸收操作。步骤6(第14行)为爆炸操作。</p><p>其中,n为初始种群的大小,abs表示</p><p>吸收率。在这个工作中,我们将abs设为0.5。</p><p><img src="/media/202408//1724856292.138888.png" /></p><p><img src="/media/202408//1724856292.186264.png" /></p><p> Alg </p><p><img src="/media/202408//1724856292.232102.png" /></p><p><img src="/media/202408//1724856292.4064598.png" /></p><p><img src="/media/202408//1724856292.445497.png" /><img src="/media/202408//1724856292.574378.png" /></p><p><s> ut put </s></p><p><img src="/media/202408//1724856292.664445.png" /></p><p><img src="/media/202408//1724856292.700594.png" /></p><p><img src="/media/202408//1724856292.948907.png" /></p><p><img src="/media/202408//1724856292.986197.png" /></p><p><img src="/media/202408//1724856293.0565429.png" /><img src="/media/202408//1724856293.176299.png" /><img src="/media/202408//1724856293.261642.png" /></p><p><img src="/media/202408//1724856293.3310652.png" /><img src="/media/202408//1724856293.524363.png" /><img src="/media/202408//1724856293.5618649.png" />fgr</p><p><img src="/media/202408//1724856293.5886762.png" />gae hindi i adal</p><p><img src="/media/202408//1724856293.6954398.png" /><img src="/media/202408//1724856293.76334.png" />by Eq.(9)-(11) by</p><p><img src="/media/202408//1724856293.824841.png" /></p><p><img src="/media/202408//1724856293.83076.png" /></p><p><img src="/media/202408//1724856293.895778.png" /></p><p><img src="/media/202408//1724856293.951117.png" /></p><p><img src="/media/202408//1724856293.997649.png" /></p><p><img src="/media/202408//1724856294.080918.png" /></p><p><img src="/media/202408//1724856294.182485.png" /></p><p><img src="/media/202408//1724856294.280961.png" /></p><p><img src="/media/202408//1724856294.3034828.png" /></p><p><img src="/media/202408//1724856294.3334599.png" /></p><p><img src="/media/202408//1724856294.354033.png" /></p><img src="/media/202408//1724856294.392899.png" /><table><tr><td></td></tr></table><p><strong>图</strong>8 Changeoftheithcellstructure A在运动和旋转操作过程中</p><p><strong>实验设计</strong></p><p>EGFA-NAS的目标是在一个复杂的任务中搜索最优的神经 networkarchitectureautomaticallywhichcanachiev esatisfying性能,如图像分类。为此,我们设计了一 系列的实验来证明所提出的EGFA-NAS与最先进的NAS方法 相比的优势。首先,我们利用所提出的EGFA-NAS在基准搜 索空间中搜索神经网络架构:NAS-EGFA 20ch,并通过研 究CIFAR10、CIFAR100和ImageNet16120上搜索架构的分类 精度和计算成本来评估所提出的EGFA-NAS的性能。其次, 我们从准确性和损失两方面研究了相对评价与绝对评价的 一致性。第三,我们研究了权重继承策略的有效性。最后 , 我们在更大、更实用的搜索空间:飞镖搜索空间中研究 了所提出的EGFA-NAS,并研究了EGFA-NAS的性能和普遍性</p><p>。</p><p>我们首先在基准测试搜索空间中执行建议的EGFA-NAS : NAS-Bench-201。当搜索过程结束时,最优体系结构的 绝对性能评估可以通过NASBench-201的API直接获得,而 计算成本可以忽略不计。利用NAS-Bench-201,验证了搜 索网络架构的相对性能评价和绝对性能评价的一致性。此 外,我们还验证了在NAS-Bench-201搜索空间中进行权重 继承的有效性。但当飞镖搜索空间中的搜索过程终止时, 最优的网络体系结构需要从头开始进行再训练,并在测试 数据集上进行测试。测试分类精度报告作为我们的实验结 果。 在本节的其余部分中,我们将介绍同行竞争对手,</p><p>以与此提议的EGFA-NAS进行比较</p><p>基准数据集,最后是两个典型搜索空间的参数设置: NAS</p><p>-Bench-201和飞镖搜索空间。</p><p><strong>同行竞争对手</strong></p><p>为了证明所提出的EGFA-NAS的优势,我们选择了一系列的 竞争对手进行比较。“NAS-Bench-201的竞争对手 ”介绍 了EGFA-NAS在NAS-板凳-201搜索空间中搜索的最优架构的 性能比较,“DARTS搜索空间的竞争对手 ”与EGFA-NAS在 飞镖搜索空间中搜索的最优架构的性能比较。</p><p><strong>NAS-Bench-201的竞争对手</strong></p><p>DuetothefactsthatNAS-Bench-201(onlyhasfivecandida te操作)搜索空间,分类精度低于其他搜索空间搜索的最 佳空间,EGFA在NAS-Bench-201中搜索的最优架构的性能 仅与在NAS-Bench-201搜索空间中报告结果的竞争对手相 比。</p><p>所选的竞争对手主要是高效的gdbasednas方法,包括 DARTS-V1[19]、飞镖-V2[19]、SETN [50]、iDARTS [51] 和GDAS [20]。另外三个被选择的NAS竞争对手,即ENAS [18]、RSPS [22]和EvNAS [52],分别利用RL、随机搜索 和EA作为NAS任务的搜索策略。</p><p><strong>飞镖搜索空间的竞争对手</strong></p><p>飞镖搜索空间是用于NAS任务的功能搜索空间,其中最优</p><p>网络结构采用</p><p>promisingperformancecomparedwiththestate-of-the-</p><p>artmanually设计的CNN结构。为了比较EGFA-NAS搜索的最 优网络架构在飞镖搜索空间中的性能,我们选择了四种不 同的竞争对手进行比较。</p><p>1.第一种竞争对手是最先进的CNN架构, 由领域专家手动 设计,包括ResNet101 [10]、DenseNet-BC [11]、</p><p>SENet [53]、IGCV3 [54]、洗牌网[55]、VGG [1]和 Wide ResNet [56]。</p><p>2.The second kind of competitors are the state-of -theart EA-based NAS methods, including</p><p>Hierarchical EA [15],AmoebaNet-</p><p>A[16],LEMONADE[24],CGP-CNN [25], CNN-GA [26], AE-CNN [32], and AE-CNN +</p><p>E2EPP[33],LargeEvo[27],GeNet[31],SI-EvoNet[57], NSGA-Net [28], and MOEA-PS [58].</p><p>3 . 第三种竞争对手利用RL来搜索CNN架构,如NASNet-A [17]、NASNetA + CutOut [17]、无代理NAS [34]、 BlockQNN [35]、DPP-Net [59]、MetaQNN [60]和 ENAS [18]。</p><p>4.第四类竞争对手主要是基于GD的NAS方法,如飞镖-</p><p>V1+Cut[19]、飞镖-V2+Cut[19]、RC-飞镖[38]和SNAS</p><p>[21]。此外,还选择了PNAS [40]进行比较,并采用 了基于序列模型的优化(SMBO)策略。</p><p><strong>基准数据集</strong></p><p>为了研究EGFA-NAS在NAS任务上的性能,我们在两个不同 的搜索空间中测试了EGFA-NAS,包括NAS-Bench-201和飞 镖搜索空间。所有实验都涉及三个基准数据集: CIFAR10 、CIFAR100 [47]和ImageNet16120 [48],这些数据集被 广泛应用于最先进的cnn和NAS方法的实验研究中。在这项 工作中,每个架构</p><p>在NAS-Bench-201中进行训练和评估</p><p>CIFAR10,CIFAR100 [47],和ImageNet16120 [48]。在飞 镖搜索空间中搜索的每个体系结构都在CIFAR10,</p><p>CIFAR100上进行训练和评估。每个数据集可分为三个ub集 :训练集、验证集和测试集。</p><p>CIFAR10:它是一个由60K幅带有类的图像组成的图像分类 数据集。原始集包含50K的训练图像和10K的测试图像。 由 于需要一个验证集,原始训练集被随机分成两个具有相同 大小的子集,每个子集包含包含10个类的25K幅图像。在 本工作中,我们将一个子集作为新的训练集,将另一个子 集作为验证集。</p><p>CIFAR100:它具有与CIFAR10图像相同的图像,但它将图 像分为100个细粒度类。CIFAR100原始图像在训练集中包 含50K图像,在测试集中包含10K图像。在本工作中,原始 训练集被随机分成两个大小相同的子集。一个被认为是训 练集,另一个被认为是新的验证集。</p><p>用于图像分类的ImageNet16120:ImageNetisalarge-</p><p>scaleandwell-known数据集。图像16120是由16×16像素 从ImageNet [61]的降采样变体(i。e., ImageNet 16 × 16).ImageNet16120包含所有带有∈ [0,119]标签的图像。 总之,ImageNet16120由151.7K用于训练的图像、3K用于 验证的图像和120个类的测试的3K图像组成。</p><p><strong>参数设置</strong></p><p>本节将详细介绍了EGFA-NAS的参数设置。</p><p>表1搜索过程的超参数设置</p><table><tr><td><p>参数</p></td><td><p>价值</p></td></tr><tr><td><p>初始通道</p></td><td><p>16</p></td></tr><tr><td><p><em>B</em></p></td><td><p>5</p></td></tr><tr><td><p>优化器</p></td><td><p>SGD</p></td></tr><tr><td><p>涅斯捷罗夫</p></td><td><p>1</p></td></tr><tr><td><p>动量</p></td><td><p>0.9</p></td></tr><tr><td><p>批量大小</p></td><td><p>256</p></td></tr><tr><td><p>LR调度程序</p></td><td><p>余弦</p></td></tr><tr><td><p>初始LR</p></td><td><p>2.5 × 10-2</p></td></tr><tr><td><p>min_LR</p></td><td><p>1 × 10-3</p></td></tr><tr><td><p>权重衰减</p></td><td><p>5 × 10-4</p></td></tr><tr><td><p>随机翻转</p></td><td><p>0.5</p></td></tr></table><p><strong>NAS-台架-201的参数设置</strong></p><p>对于NAS-Bench-201搜索空间,参数设置只涉及搜索过程 , 因为NAS-Bench201为每个架构提供了绝对(最终)性能 评估,我们可以直接从头开始获得最优架构的评估,而无 需从头开始进行再训练。我们采用相同的骨架网络。3.</p><p>具体来说,我们将第一个卷积层的初始通道数设置为16; 将一个正常块B中的细胞数设置为5。在搜索过程中,几乎 参数设置遵循[23],如表1所示。具体来说,我们通过</p><p>Nesterov动量SGD来训练每个体系结构,使用交叉熵损失 作为批大小为256的损失函数。我们设置了体重10×- 4 并将学习速率从2衰减。5 ×10-2至1×10-3使用余弦退 火调度器。</p><p>在NAS-Bench-201搜索空间中,我们在三个不同的数据 集上设置了相同的超参数: CIFAR10、CIFAR100 [47]和 ImageNet16120 [48],除了由于图像分辨率略有差异而导 致的数据增强部分。对于CIFAR10和CIFAR100,我们使用 概率为0.5的随机翻转,4像素填充的随机裁剪32×32补丁 , 以及RGB通道上的归一化。对于ImageNet16120,我们使 用相同的策略,除了随机裁剪16×16个2像素填充的补丁</p><p>。</p><p>表1中列出的参数与神经网络体系结构有关。作为一种 基于种群的方法,埃及人有自己的参数。具体来说,我们 将组数g设置为2,将吸收操作的吸收率abs设置为0.5,设 置最大半径rmax为0。1,并设置最小半径rmin对于爆炸操 作的取值为0.001。</p><p>作为一种基于种群的NAS方法,更多的时代可能会带来 更好的性能,但计算成本也会增加。我们调查的影响</p><p>表2所搜索的最佳架构的相对 和绝对性能(准确性)</p><p>CIFAR10上的EGFA-NAS 不同时期的数量</p><p>表3搜索到的最佳架构的相对 和绝对性能(准确性)</p><p>CIFAR10上的EGFA-NAS 不同种群大小</p><table><tr><td><p>数据集</p></td><td><p>的数量 时代</p></td><td><p>相对的 表演</p></td><td><p>绝对的 表演</p></td><td><p>搜索成本(GPU天 数)</p></td></tr><tr><td rowspan="5"><p>西法尔10</p></td><td><p>40</p></td><td><p>38.12</p></td><td><p>91.71</p></td><td><p>0.025</p></td></tr><tr><td><p>60</p></td><td><p>43.91</p></td><td><p>92.16</p></td><td><p>0.037</p></td></tr><tr><td><p>80</p></td><td><p>48.27</p></td><td><p>93.67</p></td><td><p>0.048</p></td></tr><tr><td><p>100</p></td><td><p>53.05</p></td><td><p>93.67</p></td><td><p>0.062</p></td></tr><tr><td><p>120</p></td><td><p>57.58</p></td><td><p>93.67</p></td><td><p>0.076</p></td></tr></table><table><tr><td><p>数据集</p></td><td><p>人口规模</p></td><td><p>相对的 表演</p></td><td><p>绝对的 表演</p></td><td><p>搜索成本(GPU天 数)</p></td></tr><tr><td rowspan="5"><p>西法尔10</p></td><td><p>10</p></td><td><p>50.08</p></td><td><p>93.28</p></td><td><p>0.0481</p></td></tr><tr><td><p>15</p></td><td><p>49.00</p></td><td><p>93.36</p></td><td><p>0.0482</p></td></tr><tr><td><p>20</p></td><td><p>51.02</p></td><td><p>93.67</p></td><td><p>0.0482</p></td></tr><tr><td><p>25</p></td><td><p>48.83</p></td><td><p>93.67</p></td><td><p>0.0481</p></td></tr><tr><td><p>30</p></td><td><p>49.61</p></td><td><p>93.67</p></td><td><p>0.0482</p></td></tr></table><p>请注意,所有的实验设置都受到我们可用的计算资源的限制。所有的实验都是通过PyTorch 1.7在一个</p><p>NVIDIA GeForce RTX 3090 GPU卡上实现的。计算成本以“GPU日 ”来计算,计算方法是将GPU卡的数量乘 以之后的搜索时间[ 19,20,62]。</p><p>在CIFAR10数据集上的性能和计算成本上的最大周期数。</p><p>EGFA-NAS在CIFAR10上搜索的最佳架构的相对和绝对性能 (精度)如表2所示。在不进行再训练的情况下,在搜索 阶段的最后一个阶段评估了搜索架构的相对性能。NAS-</p><p>Bench-201提供的API查询搜索体系结构的绝对性能。从表 2的结果可以看出,当epoch数设置为80时,最佳性能(CI FAR10的准确率为93.67%)。当周期数增加到100时,绝对 性能没有提高,但计算成本更大。因此,我们</p><p>在NASBench-201的实验中将时代数设为80。</p><p>一般来说,种群规模是影响基于种群的方法的性能和 效率的关键因素,更大的种群规模通常会导致更好的性能 , 但也会导致搜索成本的增加。但是,在埃及语中,我们 提出了一种训练策略,它利用所有的灰尘个体来完成每个 时代的数据训练。该训练策略降低了绩效对种群规模的敏 感性,这可以通过表3中的结果来验证。具体来说,EGFA- NAS不仅具有相似的性能,而且对不同的种群规模具有相 似的搜索成本(GPU日)。此外,EGFA-NAS搜索的架构在 种群规模为n≥20时获得了最佳的绝对性能。鉴于上述情 况</p><p>观察,我们在本工作中将种群大小n设置为20。总之,</p><p>EGFA-NAS的绝对性能(准确性)和搜索成本(GPU日)与 最大时代数密切相关,但与种群大小关系不大。</p><p><strong>飞镖搜索空间的参数设置</strong></p><p>在飞镖搜索中搜索cnn的神经细胞</p><p>在[7,17]后的CIFAR10/100上的空格。“宏</p><p>skeletonofDARTSsearchspaceisshownasFig. ”4 . Thepa rameter</p><p>settingforDARTSsearchspacecanbedividedintotwoparts :</p><p>(1)搜索阶段和(2)评价阶段。</p><p>在搜索阶段,我们将第一个卷积层的初始通道数设置 为16,正常块B的单元数设为2,周期数为200。对于训练 参数w,我们通过Nesterov动量SGD对每个架构进行优化, 批处理大小为256,设置初始学习率为2。5 × 10-2,并 退火至1×10-3使用余弦退火调度器。我们设置动量为 0.9,衰减权重为5×10-4.为了优化参数A,我们使用具 有默认设置的Adam优化器。</p><p>在评估阶段,我们对搜索到的网络总共训练了600个时 代。我们将初始通道设置为33,将正常块B的细胞数设置 为6或8。我们开始的学习率为2。5 × 10-2然后用余弦 调度器将其缩减为0。我们将路径下降的概率设为0,并将 辅助塔的权重设为0.4。.2 其他的</p><p>表4飞镖搜索空间的超参数设置</p><table><tr><td><p>参数</p></td><td><p>搜索</p></td><td><p>评价</p></td></tr><tr><td><p>埃普克斯</p></td><td><p>200</p></td><td><p>600</p></td></tr><tr><td><p>初始通道</p></td><td><p>16</p></td><td><p>33</p></td></tr><tr><td><p><em>B</em></p></td><td><p>2</p></td><td><p>6/8</p></td></tr><tr><td><p>优化器</p></td><td><p>SGD/亚当</p></td><td><p>SGD</p></td></tr><tr><td><p>批量大小</p></td><td><p>256</p></td><td><p>256</p></td></tr><tr><td><p>涅斯捷罗夫</p></td><td><p>1</p></td><td><p>1</p></td></tr><tr><td><p>动量</p></td><td><p>0.9</p></td><td><p>0.9</p></td></tr><tr><td><p>调度程序</p></td><td><p>余弦</p></td><td><p>余弦</p></td></tr><tr><td><p>初始LR</p></td><td><p>2.5 × 10-2</p></td><td><p>2.5 × 10-2</p></td></tr><tr><td><p>Min_LR</p></td><td><p>1 × 10-3</p></td><td><p>0</p></td></tr><tr><td><p>衰减重量</p></td><td><p>5 × 10-4</p></td><td><p>5 × 10-4</p></td></tr></table><p>参数设置设置与搜索阶段相同(表4)。</p><p>与NAS-Bench-201( e = 6, |O| = 5)相比,飞镖搜索 空间( e = 14, |O| = 8)是一个更大的搜索空间。然后 , 我们将时代的数量设置为200个来探索飞镖搜索空间。 关于埃及的其他参数,如种群大小n、组数g、吸收率abs 、最大半径r最大和最大半径rmin,设置为“参数设置 ” 相同</p><p>NAS-Bench-201 ”。</p><p><strong>实验结果</strong></p><p><strong>在NAS-Bench-201搜索空间中的总体结果</strong></p><p>EGFA-NAS和其他竞争对手在NAS-Bench-201中发现的最优 网络在分类精度和计算成本(GPU天)方面的实验结果如 表5所示。符号“- ”表示没有报告相应的结果。iDARTS</p><p>[51]和EvNAS [52]的研究结果来源于原始发表的论文,其 他竞争对手的研究结果来源于[23]。粗体突出显示的结果 是最优最佳架构的结果和EGFA-NAS搜索的架构的结果。</p><p>从表5的结果中,我们可以观察到,埃及人可以比同行 竞争对手取得更好的性能:飞镖-V1[19],飞镖-V 2[19] , SETN[50],iDARTS[51],GDAS[20],ENAS[18],</p><p>RSPS[22],和EvNAS [52]。具体来说,在NAS-Bench-201 搜索空间中,EGFA-NAS发现了一个只有1.29M参数的网络 架构,它消耗了0.048个GPU天</p><p>andachieves93.67%accuracyonCIFAR10。对于cifar100数 据集,EGFA-NAS达到71.29%的精度</p><p>.231M参数,并消耗0.094 GPU天。对于ImageNet16120,</p><p>EGFA-NAS搜索的体系结构具有1.32M参数和0.236 GPU天成 本,获得了42.33%的准确率。受搜索空间较小的限制:</p><p>NASBench-201,搜索的网络架构的性能无法与最先进的设 计的CNN网络相比。但通过EGFA-NAS搜索的网络体系结构 的性能差异最小</p><p>(0.7%worseonCIFAR10,2.22%worseonCIFAR100,和4。与 其他竞争对手相比,ImageNet16-101搜索空间的性能比 ImageNet16-120差95%。此外,与所提出的EGFA-NAS相比 , 所有选定的同行竞争对手具有最好的效率。</p><p>请注意,表5中列出的竞争对手的搜索成本(GPU天数 ) 是从[23]中提取出来的。但是引用[23]并不指示结果属 于哪个数据集。通过在CIFAR10数据集上运行[23]提供的 代码,得到CIFAR10数据集的参数数。EGFANAS的搜索成本 (GPU天)分别是三个数据集在计算平台上计算的计算消 耗</p><p>一个NVIDIA GeForce RTX 3090 GPU卡。</p><p><strong>相对绩效评价的有效性</strong></p><p>由于NAS-Bench-201 [23]为每个候选架构提供的评估信息 , 在本节中,我们利用NAS-Bench-201提供的API获得绝对 (最终)性能评估(损失和准确性)搜索架构没有再培训 , 并验证EGFA-NAS采用的评估策略的有效性。图9显示了 相对性能评价与绝对性能评价在损失方面的比较。9a)和 准确性。9b)onCIFAR10.在图中。9“代表 ”代表相对表现 , 而“腹肌 ”代表绝对表现。在架构搜索阶段,在当前时 期的验证数据集上获得了搜索架构的相对性能。从图中的 结果来看。9,我们可以观察到,搜索架构的相对性能不 能与其绝对性能相比,这是因为在搜索阶段搜索的架构没 有得到充分的训练。图9说明了相对性能的变化趋势与搜 索到的架构的绝对性能是一致的。此外,我们可以观察到 , EGFA-NAS仅在前几个时代不够稳定,当时代数大于30时 , 可以实现性能稳定的体系结构。以上观察结果验证了所 采用的评价策略的有效性</p><p>由EGFA-NAS。</p><p>表5比较</p><p>在CIFAR10、CIFAR100和</p><p>ImageNet16120数据集上的分类 精度(%)和计算成本(GPU天)</p><p>的EGFA-NAS</p><table><tr><td><p>方法</p></td><td><p>搜索 策略</p></td><td><p>GPU 天</p></td><td><p>参数(M)</p></td><td><p>西法尔10</p></td><td><p>西法尔100</p></td><td><p>ImageNet16120</p></td></tr><tr><td><p>飞镖v1</p><p>[ 19]</p></td><td><p>gd</p></td><td><p>0.13</p></td><td><p>0.07a</p></td><td><p>54.30</p></td><td><p>15.61</p></td><td><p>16.32</p></td></tr><tr><td><p>飞镖v2</p><p>[ 19]</p></td><td><p>gd</p></td><td><p>0.41</p></td><td><p>0.07a</p></td><td><p>54.30</p></td><td><p>15.61</p></td><td><p>16.32</p></td></tr><tr><td><p>iDARTS</p><p>[51]</p></td><td><p>gd</p></td><td><p>–</p></td><td><p>–</p></td><td><p>93.58</p></td><td><p>70.83</p></td><td><p>40.89</p></td></tr><tr><td><p>SETN [50]</p></td><td><p>gd</p></td><td><p>0.35</p></td><td><p>0.41a</p></td><td><p>86.19</p></td><td><p>56.87</p></td><td><p>31.90</p></td></tr><tr><td><p>GDAS [20]</p></td><td><p>gd</p></td><td><p>0.33</p></td><td><p>1.2a</p></td><td><p>93.51</p></td><td><p>70.61</p></td><td><p>41.71</p></td></tr><tr><td><p>ENAS [18]</p></td><td><p>rl</p></td><td><p>0.15</p></td><td><p>0.07a</p></td><td><p>54.30</p></td><td><p>15.61</p></td><td><p>16.32</p></td></tr><tr><td><p>RSPS [22]</p></td><td><p>随机的</p></td><td><p>0.10</p></td><td><p>0.43a</p></td><td><p>87.66</p></td><td><p>58.33</p></td><td><p>31.44</p></td></tr><tr><td><p>EvNAS [52]</p></td><td><p>ea</p></td><td><p>0.26</p></td><td><p>–</p></td><td><p>92.18</p></td><td><p>66.74</p></td><td><p>39.00</p></td></tr><tr><td><p>最佳EGFA-</p></td><td><p>–</p></td><td><p>–</p></td><td><p>–</p></td><td><p><strong>94.37</strong></p></td><td><p><strong>73.51</strong></p></td><td><p><strong>47.31</strong></p></td></tr><tr><td><p>NAS</p></td><td><p><strong>埃格法</strong></p></td><td><p><strong>0.048</strong></p></td><td><p><strong>1.29</strong></p></td><td><p><strong>93.67</strong></p></td><td><p>–</p></td><td><p>–</p></td></tr><tr><td><p>egfanas</p></td><td><p><strong>埃格法</strong></p></td><td><p><strong>0.094</strong></p></td><td><p><strong>1.23</strong></p></td><td><p>–</p></td><td><p><strong>71.29</strong></p></td><td><p>–</p></td></tr><tr><td><p>egfanas</p></td><td><p><strong>埃格法</strong></p></td><td><p><strong>0.246</strong></p></td><td><p><strong>1.32</strong></p></td><td><p>–</p></td><td><p>–</p></td><td><p><strong>42.33</strong></p></td></tr></table><p>a通过运行由[23]公开发布的代码来计算的</p><img src="/media/202408//1724856294.454648.jpeg" /><table><tr><td></td></tr></table><p><strong>图</strong>9对EGFA-NAS搜索的体系结构的相对评价和绝对评价的比较</p><p><strong>权重继承策略的有效性</strong></p><p>ToimprovetheefficiencyofEGFA-</p><p>NASandreducethecomputational成本,我们提出了一个在 爆炸操作中的权重继承策略,如“爆炸操作和权重继承 ” 所述。具体来说,新产生的尘埃个体的参数w是继承自它 们的中心产生的。在本节中,我们试图通过在CIFAR10上 随机生成参数w来替换该策略来验证权重继承策略的有效 性,并且其他设置保持不变。为了更清楚地观察我们提出 的策略与随机生成参数w的方法之间的差异,我们在本实 验中将周期数设为300。这个</p><p>使用权值继承和随机生成参数w的方法对搜索的网络体系 结构的估计(相对)性能如图所示。10a和c,分别在准确 性和损失方面。通过这两种策略搜索的网络体系结构的最 终(绝对)性能如图所示。10b和d,分别在准确性和损失 方面。结果如图所示。10显示了两种策略的估计(相对) 性能之间有很大的差异。尽管这两种策略在CIFAR10上搜 索的体系结构的最终(绝对)性能相似,但使用所提出的 权重继承的EGFA-NAS可以比使用随机生成参数w的方法更 早地获得最佳的网络体系结构。此外,通过继承权重搜索 的体系结构的最终性能稍好一些(准确率为93.67%)</p><p><img src="/media/202408//1724856294.463664.jpeg" />复杂智能系统</p><table><tr><td></td><td></td><td></td></tr></table><p><strong>图</strong>10采用权值继承策略和随机生成参数w比较EGFA-NAS的性能 西法尔10</p><p>而不是采用随机生成参数w的方法(准确率为96.36%)。</p><p><strong>在飞镖搜索空间中的总体结果</strong></p><p>EGFA-NAS在飞镖搜索空间中发现的最优网络在分类精度和 计算成本(GPU天)方面的实验结果如表6所示。符号“- ”表示没有报告相应的结果。符号“* ”表示从[ 19]中提 取的结果。模式“a/b ”在</p><p>表5.4表示“a ”是CIFAR10和“b ”的结果</p><p>是CIFAR100的结果。大多数竞争对手的研究结果都是从原 始发表的论文中提取出来的。B = 6或8表示再训练阶段正 常阻滞中正常细胞的数量。以粗体突出显示的结果是由</p><p>EGFA-NAS搜索的架构的结果。</p><p>表6的结果显示,EGFA-NAS(B = 8) 比大多数最先进 的手工设计的CNN网络具有更好的性能,包括ResNet101、 ResNet + CutOut、SENet、IGCV3、洗牌Net、VGG和</p><p>WideResNet, butalittleworsethanDenseNet-BC</p><p>(1.05%on CIFAR100).与VGG相比,通过EGFA-NAS(B = 8 ) 搜索的最优网络架构对CIFAR100的性能提高了13.9%, 对CIFAR10的性能提高了3.89%。</p><p>与12种基于EA的NAS方法相比,EGFANAS(B = 8)的性 能优于分层EA、A、A、CGP-CNN、CNN-GA、AE-CNN、</p><p>AECNN+E2ENPP、AECNN EVo、SI-EvoNet和MOEAPS,但略低 于柠檬水(0。19%)和NSGA-Net(0.02%) 的CIFAR10。</p><p>EGFA-NAS(B = 8)在CIFAR100上达到了最好的分类准确 率(81.85%),并且比所有基于e1的NAS方法消耗了最小 的搜索成本(0.21 GPU天)。</p><p>与6种基于rl的NAS方法相比,埃及人(B = 8)的性能 比NASNet-A、NASNet-A +切割、BlockQNN、DPP-Net、</p><p>MetaQNN和ENAS更好,但在CIFAR10上略差于无代理NAS(0. 86%)。通过EGFA-NAS(B = 8)搜索的最优网络体系结构 的性能提高为4。CIFAR10为15%,CIFAR100为8.99%,</p><p>表6比较</p><p>EGFA-NAS在CIFAR10和CIFAR100 上的分类精度(%)和计算成本 (GPU天)</p><table><tr><td><p>方法</p></td><td><p>搜索 策略</p></td><td><p>GPU天数</p></td><td><p>参数 (M)</p></td><td><p>西法尔10</p></td><td><p>西法尔100</p></td></tr><tr><td><p>ResNet101 [10]</p></td><td><p>手册</p></td><td><p>–</p></td><td><p>1.7</p></td><td><p>93.57</p></td><td><p>74.84</p></td></tr><tr><td><p>ResNet +切断[10]</p></td><td><p>手册</p></td><td><p>–</p></td><td><p>1.7</p></td><td><p>95.39</p></td><td><p>77.90</p></td></tr><tr><td><p>DenseNet-BC [11]</p></td><td><p>手册</p></td><td><p>–</p></td><td><p>25.6</p></td><td><p>96.54</p></td><td><p>82.82</p></td></tr><tr><td><p>SENet [53]</p></td><td><p>手册</p></td><td><p>–</p></td><td><p>11.2</p></td><td><p>95.95</p></td><td><p>–</p></td></tr><tr><td><p>IGCV3 [54]</p></td><td><p>手册</p></td><td><p>–</p></td><td><p>2.2</p></td><td><p>94.96</p></td><td><p>77.95</p></td></tr><tr><td><p>ShuffleNet [55]</p></td><td><p>手册</p></td><td><p>–</p></td><td><p>1.06</p></td><td><p>90.87</p></td><td><p>77.14</p></td></tr><tr><td><p>VGG [1]</p></td><td><p>手册</p></td><td><p>–</p></td><td><p>28.05</p></td><td><p>93.34</p></td><td><p>67.95</p></td></tr><tr><td><p>宽ResNet [56]</p></td><td><p>手册</p></td><td><p>–</p></td><td><p>36.48</p></td><td><p>95.83</p></td><td><p>79.50</p></td></tr><tr><td><p>层次结构EA [15]</p></td><td><p>ea</p></td><td><p>300</p></td><td><p>61.3</p></td><td><p>96.37</p></td><td><p>–</p></td></tr><tr><td><p>AmoebaNet-A [16]</p></td><td><p>ea</p></td><td><p>3150</p></td><td><p>3.2</p></td><td><p>96.66</p></td><td><p>81.07</p></td></tr><tr><td><p>柠檬水[24]</p></td><td><p>ea</p></td><td><p>90</p></td><td><p>13.1</p></td><td><p>97.42</p></td><td><p>–</p></td></tr><tr><td><p>CGP-CNN [25]</p></td><td><p>ea</p></td><td><p>27</p></td><td><p>1.7</p></td><td><p>94.02</p></td><td><p>–</p></td></tr><tr><td><p>cnnga[26]</p></td><td><p>ea</p></td><td><p>35/40</p></td><td><p>2.9/4.1</p></td><td><p>96.78</p></td><td><p>79.47</p></td></tr><tr><td><p>[32]-cnn</p></td><td><p>ea</p></td><td><p>27/36</p></td><td><p>2.0/5.4</p></td><td><p>95.3</p></td><td><p>77.6</p></td></tr><tr><td><p>AE-CNN + E2EPP [33]</p></td><td><p>ea</p></td><td><p>7/10</p></td><td><p>4.3/20.9</p></td><td><p>94.7</p></td><td><p>77.98</p></td></tr><tr><td><p>LargeEvo [27]</p></td><td><p>ea</p></td><td><p>2750/2750</p></td><td><p>5.4/40.4</p></td><td><p>94.6</p></td><td><p>77.00</p></td></tr><tr><td><p>GeNet [31]</p></td><td><p>ea</p></td><td><p>–</p></td><td><p>–</p></td><td><p>94.61</p></td><td><p>74.88</p></td></tr><tr><td><p>SI-EvoNet [57]</p></td><td><p>ea</p></td><td><p>0.46/0.81</p></td><td><p>0.51/0.99</p></td><td><p>96.02</p></td><td><p>79.16</p></td></tr><tr><td><p>NSGA-Net [28]</p></td><td><p>ea</p></td><td><p>4/8</p></td><td><p>3.3/3.3</p></td><td><p>97.25</p></td><td><p>79.26</p></td></tr><tr><td><p>MOEA-PS [58]</p></td><td><p>ea</p></td><td><p>2.6/5.2</p></td><td><p>3.0/5.8</p></td><td><p>97.23</p></td><td><p>81.03</p></td></tr><tr><td><p>NASNet-A [17]</p></td><td><p>rl</p></td><td><p>2000</p></td><td><p>3.3</p></td><td><p>96.59</p></td><td><p>–</p></td></tr><tr><td><p>NASNet-+裁断[17]</p></td><td><p>rl</p></td><td><p>2000</p></td><td><p>3.1</p></td><td><p>97.17</p></td><td><p>–</p></td></tr><tr><td><p>无氧NAS [34]</p></td><td><p>rl</p></td><td><p>1500</p></td><td><p>5.7</p></td><td><p>97.92</p></td><td><p>–</p></td></tr><tr><td><p>BlockQNN [35]</p></td><td><p>rl</p></td><td><p>96</p></td><td><p>39.8</p></td><td><p>96.46</p></td><td><p>–</p></td></tr><tr><td><p>DPP网[59]</p></td><td><p>rl</p></td><td><p>8</p></td><td><p>0.45</p></td><td><p>94.16</p></td><td></td></tr><tr><td><p>MetaQNN [60]</p></td><td><p>rl</p></td><td><p>90</p></td><td><p>11.2</p></td><td><p>93.08</p></td><td><p>72.86</p></td></tr><tr><td><p>ENAS [18]</p></td><td><p>rl</p></td><td><p>0.5</p></td><td><p>4.6</p></td><td><p>97.06</p></td><td><p>–</p></td></tr><tr><td><p>ENAS [18]*</p></td><td><p>rl</p></td><td><p>4</p></td><td><p>4.2</p></td><td><p>97.09</p></td><td><p>–</p></td></tr><tr><td><p>飞镖-V1+切断[19]</p></td><td><p>gd</p></td><td><p>1.5</p></td><td><p>3.3</p></td><td><p>97.00</p></td><td></td></tr><tr><td><p>飞镖-V2+切断[19]</p></td><td><p>gd</p></td><td><p>4</p></td><td><p>3.4</p></td><td><p>97.18</p></td><td><p>82.46</p></td></tr><tr><td><p>直流飞镖[38]</p></td><td><p>gd</p></td><td><p>1</p></td><td><p>0.43</p></td><td><p>95.83</p></td><td></td></tr><tr><td><p>SNAS [21]</p></td><td><p>gd</p></td><td><p>1.5</p></td><td><p>2.8</p></td><td><p>97.15</p></td><td><p>–</p></td></tr><tr><td><p>PNAS [40]</p></td><td><p>少数民族 事物办公 室</p></td><td><p>225</p></td><td><p>3.2</p></td><td><p>96.37</p></td><td><p>80.47</p></td></tr><tr><td><p>EGFA-NAS(B = 6)</p></td><td><p><strong>埃格法</strong></p></td><td><p><strong>0.21/0.4</strong></p></td><td><p><strong>2.56/2.15</strong></p></td><td><p><strong>96.57</strong></p></td><td><p><strong>80.08</strong></p></td></tr><tr><td><p>EGFA-NAS(B = 8)</p></td><td><p><strong>埃格法</strong></p></td><td><p><strong>0.21/0.4</strong></p></td><td><p><strong>3.47/2.88</strong></p></td><td><p><strong>97.23</strong></p></td><td><p><strong>81.85</strong></p></td></tr></table><p>*从参考文献[19]中提取</p><p>与MetaQNN相比。与ENAS相比,所提出的EGFA-NAS(B = 8 ) 具有最好的效率,甚至消耗最少的GPU天,在已发表的 论文中,CIFAR10只消耗0.5个GPU天。</p><p>与四种基于gd的NAS方法和PNAS相比,EGFA-NAS(B =</p><p>8)的性能优于</p><p>飞镖-V1+削减 ,rc-飞镖 ,和SNAS ,但略差于飞镖- V2+削减( 0.61%) 在CIFAR100 。 虽然基于gd的NAS方 法通常比基于ea和基于rl的方法有更好的效率,但我们的 支持</p><p>与所有选择的基于gd的NAS方法相比,提出的EGFA-NAS(B = 8)具有最好的效率。</p><p>此外,在再训练阶段,当在正常块中设置更多的细胞 时,EGFA-NAS可以获得更好的最终学习精度,但会导致更 多的参数。表6中的总体结果表明,该EGFA-NAS不仅具有 竞争性的学习精度,而且具有最好的效率</p><p>四种竞争对手。</p><p><strong>结论</strong></p><p>本文提出了一种基于EGFA的有效的基于种群的NAS方法,</p><p>称为EGFA-NAS,该方法可以实现具有竞争性学习精度的最 优神经结构,但计算成本较小。具体来说,EGFA-NAS将 离散的搜索空间松弛为一个连续的搜索空间,然后同时</p><p>利用EGFA和梯度</p><p>descenttooptimizetheweightsofthecandidatearchi tectures 。所提出的EGFA-NAS的训练和权重继承策略大 大降低了计算成本。在NAS-Bench-201和飞镖两个典型微 搜索空间的实验结果表明,EGFA-NAS在图像分类任务上能 够匹配或优于现有的NAS方法,具有显著的效率提高。具 体来说,对于</p><p>searchtheCIFAR10onthecomputationalplatformwithone NVIDIA GeForce RTX 3090 GPU卡,EGFA-NAS在NAS-Bench -201搜索空间中获得最优神经结构,准确率为93.67%,但 只消耗0.048 GPU天,在飞镖搜索空间中发现最优神经结 构,准确率为97.23%,成本为0.21 GPU天。</p><p>虽然EGFA-NAS在自动设计高性能的神经网络方面很有 前景,但它仍有一个局限性。与其他使用低保真度评估策 略的NAS方法类似,EGFA-NAS在搜索阶段采用的相对评估 可能会导致缺少一些有前途的体系结构。在未来的工作中 , 我们将尝试为轻量级NAS设计一个更好的、具有更好的</p><p>排名一致性的评估策略。</p><p><strong>这项工作得到了国家自然基金会的支持</strong></p><p>国家科学基金项目。62072212),中国吉林省土地开发项目(编号为 。20220508125RC ,20230201065GX) ,吉林省大数据智能认 知重点实验室(no 。20210504003GH).</p><p><strong>数据可用性数据将根据要求提供。</strong> <strong>声明</strong></p><p>利益冲突,通讯作者代表所有作者声明,不存在利益冲突。</p><p>开放获取本文授权在知识共享署名4.0国际许可,允许使用、共享、 适应、分布和复制在任何媒介或格式,只要你给适当的信贷原作者 (s)和来源,提供一个链接到知识共享许可,并表明如果有变化。本 文中的图片或其他第三方材料都包含在文章的知识共享许可中,除 非在材料的信用额度中另有说明。如果材料不包括在文章的知识共 享许可中,并且您的预期使用不被法律法规允许或超过</p><p>许可,youwillneedtoobtainpermissiondirectlyfromthecopyright 持有人。要查看此许可证的副本,请访问http://创意载体网站。</p><p>org/licenses/by/4.0/.</p><p><strong>参考文献</strong></p><p>1. 齐瑟曼A(2015)用于大规模图像识别的深度卷积网络。arXiv 预印本,arXiv: 1409.1556</p><p>2.Huang G,Sun Y,Liu Z等人(2016)具有随机深度的深度网络 。在: Leibe B,Matas J,Sebe N,焊接M(eds)计算机视觉</p><p>-ECCV2016。施普林格国际出版公司,中国商会,第646-661页 3 . (2012)用于图像分类的多柱深度神经网络。见:IEEE计算机</p><p>视觉国际会议论文集。CVPR,普罗维登斯,第3642-3649页 4.(2017)深度卷积神经网络分类。CommunACM60:84-90。</p><p><a href="https://doi.org/10.1145/3065386">https://doi.org/10.1145/3065386</a></p><p>5.(2015)。见:IEEE计算机视觉国际会议论文集。ICCV, pp 1440 – 1448</p><p>6.赵Z,郑P,徐S(2019)深度学习的对象检测:综述。IEEE跨神 经Netw学习系统30 :3212-3232。</p><p><a href="https://doi.org/10.1109/TNNLS.2018.2876865">https://doi.org/10.1109/TNNLS.2018.2876865</a></p><p>7.Zoph B,Le QV(2017)利用强化学习的神经结构搜索。arXiv 预印本,arXiv :1611.01578</p><p>8 .P(2019)医学图像分割的深度学习技术:成就和挑战。J数字 成像32 :582-596 。https://doi.org/10.1007/ s10278-019 -00227-x</p><p>9 . ῠU(2020)理解图像分割的深度学习技术。ACMComputSurv52 :1-35。https://doi.org/10.1145/3329784</p><p>1 0 . 贺克,张九,RenS,等(2016)负责图像识别的学习。见:</p><p>IEEE计算机视觉和模式识别会议论文集。CVPR, pp 770 – 778</p><p>11.黄G、Liu Z、Van Der Maaten L等人(2017)密集连通卷积网络 。见:IEEE计算机视觉和模式识别会议论文集。pp 4700 –</p><p>4708</p><p>12.Praczyk T(2016)合作协同进化神经网络。如果30:2843-</p><p>2858。https://doi.org/10.3233/IFS-162095</p><p>13.COVNET:一种用于进化人工神经网络的合作协同进化模型。</p><p>IEEETransNeuralNetw14:575 –596.https:// doi.org/10.1109/TNN.2003.810618</p><p>14.姚X(1999)正在进化中的人工神经网络。项目IEEE87: 1423- 1447。https://doi.org/10.1109/5.784219</p><p>15.Liu H,Simonyan K,Vinyals O,等人(2018)高效架构搜索 的层次表示。arXiv预印本,arXiv: 1711.00436</p><p>16.Real E,Aggarwal A,黄Y,Le QV(2019)图像分类器架构搜 索的正则化演化。AAAI33:4780-4789。</p><p><a href="https://doi.org/10.1609/aaai.v33i01.33014780">https://doi.org/10.1609/aaai.v33i01.33014780</a></p><p>17.J,Le QV(2018)学习可扩展图像识别的可转移架构。在:诉 讼程序,</p><p>oftheIEEEconferenceoncomputervisionandpatternrecognitio n.CVPR, pp 8697 –8710</p><p>18.Pham H,Guan M,Zoph B,等人(2018)通过参数共享进行高效 的神经结构搜索。参见:第35届机器学习国际会议论文集。</p><p>PMLR, pp 4095 – 4104</p><p>19.Liu H,Simonyan K,Yang Y(2019)飞镖:可区分架构搜索。</p><p>arXiv预印本,arXiv :1806.09055</p><p>20.Dong X,Yang Y(2019)在4个gpu小时内寻找一个健壮的神经 结构。见:IEEE计算机视觉国际会议论文集。CVPR, pp 1761 – 1770</p><p>21.谢S,郑H,刘C,Lin L(2020)SNAS:随机神经结构搜索。</p><p>arXiv预印本,arXiv :1812.09926</p><p>22.神经结构搜索的随机搜索和再现性。第35届人工智能不确定性 会议论文集。PMLR, pp 367 –377</p><p>23.Dong X,Yang Y(2020)NAS-Bench-201:扩展可重复的神经结 构搜索的范围。arXiv预印本,arXiv: 2001.00326</p><p>24.ElskenT,HutterF(2019)通过拉马克进化的高效多目标神经 结构搜索。arXiv预印本,arXiv:1804.09081</p><p>25.T(2017)一种设计卷积神经网络结构的遗传编程方法。见:遗 传和进化计算会议论文集。ACM ,柏林,第497-504页</p><p>26.Sun Y,Xue B,Zhang M等人(2020)使用遗传算法自动设计CNN 架构。IEEETransCybern50:3840 –</p><p>3854.<a href="https://doi.org/10.1109/TCYB.2020.2983860">https://doi.org/10.1109/TCYB.2020.2983860</a></p><p>27.Real E,Moore S,Selle A等人(2017)图像分类器的大规模 演化。见:第34届机器学习国际会议论文集。PMLR, pp 2902 –2911</p><p>28.NSGA-Net:使用多目标遗传算法进行神经结构搜索。见:遗传和 进化计算会议论文集。ACM,布拉格,第419-427页</p><p>29.胡X,黄L,王Y,庞W(2019)爆炸引力场算法与粉尘采样进行 无约束优化。AppleSoftComput81:105500。</p><p><a href="https://doi.org/10.1016/j..2019.asoc">https://doi.org/10.1016/j..2019.asoc</a> 105500</p><p>30.Gould S,费尔南多B,Cherian A等(2016)关于参数化精精问 题和精精问题在双级优化中的应用。arXiv :1607.05447</p><p>31.谢L,Yuille A(2017)基因CNN。见:IEEE计算机视觉国际会 议论文集。ICCV, pp 1379 – 1388</p><p>32.孙Y,薛B,Zhang M,Yen GG(2020)完全自动化了基于块的 CNN架构设计。学习系统31:1242-1254。</p><p><a href="https://doi.org/10..2019.1109/TNNLS">https://doi.org/10..2019.1109/TNNLS</a> 2919608</p><p>33.孙Y、王H、Xue B等人(2020)使用基于端到端随机森林的性能 预测器的代理辅助进化深度学习。IEEE跨EvolComput24:</p><p>350-364 。https:// doi.org/10.1109/TEVC1.2019.292446</p><p>34.韩S(2019)代理神经网络:在目标任务和硬件上的直接神经结 构搜索。arXiv预印本,arXiv: 1812.00332</p><p>35.钟Z、Yang Z、Deng B等人(2021)BlockQNN:高效的块状神经 网络架构生成。IEEE反式肛门43:2314-2328。</p><p><a href="https://doi.org/10.1109/TPAMI.2020.2969193">https://doi.org/10.1109/TPAMI.2020.2969193</a></p><p>3 6 . 楚,王克,张伯,等(2021)飞镖-:稳健走出没有指标的性能 崩溃。arXiv预印本,</p><p>arXiv :2009.01027</p><p>37.梁H,Zhang S,Sun J,等人(2020)飞镖+:改进的可微分架 构搜索与早期停止。arXiv预印本,</p><p>arXiv :1909.06035</p><p>38.Jin X,Wang J,Slocum J,等人(2019)rc-飞镖:资源约束 可微分架构搜索。arXiv预印本,arXiv: 1912.12814</p><p>39.Ye P,Li B,Li Y,等人(2022) β-DARTS:可微体系结构搜索 的贝塔衰变正则化。在:继续参加ieeeee的计算机视觉和模式 识别会议。CVPR,</p><p>新奥尔良,洛杉矶,美国,第10864-10873页。</p><p><a href="https://doi.org/10.1109/">https://doi.org/10.1109/</a> CVPR52688.2022.01060</p><p>40.LiuC,ZophB,NoumannM等人(2018)渐进式神经结构搜索。见 :欧洲计算机视觉会议论文集。ECCV, pp 19 – 34</p><p>4 1 . (2010)重力场研究了该算法在基因簇中的应用。算法Mol Biol 5:32。https:// doi.org/10.1186/1748-7188-5-32</p><p>42.Zheng M,Sun Y,Liu G等人(2012)改进的重力场算法及其在 层次聚类中的应用。PLoS17:e49039。</p><p><a href="https://doi.org/10.1371/journal.pone.0049039">https://doi.org/10.1371/journal.pone.0049039</a></p><p>43.郑M,吴J,黄Y等人(2012)通过奇异值分解和引力场算法推断 基因调控网络。PLoS17:e51141。</p><p><a href="https://doi.org/10.1371/journal.pone.0051141">https://doi.org/10.1371/journal.pone.0051141</a></p><p>44 . 萨夫罗诺夫VS(1972)原行星云的演化和地球和行星的形成。 以色列科学翻译计划,耶路撒冷</p><p>45.EGFAFS:一种新的基于爆炸万有引力场算法的特征选择算法。熵 24:873。https://doi.org/10.3390/e24070873</p><p>46.Real E,Moore S,Selle A,等人(2017)图像分类器的大规模 进化。在:机器学习国际会议。PMLR, pp 2902 –2911</p><p>47.KrizheveskA,HintonG(2009)从微小的图像中学习多层特征 。7.</p><p>48.作为CIFAR数据集替代品的ImageNet的降采样变体。arXiv预印 本,arXiv:1707.08819</p><p>49.Zhang Z,Sabuncu M(2018)用有噪声标签训练深度神经网络 的广义交叉熵损失。辅助神经输入过程系统。31.</p><p>50.Dong X,Yang Y(2019)通过自评估模板网络进行一次性神经 结构搜索。见:IEEE计算机视觉国际会议论文集。ICCV, pp 3681 – 3690</p><p>51.张M,Su SW,Shirui P等人(2021)iDARTS:具有随机隐式梯 度的可微分架构搜索。见:第38届机器学习国际会议论文集。 PMLR, pp 12557 – 12566</p><p>52.(2021)利用一次性模型进化神经结构。见:遗传和进化计算 会议论文集。ACM ,法国里尔出版社,第910-918页</p><p>53.Jie H,Li S,Gang S(2018)挤压与激励网络。在:</p><p>ProceedingsoftheIEEEconferenceoncomputervisionandp attern识别。CVPR, pp 7132 – 7141</p><p>54.王J(2018)IGCV3:高效深度神经网络的交叉低秩组卷积。</p><p>arXiv预印本,arXiv:1806.00178</p><p>55. shufflenet(2018):一种非常高效的移动设备卷积神经网络 。见:IEEE计算机视觉和模式识别会议论文集。CVPR, pp</p><p>6848 – 6856</p><p>5 6 . ZagoruykoS, KomodakisN (2017)WideResidualNetworks.arXiv 预印本,arXiv:1605.07146</p><p>57.Zhang H,Jin Y,程R,Hao K(2021)高效进化</p><p>searchofattentionconvolutionalnetworksviasampledtra in ingand节点遗传。IEEE反式Evol输出25 :371-385。</p><p>https:// doi.org/10.1109/TEVC2.2020.304027</p><p>58.薛Y,ChenC,Słowik A(2023)基于概率叠加的多目标进化算法 。IEEE反comput27:778-786。https://doi.org/10.1109/</p><p>TEVC2.2023.325261</p><p>59.C,JuanD等(2018)DPP-Net:设备感知渐进搜索帕累托最优神 经结构。见:欧洲计算机视觉会议论文集。ECCV, pp 517 –</p><p>531</p><p>60.Raskar R(2017)设计了使用强化学习的神经网络架构。arXiv 预印本,</p><p>arXiv :1611.02167</p><p>61.邓J,东W,Socher R,等(2009)ImageNet:一个大规模的分层 图像数据库。见:IEEE计算机视觉国际会议论文集。CVPR ,迈 阿密,第248-255页</p><p>62.Fan L,Wang H(2022)基于网络嵌入的替代辅助进化神经结构 搜索。复杂的Intell系统。</p><p><a href="https://doi.org/10.1007/s40747-022-00929-w">https://doi.org/10.1007/s40747-022-00929-w</a></p><p>出版商的笔记施普林格自然保持中立的管辖权主张在出版的地图和 机构附属。</p>
刘世财
2024年8月28日 22:44
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
HTML文件
PDF文档(打印)
分享
链接
类型
密码
更新密码