神經(jīng)網(wǎng)絡架構搜索——可微分搜索(Cyclic-DARTS)
本文為微軟研究院的NAS工作,論文題目:Cyclic Differentiable Architecture Search。 傳統(tǒng)的DARTS在淺層網(wǎng)絡(8 Cell)中搜索最優(yōu)架構维蒙,然后在深層評價網(wǎng)絡(20 Cell)中測量其性能姥宝。這導致架構搜索的優(yōu)化與目標評價網(wǎng)絡無關,發(fā)現(xiàn)的架構是次優(yōu)的。針對搜索網(wǎng)絡和評價網(wǎng)絡的GAP問題桑滩,提出了一種新型的循環(huán)可微分架構搜索框架(CDARTS)剥汤,在搜索網(wǎng)絡和評價網(wǎng)絡之間建立了循環(huán)反饋機制颠放,并在CIFAR、ImageNet 和 NAS-Bench-201 上的實驗和分析證明了所提出的方法的有效性吭敢。
摘要
近來碰凶,可微分架構搜索因其高效率、高性能的競爭優(yōu)勢引起了人們的極大關注鹿驼。它在淺層網(wǎng)絡中搜索最優(yōu)架構欲低,然后在深層評價網(wǎng)絡中測量其性能。這導致架構搜索的優(yōu)化與目標評價網(wǎng)絡無關畜晰,發(fā)現(xiàn)的架構是次優(yōu)的砾莱。為了解決這個問題,本文提出了一種新型的循環(huán)可微分架構搜索框架(CDARTS)凄鼻±吧考慮到結構差異,CDARTS 在搜索網(wǎng)絡和評價網(wǎng)絡之間建立了循環(huán)反饋機制块蚌。首先闰非,搜索網(wǎng)絡生成一個初始拓撲進行評估,這樣可以優(yōu)化評價網(wǎng)絡的權重峭范。其次财松,搜索網(wǎng)絡中的架構拓撲通過分類中的標簽監(jiān)督,以及來自評價網(wǎng)絡的正則化通過特征提煉進一步優(yōu)化纱控。重復上述循環(huán)辆毡,搜索網(wǎng)絡和評價網(wǎng)絡共同優(yōu)化菜秦,從而實現(xiàn)拓撲結構的進化,以適應最終的評價網(wǎng)絡胚迫。在CIFAR喷户、ImageNet 和 NAS-Bench-201 上的實驗和分析證明了所提出的方法的有效性。
方法
預訓練
這一階段的目標是分別對搜索網(wǎng)絡和評估網(wǎng)絡進行預訓練访锻,并使其對數(shù)據(jù)產(chǎn)生適應性褪尝。具體來說,對于搜索網(wǎng)絡,在訓練前隨機初始化架構超參數(shù) 雹顺。然后吞杭,在訓練數(shù)據(jù)上優(yōu)化權重
,如下所示:
其中 為損失函數(shù)璃谨,
表示搜索網(wǎng)絡的權重。對于圖像分類問題鲤妥,我們將
定義為交叉熵損失佳吞。
對于評估網(wǎng)絡來說,其內(nèi)部單元結構是通過對學習到的超參數(shù) 進行離散化生成的棉安。評估網(wǎng)絡的預訓練是在val數(shù)據(jù)集下底扳,通過優(yōu)化以下目標函數(shù)進行的:
聯(lián)合學習
在這個優(yōu)化階段,搜索算法通過知識提煉贡耽,利用評價網(wǎng)絡的特征反饋更新架構超參數(shù)衷模。更具體地說,兩個網(wǎng)絡的聯(lián)合優(yōu)化公式為:
其中蒲赂,最小化是在搜索網(wǎng)絡中以固定權重
優(yōu)化架構超參數(shù)
阱冶,
是在評估網(wǎng)絡中以固定架構
優(yōu)化權重
,
可以實現(xiàn)從評價網(wǎng)絡到搜索網(wǎng)絡的知識轉移滥嘴。
采用從評價網(wǎng)絡中得到的評價特征作為監(jiān)督信號木蹬,引導搜索網(wǎng)絡中架構超參數(shù)
的更新。它是由一個軟目標交叉熵函數(shù)構成:
其中 N 為訓練樣本數(shù)氏涩,T 為溫度系數(shù)(設為2)届囚。這里,p(·)和q(·)分別代表評價網(wǎng)絡和搜索網(wǎng)絡的輸出特征對數(shù)(output feature logits)是尖,每個特征對數(shù)都計算為特征對數(shù)的軟目標分布意系,如下公式所示:
其中 和
分別表示搜索網(wǎng)絡和評價網(wǎng)絡產(chǎn)生的特征。
- 公式 (3) 的聯(lián)合訓練實現(xiàn)了兩個網(wǎng)絡之間的知識轉移饺汹。
- 公式 (4) 的優(yōu)化通過提煉評價網(wǎng)絡的特征知識蛔添,以指導搜索網(wǎng)絡中架構超參數(shù)的更新。
此外,DARTS算法搜索出的結果存在 skip-connect 富集的問題迎瞧,因為跳連可以實現(xiàn)快速的梯度下降夸溶。這本質(zhì)上是一種架構搜索的過度擬合。為了解決這個問題凶硅,本文建議對架構超參數(shù)α中的跳連操作的權重施加 L1 正則化:
其中缝裁, 代表 l1正則,λ′ 為正的權衡系數(shù)足绅。最后將式(3)與式(6)共同作為輔助項進行優(yōu)化捷绑,以避免過度擬合。
值得注意的是氢妈,在評價網(wǎng)絡的預訓練過程中粹污,即 公式(2)中,我們采用權值共享的策略來更新權重 首量,以緩解訓練不足的問題壮吩。具體來說,當離散化架構超參數(shù)
更新時加缘,評價網(wǎng)絡的架構也會相應改變鸭叙。新的評價網(wǎng)絡的權重是用之前訓練中繼承的參數(shù)初始化的。換句話說拣宏,評估網(wǎng)絡有一個 one-shot 的模型递雀,它在有共同邊的架構之間共享權重。這加快了新評估網(wǎng)絡的收斂速度蚀浆,從而提升了其在特征表示上的能力。這種權重共享策略與 single-path-one-shot 的方法不同搜吧,single-path-one-shot的方法是通過隨機抽樣來選擇架構市俊。相比之下,我們的方法選擇架構由搜索網(wǎng)絡進行優(yōu)化滤奈,這就緩解了之前方法中訓練不平衡的問題摆昧。
網(wǎng)絡架構
Cyclic-DARTS的網(wǎng)絡結構如上圖所示。它由兩個分支組成:一個有8個堆疊單元的搜索網(wǎng)絡和一個有20個單元的評估網(wǎng)絡蜒程。搜索網(wǎng)絡和評估網(wǎng)絡與之前的DARTS方法是相同的架構绅你。
S-Net -> E-Net
對于信息傳輸,本文在兩個分支之間建立了連接昭躺。更具體地說忌锯,有一個拓撲傳輸路徑將發(fā)現(xiàn)的 Cell 架構從搜索分支傳遞到評估分支,上圖中呈現(xiàn)的頂部粗箭頭線领炫。請注意偶垮,由于搜索空間的連續(xù)松弛,搜索網(wǎng)絡發(fā)現(xiàn)的單元結構是一個全連接的圖。換句話說似舵,所有的候選操作都應用于計算圖中每個節(jié)點的特征脚猾。當使用這種連續(xù)單元結構來構建新的評價網(wǎng)絡時,我們需要先進行離散化處理砚哗。與之前 DARTS 工作相同龙助,只保留之前所有節(jié)點收集到的所有候選操作中的 top-k(k = 2)最強操作。這個導出的離散單元結構作為評估分支的基本構件蛛芥。
E-Net -> S-Net
另一方面提鸟,還有另一條特征提煉路徑將評價分支的特征反饋傳遞給搜索分支,如上圖中底部實心箭頭所示常空。該反饋作為搜索網(wǎng)絡的監(jiān)督信號沽一,以找到更好的單元結構。在細節(jié)上漓糙,本文使用評價網(wǎng)絡的多級特征作為反饋信號铣缠,因為它們在捕捉圖像語義上具有代表性。如上圖所示的橫向嵌入連接昆禽,多級特征將低分辨率蝗蛙、語義強的特征與高分辨率、語義弱的特征結合起來醉鳖。這些特征來自于各階段的輸出捡硅,然后通過嵌入模塊生成對應的特征對數(shù)。嵌入模塊的功能是將密集的特征圖投影到低維子空間中盗棵,通過軟交叉熵層將得到的評價網(wǎng)絡的對數(shù)作為搜索網(wǎng)絡的監(jiān)督信號壮韭,如公式(4)。
算法偽代碼
實驗
NAS-Bench-201
CIFAR
ImageNet
消融實驗
組件分析
相關性分析
評估網(wǎng)絡的深度
由于GPU內(nèi)存的限制纹因,DARTS的搜索網(wǎng)絡只能堆疊 8 個單元喷屋,而評估網(wǎng)絡則包含 20 個單元。 這帶來了在PDARTS中研究的所謂的深度差距問題瞭恰。 本文證明了在 Cycle-DARTS 的方法中不存在這種問題屯曹,因為將搜索和評估集成到一個統(tǒng)一的體系結構中。 如下所示惊畏,本文比較了評估網(wǎng)絡中不同數(shù)量單元的性能恶耽。 它清楚地表明 20 單元評估網(wǎng)絡(紅線)的性能優(yōu)于8單元網(wǎng)絡(綠線)。 提出的兩個網(wǎng)絡的聯(lián)合訓練可以減輕深度差距的影響颜启。
搜索輪數(shù)的影響
從上圖可以看出偷俭,當搜索時期數(shù)接近 30 時,性能趨于飽和农曲,評估網(wǎng)絡的結構也趨于穩(wěn)定社搅。 因此驻债,在實驗中將搜索輪數(shù)設置為 30。
總結
在這項工作中形葬,受 DARTS 中搜索和評估網(wǎng)絡的分離問題的影響合呐,提出了一種循環(huán)可微搜索算法,該算法將兩個網(wǎng)絡集成到一個統(tǒng)一的體系結構中笙以。 交替聯(lián)合學習使得能夠搜索架構以適合最終評估網(wǎng)絡淌实。 實驗證明了所提算法和搜索架構的有效性,它們在CIFAR猖腕,ImageNet和NAS-Bench-201上均具有競爭性能拆祈。