神經(jīng)網(wǎng)絡架構搜索——可微分搜索(Cyclic-DARTS)

神經(jīng)網(wǎng)絡架構搜索——可微分搜索(Cyclic-DARTS)

本文為微軟研究院的NAS工作,論文題目:Cyclic Differentiable Architecture Search。 傳統(tǒng)的DARTS在淺層網(wǎng)絡(8 Cell)中搜索最優(yōu)架構维蒙,然后在深層評價網(wǎng)絡(20 Cell)中測量其性能姥宝。這導致架構搜索的優(yōu)化與目標評價網(wǎng)絡無關,發(fā)現(xiàn)的架構是次優(yōu)的。針對搜索網(wǎng)絡和評價網(wǎng)絡的GAP問題桑滩,提出了一種新型的循環(huán)可微分架構搜索框架(CDARTS)剥汤,在搜索網(wǎng)絡和評價網(wǎng)絡之間建立了循環(huán)反饋機制颠放,并在CIFAR、ImageNet 和 NAS-Bench-201 上的實驗和分析證明了所提出的方法的有效性吭敢。

摘要

近來碰凶,可微分架構搜索因其高效率、高性能的競爭優(yōu)勢引起了人們的極大關注鹿驼。它在淺層網(wǎng)絡中搜索最優(yōu)架構欲低,然后在深層評價網(wǎng)絡中測量其性能。這導致架構搜索的優(yōu)化與目標評價網(wǎng)絡無關畜晰,發(fā)現(xiàn)的架構是次優(yōu)的砾莱。為了解決這個問題,本文提出了一種新型的循環(huán)可微分架構搜索框架(CDARTS)凄鼻±吧考慮到結構差異,CDARTS 在搜索網(wǎng)絡和評價網(wǎng)絡之間建立了循環(huán)反饋機制块蚌。首先闰非,搜索網(wǎng)絡生成一個初始拓撲進行評估,這樣可以優(yōu)化評價網(wǎng)絡的權重峭范。其次财松,搜索網(wǎng)絡中的架構拓撲通過分類中的標簽監(jiān)督,以及來自評價網(wǎng)絡的正則化通過特征提煉進一步優(yōu)化纱控。重復上述循環(huán)辆毡,搜索網(wǎng)絡和評價網(wǎng)絡共同優(yōu)化菜秦,從而實現(xiàn)拓撲結構的進化,以適應最終的評價網(wǎng)絡胚迫。在CIFAR喷户、ImageNet 和 NAS-Bench-201 上的實驗和分析證明了所提出的方法的有效性。

image

方法

預訓練

這一階段的目標是分別對搜索網(wǎng)絡和評估網(wǎng)絡進行預訓練访锻,并使其對數(shù)據(jù)產(chǎn)生適應性褪尝。具體來說,對于搜索網(wǎng)絡,在訓練前隨機初始化架構超參數(shù) \alpha雹顺。然后吞杭,在訓練數(shù)據(jù)上優(yōu)化權重 w_{S},如下所示:

w_{S}^{*}=\underset{w_{S}}{\arg \min } \mathcal{L}_{t r a i n}^{S}\left(w_{S}, \alpha\right) \qquad (1)

其中 \mathcal{L}_{t r a i n}^{S} 為損失函數(shù)璃谨,w_{S}^{*} 表示搜索網(wǎng)絡的權重。對于圖像分類問題鲤妥,我們將 \mathcal{L}_{t r a i n}^{S} 定義為交叉熵損失佳吞。

對于評估網(wǎng)絡來說,其內(nèi)部單元結構是通過對學習到的超參數(shù) \alpha 進行離散化生成的棉安。評估網(wǎng)絡的預訓練是在val數(shù)據(jù)集下底扳,通過優(yōu)化以下目標函數(shù)進行的:

w_{E}^{*}=\underset{w_{E}}{\arg \min } \mathcal{L}_{v a l}^{E}\left(w_{E}, \bar{\alpha}\right) \qquad (2)

聯(lián)合學習

在這個優(yōu)化階段,搜索算法通過知識提煉贡耽,利用評價網(wǎng)絡的特征反饋更新架構超參數(shù)\alpha衷模。更具體地說,兩個網(wǎng)絡的聯(lián)合優(yōu)化公式為:

\begin{aligned} \alpha^{*}, w_{E}^{*}=\underset{\alpha, w_{E}}{\arg \min } \mathcal{L}_{v a l}^{S}\left(w_{S}^{*}, \alpha\right)+\mathcal{L}_{v a l}^{E}\left(w_{E}, \bar{\alpha}\right) +\lambda \mathcal{L}_{v a l}^{S, E}\left(w_{S}^{*}, \alpha, w_{E}, \bar{\alpha}\right) \end{aligned} \qquad (3)

其中蒲赂,最小化\mathcal{L}_{v a l}^{S}\left(w_{S}^{*}, \alpha\right)是在搜索網(wǎng)絡中以固定權重 w_{S}^{*} 優(yōu)化架構超參數(shù) \alpha阱冶,\mathcal{L}_{v a l}^{E}\left(w_{E}, \bar{\alpha}\right) 是在評估網(wǎng)絡中以固定架構 \alpha 優(yōu)化權重 w_{E}\mathcal{L}_{v a l}^{S, E}\left(w_{S}^{*}, \alpha, w_{E}, \bar{\alpha}\right) 可以實現(xiàn)從評價網(wǎng)絡到搜索網(wǎng)絡的知識轉移滥嘴。\mathcal{L}_{v a l}^{S, E}(\cdot) 采用從評價網(wǎng)絡中得到的評價特征作為監(jiān)督信號木蹬,引導搜索網(wǎng)絡中架構超參數(shù) \alpha 的更新。它是由一個軟目標交叉熵函數(shù)構成:

\mathcal{L}_{v a l}^{S, E}\left(w_{S}^{*}, \alpha, w_{E}, \bar{\alpha}\right)=\frac{T^{2}}{N} \sum_{i=1}^{N}\left(p\left(w_{E}, \bar{\alpha}\right) \log \left(\frac{p\left(w_{E}, \bar{\alpha}\right)}{q\left(w_{S}^{*}, \alpha\right)}\right)\right) \qquad (4)

其中 N 為訓練樣本數(shù)氏涩,T 為溫度系數(shù)(設為2)届囚。這里,p(·)和q(·)分別代表評價網(wǎng)絡和搜索網(wǎng)絡的輸出特征對數(shù)(output feature logits)是尖,每個特征對數(shù)都計算為特征對數(shù)的軟目標分布意系,如下公式所示:

\begin{aligned} p\left(w_{E}, \bar{\alpha}\right) &=\frac{\exp \left(f_{i}^{E} / T\right)}{\sum_{j} \exp \left(f_{j}^{E} / T\right)} \\ q\left(w_{S}^{*}, \alpha\right) &=\frac{\exp \left(f_{i}^{S} / T\right)}{\sum_{j} \exp \left(f_{j}^{S} / T\right)} \end{aligned} \qquad (5)

其中 f_{i}^{E}f_{i}^{S} 分別表示搜索網(wǎng)絡和評價網(wǎng)絡產(chǎn)生的特征。

  • 公式 (3) 的聯(lián)合訓練實現(xiàn)了兩個網(wǎng)絡之間的知識轉移饺汹。
  • 公式 (4) 的優(yōu)化通過提煉評價網(wǎng)絡的特征知識蛔添,以指導搜索網(wǎng)絡中架構超參數(shù)的更新。

此外,DARTS算法搜索出的結果存在 skip-connect 富集的問題迎瞧,因為跳連可以實現(xiàn)快速的梯度下降夸溶。這本質(zhì)上是一種架構搜索的過度擬合。為了解決這個問題凶硅,本文建議對架構超參數(shù)α中的跳連操作的權重施加 L1 正則化

\mathcal{L}_{R e g}=\lambda^{\prime}\|\alpha\|_{1} \qquad (6)

其中缝裁,\|\cdot\|_{1} 代表 l1正則,λ′ 為正的權衡系數(shù)足绅。最后將式(3)與式(6)共同作為輔助項進行優(yōu)化捷绑,以避免過度擬合。

值得注意的是氢妈,在評價網(wǎng)絡的預訓練過程中粹污,即 公式(2)中,我們采用權值共享的策略來更新權重 w_{E}首量,以緩解訓練不足的問題壮吩。具體來說,當離散化架構超參數(shù) \bar{\alpha} 更新時加缘,評價網(wǎng)絡的架構也會相應改變鸭叙。新的評價網(wǎng)絡的權重是用之前訓練中繼承的參數(shù)初始化的。換句話說拣宏,評估網(wǎng)絡有一個 one-shot 的模型递雀,它在有共同邊的架構之間共享權重。這加快了新評估網(wǎng)絡的收斂速度蚀浆,從而提升了其在特征表示上的能力。這種權重共享策略與 single-path-one-shot 的方法不同搜吧,single-path-one-shot的方法是通過隨機抽樣來選擇架構市俊。相比之下,我們的方法選擇架構由搜索網(wǎng)絡進行優(yōu)化滤奈,這就緩解了之前方法中訓練不平衡的問題摆昧。

網(wǎng)絡架構

Cyclic-DARTS網(wǎng)絡結構示意圖

Cyclic-DARTS的網(wǎng)絡結構如上圖所示。它由兩個分支組成:一個有8個堆疊單元的搜索網(wǎng)絡和一個有20個單元的評估網(wǎng)絡蜒程。搜索網(wǎng)絡和評估網(wǎng)絡與之前的DARTS方法是相同的架構绅你。

S-Net -> E-Net

對于信息傳輸,本文在兩個分支之間建立了連接昭躺。更具體地說忌锯,有一個拓撲傳輸路徑將發(fā)現(xiàn)的 Cell 架構從搜索分支傳遞到評估分支,上圖中呈現(xiàn)的頂部粗箭頭線领炫。請注意偶垮,由于搜索空間的連續(xù)松弛,搜索網(wǎng)絡發(fā)現(xiàn)的單元結構是一個全連接的圖。換句話說似舵,所有的候選操作都應用于計算圖中每個節(jié)點的特征脚猾。當使用這種連續(xù)單元結構來構建新的評價網(wǎng)絡時,我們需要先進行離散化處理砚哗。與之前 DARTS 工作相同龙助,只保留之前所有節(jié)點收集到的所有候選操作中的 top-k(k = 2)最強操作。這個導出的離散單元結構作為評估分支的基本構件蛛芥。

E-Net -> S-Net

另一方面提鸟,還有另一條特征提煉路徑將評價分支的特征反饋傳遞給搜索分支,如上圖中底部實心箭頭所示常空。該反饋作為搜索網(wǎng)絡的監(jiān)督信號沽一,以找到更好的單元結構。在細節(jié)上漓糙,本文使用評價網(wǎng)絡的多級特征作為反饋信號铣缠,因為它們在捕捉圖像語義上具有代表性。如上圖所示的橫向嵌入連接昆禽,多級特征將低分辨率蝗蛙、語義強的特征與高分辨率、語義弱的特征結合起來醉鳖。這些特征來自于各階段的輸出捡硅,然后通過嵌入模塊生成對應的特征對數(shù)。嵌入模塊的功能是將密集的特征圖投影到低維子空間中盗棵,通過軟交叉熵層將得到的評價網(wǎng)絡的對數(shù)作為搜索網(wǎng)絡的監(jiān)督信號壮韭,如公式(4)。

算法偽代碼

Cyclic DARTS算法偽代碼

實驗

NAS-Bench-201

基于NAS-Bench-201的實驗結果

CIFAR

CIFAR10和CIFAR100的實驗結果

ImageNet

ImageNet實驗結果

消融實驗

組件分析

消融實驗-1

相關性分析

消融實驗-2

評估網(wǎng)絡的深度

由于GPU內(nèi)存的限制纹因,DARTS的搜索網(wǎng)絡只能堆疊 8 個單元喷屋,而評估網(wǎng)絡則包含 20 個單元。 這帶來了在PDARTS中研究的所謂的深度差距問題瞭恰。 本文證明了在 Cycle-DARTS 的方法中不存在這種問題屯曹,因為將搜索和評估集成到一個統(tǒng)一的體系結構中。 如下所示惊畏,本文比較了評估網(wǎng)絡中不同數(shù)量單元的性能恶耽。 它清楚地表明 20 單元評估網(wǎng)絡(紅線)的性能優(yōu)于8單元網(wǎng)絡(綠線)。 提出的兩個網(wǎng)絡的聯(lián)合訓練可以減輕深度差距的影響颜启。

消融實驗-3

搜索輪數(shù)的影響

從上圖可以看出偷俭,當搜索時期數(shù)接近 30 時,性能趨于飽和农曲,評估網(wǎng)絡的結構也趨于穩(wěn)定社搅。 因此驻债,在實驗中將搜索輪數(shù)設置為 30。

總結

在這項工作中形葬,受 DARTS 中搜索和評估網(wǎng)絡的分離問題的影響合呐,提出了一種循環(huán)可微搜索算法,該算法將兩個網(wǎng)絡集成到一個統(tǒng)一的體系結構中笙以。 交替聯(lián)合學習使得能夠搜索架構以適合最終評估網(wǎng)絡淌实。 實驗證明了所提算法和搜索架構的有效性,它們在CIFAR猖腕,ImageNet和NAS-Bench-201上均具有競爭性能拆祈。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市倘感,隨后出現(xiàn)的幾起案子放坏,更是在濱河造成了極大的恐慌,老刑警劉巖老玛,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淤年,死亡現(xiàn)場離奇詭異,居然都是意外死亡蜡豹,警方通過查閱死者的電腦和手機麸粮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來镜廉,“玉大人弄诲,你說我怎么就攤上這事〗课ǎ” “怎么了齐遵?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長塔插。 經(jīng)常有香客問我洛搀,道長,這世上最難降的妖魔是什么佑淀? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮彰檬,結果婚禮上伸刃,老公的妹妹穿的比我還像新娘。我一直安慰自己逢倍,他們只是感情好捧颅,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著较雕,像睡著了一般碉哑。 火紅的嫁衣襯著肌膚如雪挚币。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天扣典,我揣著相機與錄音妆毕,去河邊找鬼。 笑死贮尖,一個胖子當著我的面吹牛笛粘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播湿硝,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼薪前,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了关斜?” 一聲冷哼從身側響起示括,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎痢畜,沒想到半個月后垛膝,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡裁着,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年繁涂,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片二驰。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡扔罪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出桶雀,到底是詐尸還是另有隱情矿酵,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布矗积,位于F島的核電站全肮,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏棘捣。R本人自食惡果不足惜辜腺,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望乍恐。 院中可真熱鬧评疗,春花似錦、人聲如沸茵烈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽呜投。三九已至加匈,卻和暖如春存璃,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背雕拼。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工纵东, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人悲没。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓篮迎,卻偏偏與公主長得像,于是被迫代替她去往敵國和親示姿。 傳聞我的和親對象是個殘疾皇子甜橱,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容