神經(jīng)網(wǎng)絡架構搜索——可微分搜索（Cyclic-DARTS）

本文為微軟研究院的NAS工作，論文題目：Cyclic Differentiable Architecture Search。傳統(tǒng)的DARTS在淺層網(wǎng)絡（8 Cell）中搜索最優(yōu)架構维蒙，然后在深層評價網(wǎng)絡(20 Cell)中測量其性能姥宝。這導致架構搜索的優(yōu)化與目標評價網(wǎng)絡無關，發(fā)現(xiàn)的架構是次優(yōu)的。針對搜索網(wǎng)絡和評價網(wǎng)絡的GAP問題桑滩，提出了一種新型的循環(huán)可微分架構搜索框架（CDARTS）剥汤，在搜索網(wǎng)絡和評價網(wǎng)絡之間建立了循環(huán)反饋機制颠放，并在CIFAR、ImageNet 和 NAS-Bench-201 上的實驗和分析證明了所提出的方法的有效性吭敢。

論文鏈接：Cyclic Differentiable Architecture Search

源碼鏈接：https://github.com/researchmm/CDARTS

摘要

近來碰凶，可微分架構搜索因其高效率、高性能的競爭優(yōu)勢引起了人們的極大關注鹿驼。它在淺層網(wǎng)絡中搜索最優(yōu)架構欲低，然后在深層評價網(wǎng)絡中測量其性能。這導致架構搜索的優(yōu)化與目標評價網(wǎng)絡無關畜晰，發(fā)現(xiàn)的架構是次優(yōu)的砾莱。為了解決這個問題，本文提出了一種新型的循環(huán)可微分架構搜索框架（CDARTS）凄鼻±吧考慮到結構差異，CDARTS 在搜索網(wǎng)絡和評價網(wǎng)絡之間建立了循環(huán)反饋機制块蚌。首先闰非，搜索網(wǎng)絡生成一個初始拓撲進行評估，這樣可以優(yōu)化評價網(wǎng)絡的權重峭范。其次财松，搜索網(wǎng)絡中的架構拓撲通過分類中的標簽監(jiān)督，以及來自評價網(wǎng)絡的正則化通過特征提煉進一步優(yōu)化纱控。重復上述循環(huán)辆毡，搜索網(wǎng)絡和評價網(wǎng)絡共同優(yōu)化菜秦，從而實現(xiàn)拓撲結構的進化，以適應最終的評價網(wǎng)絡胚迫。在CIFAR喷户、ImageNet 和 NAS-Bench-201 上的實驗和分析證明了所提出的方法的有效性。

image

方法

預訓練

這一階段的目標是分別對搜索網(wǎng)絡和評估網(wǎng)絡進行預訓練访锻，并使其對數(shù)據(jù)產(chǎn)生適應性褪尝。具體來說，對于搜索網(wǎng)絡，在訓練前隨機初始化架構超參數(shù) $\alpha$ 雹顺。然后吞杭，在訓練數(shù)據(jù)上優(yōu)化權重 $w_{S}$ ，如下所示：

$w_{S}^{*}=\underset{w_{S}}{\arg \min } \mathcal{L}_{t r a i n}^{S}\left(w_{S}, \alpha\right) \qquad (1)$

其中 $\mathcal{L}_{t r a i n}^{S}$ 為損失函數(shù)璃谨， $w_{S}^{*}$ 表示搜索網(wǎng)絡的權重。對于圖像分類問題鲤妥，我們將 $\mathcal{L}_{t r a i n}^{S}$ 定義為交叉熵損失佳吞。

對于評估網(wǎng)絡來說，其內(nèi)部單元結構是通過對學習到的超參數(shù) $\alpha$ 進行離散化生成的棉安。評估網(wǎng)絡的預訓練是在val數(shù)據(jù)集下底扳，通過優(yōu)化以下目標函數(shù)進行的:

$w_{E}^{*}=\underset{w_{E}}{\arg \min } \mathcal{L}_{v a l}^{E}\left(w_{E}, \bar{\alpha}\right) \qquad (2)$

聯(lián)合學習

在這個優(yōu)化階段，搜索算法通過知識提煉贡耽，利用評價網(wǎng)絡的特征反饋更新架構超參數(shù) $\alpha$ 衷模。更具體地說，兩個網(wǎng)絡的聯(lián)合優(yōu)化公式為：

$\begin{aligned} \alpha^{*}, w_{E}^{*}=\underset{\alpha, w_{E}}{\arg \min } \mathcal{L}_{v a l}^{S}\left(w_{S}^{*}, \alpha\right)+\mathcal{L}_{v a l}^{E}\left(w_{E}, \bar{\alpha}\right) +\lambda \mathcal{L}_{v a l}^{S, E}\left(w_{S}^{*}, \alpha, w_{E}, \bar{\alpha}\right) \end{aligned} \qquad (3)$

其中蒲赂，最小化 $\mathcal{L}_{v a l}^{S}\left(w_{S}^{*}, \alpha\right)$ 是在搜索網(wǎng)絡中以固定權重 $w_{S}^{*}$ 優(yōu)化架構超參數(shù) $\alpha$ 阱冶， $\mathcal{L}_{v a l}^{E}\left(w_{E}, \bar{\alpha}\right)$ 是在評估網(wǎng)絡中以固定架構 $\alpha$ 優(yōu)化權重 $w_{E}$ ， $\mathcal{L}_{v a l}^{S, E}\left(w_{S}^{*}, \alpha, w_{E}, \bar{\alpha}\right)$ 可以實現(xiàn)從評價網(wǎng)絡到搜索網(wǎng)絡的知識轉移滥嘴。 $\mathcal{L}_{v a l}^{S, E}(\cdot)$ 采用從評價網(wǎng)絡中得到的評價特征作為監(jiān)督信號木蹬，引導搜索網(wǎng)絡中架構超參數(shù) $\alpha$ 的更新。它是由一個軟目標交叉熵函數(shù)構成：

$\mathcal{L}_{v a l}^{S, E}\left(w_{S}^{*}, \alpha, w_{E}, \bar{\alpha}\right)=\frac{T^{2}}{N} \sum_{i=1}^{N}\left(p\left(w_{E}, \bar{\alpha}\right) \log \left(\frac{p\left(w_{E}, \bar{\alpha}\right)}{q\left(w_{S}^{*}, \alpha\right)}\right)\right) \qquad (4)$

其中 N 為訓練樣本數(shù)氏涩，T 為溫度系數(shù)（設為2）届囚。這里，p(·)和q(·)分別代表評價網(wǎng)絡和搜索網(wǎng)絡的輸出特征對數(shù)(output feature logits)是尖，每個特征對數(shù)都計算為特征對數(shù)的軟目標分布意系，如下公式所示：

$\begin{aligned} p\left(w_{E}, \bar{\alpha}\right) &=\frac{\exp \left(f_{i}^{E} / T\right)}{\sum_{j} \exp \left(f_{j}^{E} / T\right)} \\ q\left(w_{S}^{*}, \alpha\right) &=\frac{\exp \left(f_{i}^{S} / T\right)}{\sum_{j} \exp \left(f_{j}^{S} / T\right)} \end{aligned} \qquad (5)$

其中 $f_{i}^{E}$ 和 $f_{i}^{S}$ 分別表示搜索網(wǎng)絡和評價網(wǎng)絡產(chǎn)生的特征。

公式 (3) 的聯(lián)合訓練實現(xiàn)了兩個網(wǎng)絡之間的知識轉移饺汹。
公式 (4) 的優(yōu)化通過提煉評價網(wǎng)絡的特征知識蛔添，以指導搜索網(wǎng)絡中架構超參數(shù)的更新。

此外，DARTS算法搜索出的結果存在 skip-connect 富集的問題迎瞧，因為跳連可以實現(xiàn)快速的梯度下降夸溶。這本質(zhì)上是一種架構搜索的過度擬合。為了解決這個問題凶硅，本文建議對架構超參數(shù)α中的跳連操作的權重施加 L1 正則化：

$\mathcal{L}_{R e g}=\lambda^{\prime}\|\alpha\|_{1} \qquad (6)$

其中缝裁， $\|\cdot\|_{1}$ 代表 l1正則，λ′ 為正的權衡系數(shù)足绅。最后將式(3)與式(6)共同作為輔助項進行優(yōu)化捷绑，以避免過度擬合。

值得注意的是氢妈，在評價網(wǎng)絡的預訓練過程中粹污，即公式（2）中，我們采用權值共享的策略來更新權重 $w_{E}$ 首量，以緩解訓練不足的問題壮吩。具體來說，當離散化架構超參數(shù) $\bar{\alpha}$ 更新時加缘，評價網(wǎng)絡的架構也會相應改變鸭叙。新的評價網(wǎng)絡的權重是用之前訓練中繼承的參數(shù)初始化的。換句話說拣宏，評估網(wǎng)絡有一個 one-shot 的模型递雀，它在有共同邊的架構之間共享權重。這加快了新評估網(wǎng)絡的收斂速度蚀浆，從而提升了其在特征表示上的能力。這種權重共享策略與 single-path-one-shot 的方法不同搜吧，single-path-one-shot的方法是通過隨機抽樣來選擇架構市俊。相比之下，我們的方法選擇架構由搜索網(wǎng)絡進行優(yōu)化滤奈，這就緩解了之前方法中訓練不平衡的問題摆昧。

網(wǎng)絡架構

Cyclic-DARTS網(wǎng)絡結構示意圖

Cyclic-DARTS的網(wǎng)絡結構如上圖所示。它由兩個分支組成：一個有8個堆疊單元的搜索網(wǎng)絡和一個有20個單元的評估網(wǎng)絡蜒程。搜索網(wǎng)絡和評估網(wǎng)絡與之前的DARTS方法是相同的架構绅你。

S-Net -> E-Net

對于信息傳輸，本文在兩個分支之間建立了連接昭躺。更具體地說忌锯，有一個拓撲傳輸路徑將發(fā)現(xiàn)的 Cell 架構從搜索分支傳遞到評估分支，上圖中呈現(xiàn)的頂部粗箭頭線领炫。請注意偶垮，由于搜索空間的連續(xù)松弛，搜索網(wǎng)絡發(fā)現(xiàn)的單元結構是一個全連接的圖。換句話說似舵，所有的候選操作都應用于計算圖中每個節(jié)點的特征脚猾。當使用這種連續(xù)單元結構來構建新的評價網(wǎng)絡時，我們需要先進行離散化處理砚哗。與之前 DARTS 工作相同龙助，只保留之前所有節(jié)點收集到的所有候選操作中的 top-k（k = 2）最強操作。這個導出的離散單元結構作為評估分支的基本構件蛛芥。

E-Net -> S-Net

另一方面提鸟，還有另一條特征提煉路徑將評價分支的特征反饋傳遞給搜索分支，如上圖中底部實心箭頭所示常空。該反饋作為搜索網(wǎng)絡的監(jiān)督信號沽一，以找到更好的單元結構。在細節(jié)上漓糙，本文使用評價網(wǎng)絡的多級特征作為反饋信號铣缠，因為它們在捕捉圖像語義上具有代表性。如上圖所示的橫向嵌入連接昆禽，多級特征將低分辨率蝗蛙、語義強的特征與高分辨率、語義弱的特征結合起來醉鳖。這些特征來自于各階段的輸出捡硅，然后通過嵌入模塊生成對應的特征對數(shù)。嵌入模塊的功能是將密集的特征圖投影到低維子空間中盗棵，通過軟交叉熵層將得到的評價網(wǎng)絡的對數(shù)作為搜索網(wǎng)絡的監(jiān)督信號壮韭，如公式（4）。

算法偽代碼

Cyclic DARTS算法偽代碼

實驗

NAS-Bench-201

基于NAS-Bench-201的實驗結果

CIFAR

CIFAR10和CIFAR100的實驗結果

ImageNet

ImageNet實驗結果

消融實驗

組件分析

消融實驗-1

評估網(wǎng)絡的深度

由于GPU內(nèi)存的限制纹因，DARTS的搜索網(wǎng)絡只能堆疊 8 個單元喷屋，而評估網(wǎng)絡則包含 20 個單元。這帶來了在PDARTS中研究的所謂的深度差距問題瞭恰。本文證明了在 Cycle-DARTS 的方法中不存在這種問題屯曹，因為將搜索和評估集成到一個統(tǒng)一的體系結構中。如下所示惊畏，本文比較了評估網(wǎng)絡中不同數(shù)量單元的性能恶耽。它清楚地表明 20 單元評估網(wǎng)絡（紅線）的性能優(yōu)于8單元網(wǎng)絡（綠線）。提出的兩個網(wǎng)絡的聯(lián)合訓練可以減輕深度差距的影響颜启。

消融實驗-3

搜索輪數(shù)的影響

從上圖可以看出偷俭，當搜索時期數(shù)接近 30 時，性能趨于飽和农曲，評估網(wǎng)絡的結構也趨于穩(wěn)定社搅。因此驻债，在實驗中將搜索輪數(shù)設置為 30。

總結

在這項工作中形葬，受 DARTS 中搜索和評估網(wǎng)絡的分離問題的影響合呐，提出了一種循環(huán)可微搜索算法，該算法將兩個網(wǎng)絡集成到一個統(tǒng)一的體系結構中笙以。交替聯(lián)合學習使得能夠搜索架構以適合最終評估網(wǎng)絡淌实。實驗證明了所提算法和搜索架構的有效性，它們在CIFAR猖腕，ImageNet和NAS-Bench-201上均具有競爭性能拆祈。

最后編輯于：2020.09.10 13:39:58

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市倘感，隨后出現(xiàn)的幾起案子放坏，更是在濱河造成了極大的恐慌，老刑警劉巖老玛，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件淤年，死亡現(xiàn)場離奇詭異，居然都是意外死亡蜡豹，警方通過查閱死者的電腦和手機麸粮，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來镜廉，“玉大人弄诲，你說我怎么就攤上這事〗课ǎ” “怎么了齐遵？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長塔插。經(jīng)常有香客問我洛搀，道長，這世上最難降的妖魔是什么佑淀？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮彰檬，結果婚禮上伸刃，老公的妹妹穿的比我還像新娘。我一直安慰自己逢倍，他們只是感情好捧颅，可當我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著较雕，像睡著了一般碉哑。火紅的嫁衣襯著肌膚如雪挚币。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天扣典，我揣著相機與錄音妆毕，去河邊找鬼。笑死贮尖，一個胖子當著我的面吹牛笛粘，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播湿硝，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼薪前，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了关斜？” 一聲冷哼從身側響起示括，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎痢畜，沒想到半個月后垛膝，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡裁着，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年繁涂，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片二驰。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡扔罪，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出桶雀，到底是詐尸還是另有隱情矿酵，我是刑警寧澤，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布矗积，位于F島的核電站全肮，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏棘捣。R本人自食惡果不足惜辜腺，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望乍恐。院中可真熱鬧评疗，春花似錦、人聲如沸茵烈。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽呜投。三九已至加匈，卻和暖如春存璃，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背雕拼。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工纵东，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人悲没。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓篮迎，卻偏偏與公主長得像，于是被迫代替她去往敵國和親示姿。傳聞我的和親對象是個殘疾皇子甜橱，可洞房花燭夜當晚...
茶點故事閱讀 44,724評論 2贊 354

神經(jīng)網(wǎng)絡架構搜索——可微分搜索（Cyclic-DARTS）

神經(jīng)網(wǎng)絡架構搜索——可微分搜索（Cyclic-DARTS）