神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索——可微分搜索（Fair-DARTS）

小米實(shí)驗(yàn)室 AutoML 團(tuán)隊(duì)的NAS工作，論文題目：Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search唠倦。針對(duì)現(xiàn)有DARTS框架在搜索階段訓(xùn)練過程中存在 skip-connection 富集現(xiàn)象，導(dǎo)致最終模型出現(xiàn)大幅度的性能損失問題的問題墩朦，提出了Sigmoid替代Softmax的方法拔莱，使搜索階段候選操作由競(jìng)爭(zhēng)關(guān)系轉(zhuǎn)化為合作關(guān)系鳖敷。并提出 0-1 loss 提高了架構(gòu)參數(shù)的二值性。

論文鏈接：https://arxiv.org/abs/1911.12126.pdf

源碼鏈接：https://github.com/xiaomi-automl/FairDARTS

動(dòng)機(jī)

skip-connection 富集現(xiàn)象

本文指出 skip connections 富集的原因主要有兩個(gè)方面：

skip connections 的不公平優(yōu)勢(shì)

在超網(wǎng)絡(luò)訓(xùn)練架構(gòu)參數(shù)過程中挽唉，兩個(gè)節(jié)點(diǎn)之間是八個(gè)操作同時(shí)作用的滤祖， skip connections 作為操作的其中一員，相較于其他的操作來講是起到了跳躍連接的作用瓶籽。在ResNet 中已經(jīng)明確指出了跳躍連接在深層網(wǎng)絡(luò)的訓(xùn)練過程中中起到了良好的梯度疏通效果匠童，進(jìn)而有效減緩了梯度消失現(xiàn)象。因此塑顺，在超網(wǎng)絡(luò)的搜索訓(xùn)練過程中汤求，skip connections可以借助其他操作的關(guān)系達(dá)到疏通效果，使得严拒，skip connections 相較于其他操作存在不公平優(yōu)勢(shì)扬绪。

softmax 的排外競(jìng)爭(zhēng)

由于 softmax 是典型的歸一化操作，是一種潛在的排外競(jìng)爭(zhēng)方式裤唠，致使一個(gè)架構(gòu)參數(shù)增大必然抑制其他參數(shù)挤牛。

部署訓(xùn)練的離散化差異（discretization discrepancy）

搜索過程結(jié)束后，在部署訓(xùn)練選取網(wǎng)絡(luò)架構(gòu)時(shí)种蘸，直接將 softmax 后最大 α 值對(duì)應(yīng)的操作保留而拋棄其它的操作墓赴，從而使得選出的網(wǎng)絡(luò)結(jié)構(gòu)和原始包含所有結(jié)構(gòu)的超網(wǎng)二者的表現(xiàn)能力存在差距。離散化差異問題主要在于兩點(diǎn)航瞭，一方面Softmax歸一化八種操作參數(shù)后诫硕，DARTS 最后選擇時(shí)的 α 值基本都在 0.1 到 0.3 之間，另一方面判定好壞的范圍比較窄刊侯，因?yàn)椴煌僮?α 值的 top1 和 top2 可能差距特別小痘括，例如 0.26 和 0.24，很難說 0.26 就一定比 0.24 好，如下圖所示：

image

方法

sigmoid 函數(shù)替換 softmax


class Network(nn.Module):

    def __init__(self, C, num_classes, layers, criterion, steps=4, multiplier=4, stem_multiplier=3,parse_method='darts', op_threshold=None):
        pass

    def forward(self, input):
        s0 = s1 = self.stem(input)
        for i, cell in enumerate(self.cells):
            if cell.reduction:
                weights = F.sigmoid(self.alphas_reduce) # sigmoid 替換softmax
            else:
                weights = F.sigmoid(self.alphas_normal) # sigmoid 替換softmax
            s0, s1 = s1, cell(s0, s1, weights)
        out = self.global_pooling(s1)
        logits = self.classifier(out.view(out.size(0),-1))
        return logits

0-1 損失函數(shù)

l2 0-1 損失函數(shù)

$L_{0-1}=-\frac{1}{N} \sum_{i}^{N}\left(\sigma\left(\alpha_{i}\right)-0.5\right)^{2}$

l1 0-1 損失函數(shù)

$L_{0-1}^{\prime}=-\frac{1}{N} \sum_{i}^{N}\left|\left(\sigma\left(\alpha_{i}\right)-0.5\right)\right|$

$L_{\text {total}}=\mathcal{L}_{v a l}\left(w^{*}(\alpha), \alpha\right)+w_{0-1} L_{0-1}$


# l2
class ConvSeparateLoss(nn.modules.loss._Loss):
    """Separate the weight value between each operations using L2"""
    def __init__(self, weight=0.1, size_average=None, ignore_index=-100,reduce=None, reduction='mean'):
        super(ConvSeparateLoss, self).__init__(size_average, reduce, reduction)
        self.ignore_index = ignore_index
        self.weight = weight

    def forward(self, input1, target1, input2):
        loss1 = F.cross_entropy(input1, target1)
        loss2 = -F.mse_loss(input2, torch.tensor(0.5, requires_grad=False).cuda())
        return loss1 + self.weight*loss2, loss1.item(), loss2.item()

# l1
class TriSeparateLoss(nn.modules.loss._Loss):
    """Separate the weight value between each operations using L1"""
    def __init__(self, weight=0.1, size_average=None, ignore_index=-100,
                 reduce=None, reduction='mean'):
        super(TriSeparateLoss, self).__init__(size_average, reduce, reduction)
        self.ignore_index = ignore_index
        self.weight = weight

    def forward(self, input1, target1, input2):
        loss1 = F.cross_entropy(input1, target1)
        loss2 = -F.l1_loss(input2, torch.tensor(0.5, requires_grad=False).cuda())
        return loss1 + self.weight*loss2, loss1.item(), loss2.item()

使用上述損失函數(shù)就可以使得不同操作之間的差距增大纲菌，二者的 α 值要么逼近 0 要么逼近 1 如下圖曲線所示

導(dǎo)數(shù)可視化圖

實(shí)驗(yàn)

CIFAR-10

精度比較

FairDARTS 搜索 7 次均可得到魯棒性的結(jié)果:

CIFAR-10結(jié)果

skip connections 數(shù)量比較

DARTS 和 Fair DARTS 搜索出來的 cell 中所包含的 skip connections 數(shù)量比較:

skip connections 數(shù)量比較

ImageNet

精度比較

注意模型 A、B 是遷移比較疮绷，C翰舌、D 是直接搜索比較。

ImageNet結(jié)果

sigmoid 函數(shù)的共存性

熱力圖可看出使用 sigmoid 函數(shù)可讓其他操作和 skip connections 共存：

image

消融實(shí)驗(yàn)

去掉 Skip Connections

由于不公平的優(yōu)勢(shì)主要來自 Skip Connections冬骚，因此椅贱，搜索空間去掉 Skip Connections，那么即使在排他性競(jìng)爭(zhēng)中只冻，其他操作也應(yīng)該期待公平競(jìng)爭(zhēng)庇麦。去掉 Skip Connections搜索得到的最佳模型（96.88±0.18％）略高于DARTS（96.76±0.32％），但低于FairDARTS（97.41±0.14％）喜德。降低的精度表明足夠的 Skip Connections 確實(shí)對(duì)精度有益山橄，因此也不能簡(jiǎn)單去掉。

image

0-1 損失函數(shù)分析

0-1 損失函數(shù)消融實(shí)驗(yàn)

如果去掉 0-1 損失函數(shù)會(huì)使得 α 值不再集中于兩端舍悯，不利于離散化;
損失靈敏度航棱，即通過超參來控制 $w_{0-1}$ 損失函數(shù)的靈敏度

討論

對(duì)于 skip connections 使用 dropout 可以減少了不公平性；
對(duì)所有操作使用 dropout 同樣是有幫助的萌衬；
早停機(jī)制同樣關(guān)鍵（相當(dāng)于是在不公平出現(xiàn)以前及時(shí)止損）饮醇；
限制 skip connections 的數(shù)量需要極大的人為先驗(yàn)，因?yàn)橹灰薅?skip connections 的數(shù)量為 2秕豫，隨機(jī)搜索也能獲得不錯(cuò)的結(jié)果朴艰；
高斯噪聲或許也能打破不公平優(yōu)勢(shì)（孕育出了后面的NoisyDARTS~）。

參考

[1] Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search
[2] DARTS+: Improved Differentiable Architecture Search with Early Stopping
[3] Noisy Differentiable Architecture Search
[4] Fair DARTS：公平的可微分神經(jīng)網(wǎng)絡(luò)搜索
[5] Fair darts代碼解析

最后編輯于：2020.09.09 09:28:18

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末混移，一起剝皮案震驚了整個(gè)濱河市祠墅，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌沫屡，老刑警劉巖饵隙，帶你破解...
沈念sama閱讀 218,204評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異沮脖，居然都是意外死亡金矛，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門勺届，熙熙樓的掌柜王于貴愁眉苦臉地迎上來驶俊，“玉大人，你說我怎么就攤上這事免姿”穑” “怎么了？”我有些...
開封第一講書人閱讀 164,548評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長故俐。經(jīng)常有香客問我想鹰，道長，這世上最難降的妖魔是什么药版？我笑而不...
開封第一講書人閱讀 58,657評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任辑舷，我火速辦了婚禮，結(jié)果婚禮上槽片，老公的妹妹穿的比我還像新娘何缓。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,689評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著颖低，像睡著了一般棕硫。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,554評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼波材。笑死，一個(gè)胖子當(dāng)著我的面吹牛身隐，可吹牛的內(nèi)容都是我干的廷区。我是一名探鬼主播，決...
沈念sama閱讀 40,302評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼贾铝，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼隙轻！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起垢揩，我...
開封第一講書人閱讀 39,216評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤玖绿，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后叁巨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體斑匪，經(jīng)...
沈念sama閱讀 45,661評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,851評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年锋勺，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蚀瘸。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,977評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡庶橱，死狀恐怖贮勃，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情苏章，我是刑警寧澤寂嘉，帶...
沈念sama閱讀 35,697評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布奏瞬，位于F島的核電站，受9級(jí)特大地震影響泉孩，放射性物質(zhì)發(fā)生泄漏硼端。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,306評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一寓搬、第九天我趴在偏房一處隱蔽的房頂上張望显蝌。院中可真熱鬧，春花似錦订咸、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評(píng)論 0贊 22
一樁弒父案脏嚷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至瞒御，卻和暖如春父叙，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背肴裙。一陣腳步聲響...
開封第一講書人閱讀 33,019評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工趾唱，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人蜻懦。一個(gè)月前我還...
沈念sama閱讀 48,138評(píng)論 3贊 370
代替公主和親
正文我出身青樓甜癞，卻偏偏與公主長得像，于是被迫代替她去往敵國和親宛乃。傳聞我的和親對(duì)象是個(gè)殘疾皇子悠咱，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,927評(píng)論 2贊 355

神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索——可微分搜索（Fair-DARTS）

動(dòng)機(jī)

skip-connection 富集現(xiàn)象

skip connections 的不公平優(yōu)勢(shì)

softmax 的排外競(jìng)爭(zhēng)

部署訓(xùn)練的離散化差異（discretization discrepancy）

方法

sigmoid 函數(shù)替換 softmax

0-1 損失函數(shù)

l2 0-1 損失函數(shù)

l1 0-1 損失函數(shù)

實(shí)驗(yàn)

CIFAR-10

精度比較

skip connections 數(shù)量比較

ImageNet

精度比較

sigmoid 函數(shù)的共存性

消融實(shí)驗(yàn)

去掉 Skip Connections

0-1 損失函數(shù)分析

討論

參考

推薦閱讀更多精彩內(nèi)容