剪枝論文閱讀-Rethinking the Value of NetWork Pruning

論文標(biāo)題

論文概述

傳統(tǒng)結(jié)構(gòu)化剪枝往往分為三步走坷檩,訓(xùn)練-剪枝-finetune

剪枝方面默認(rèn)的常識是:

  1. 從一個(gè)大的改抡、過參數(shù)化的模型開始訓(xùn)練是有必要的矢炼,因?yàn)檫@樣的模型具有很強(qiáng)的表示和優(yōu)化能力,只有從這樣的模型中刪除冗余參數(shù)阿纤,才能盡可能少的損失模型的精度句灌;而直接從一個(gè)小模型開始從頭訓(xùn)練得到的精度總是低于通過剪枝-finetune之后的模型精度
  2. 剪枝之后的結(jié)構(gòu)和剪枝后的參數(shù)偶被認(rèn)為是構(gòu)建一個(gè)最終的高效網(wǎng)絡(luò)的重要條件。

本文揭示了幾個(gè)違背過往剪枝常識的觀察:

  1. 對于獲得一個(gè)有效的最終模型而言,訓(xùn)練一個(gè)大的胰锌、過參數(shù)化的模型可能不是必要操作
  2. 剪枝之后的finetune得到的模型效果骗绕,往往差于直接從頭訓(xùn)練剪枝模型,雖然從頭訓(xùn)練剪枝之后的結(jié)構(gòu)的模型往往需要更多的訓(xùn)練輪次资昧。這預(yù)示著剪枝操作之后保留的參數(shù)其實(shí)沒有那么重要酬土。而在我們之前的剪枝常識中,剪枝保留的參數(shù)是對模型非常重要的參數(shù)格带,決定了剪枝之后的模型性能撤缴。剪枝之后的參數(shù)可能會導(dǎo)致新的模型陷入一個(gè)比較差的局部最優(yōu)解。
  3. 剪枝之后的模型結(jié)構(gòu)而不是剪枝之后的權(quán)重參數(shù)叽唱,對我們來說是更為重要的存在屈呕。對于哪些固定的剪枝策略(比如每層刪除固定比率的channel層),可以直接從剪枝之后的模型開始訓(xùn)練棺亭,而不需要進(jìn)行訓(xùn)練-剪枝-finetune凉袱。而對于動態(tài)的剪枝策略來說,剪枝操作的作用更多的在于獲得剪枝之后的有效網(wǎng)絡(luò)結(jié)構(gòu)侦铜,所以剪枝的作用也可以理解為模型最優(yōu)化模型結(jié)構(gòu)搜索专甩。

注意,作者上述的觀察都是基于結(jié)構(gòu)化剪枝的钉稍。對于非結(jié)構(gòu)化剪枝涤躲,只有在小數(shù)據(jù)集合上,從頭開始訓(xùn)練可以達(dá)到和剪枝-finetune相同的精度贡未,在大數(shù)據(jù)集合上則會失敗种樱。

為什么之前的論文實(shí)驗(yàn)中,從頭開始訓(xùn)練的實(shí)驗(yàn)效果都沒有使用剪枝之后的參數(shù)的效果好俊卤?因?yàn)橄氘?dāng)然的思想嫩挤,使得之前的在“ 從頭開始訓(xùn)練的”實(shí)驗(yàn)中沒有仔細(xì)選擇超參數(shù)、數(shù)據(jù)擴(kuò)充策略消恍,并且也沒有給從頭開始訓(xùn)練足夠的計(jì)算時(shí)間和輪次(因?yàn)樽髡咛岬綇念^開始訓(xùn)練需要更多的輪次才能得到和利用剪枝參數(shù)進(jìn)行finetune類似的精度)

當(dāng)然岂昭,如果已經(jīng)具備了一個(gè)訓(xùn)練好的大模型,那么剪枝和finetune可以加快獲得高效網(wǎng)絡(luò)的時(shí)間狠怨。

背景介紹

常見的減小網(wǎng)絡(luò)參數(shù)量的方法有低秩化约啊、量化、剪枝佣赖。剪枝因?yàn)槠涓咝ё吭降谋憩F(xiàn)得到了廣泛的關(guān)注恰矩。

剪枝可以分為非結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪枝。非結(jié)構(gòu)化剪枝作用在單個(gè)權(quán)重上憎蛤;導(dǎo)致卷積核的權(quán)重參數(shù)稀疏化外傅。結(jié)構(gòu)化剪枝作用在channel層以及l(fā)ayer層。

這篇文章受到了一些研究剪枝特征的論文的啟發(fā)。

  1. 2018年的《Recovering
    from random pruning: On the plasticity of deep convolutional neural network》這篇論文發(fā)現(xiàn)隨機(jī)剪枝可以達(dá)到和精巧設(shè)計(jì)的剪枝策略同等的精度萎胰。
  2. 2019年的《The Lottery Ticket Hypothesis》一文碾盟,觀察到特定的節(jié)點(diǎn)連接以及他們的初始化訓(xùn)練參數(shù),可以讓剪枝之后的模型從頭訓(xùn)練(從特定的初始化訓(xùn)練參數(shù))得到和finetune類似的精度奥洼。

文本則是論文2的更進(jìn)一步發(fā)現(xiàn)巷疼,不需要特定的初始化參數(shù),直接從頭開始訓(xùn)練就可以得到類似精度乃至更加優(yōu)秀的高效模型灵奖。節(jié)點(diǎn)的連接嚼沿,也就是剪枝之后的網(wǎng)絡(luò)結(jié)構(gòu)才是給高效模型帶來提升的重要因素。

方法論

數(shù)據(jù):CIFAR-10, CIFAR-100 , 和ImageNet datasets瓷患。
** 實(shí)驗(yàn)?zāi)P?strong>:VGG骡尽、ResNet、DenseNet是剪枝論文常用的三個(gè)網(wǎng)絡(luò)擅编,具有較好的代表性攀细。
** 對比其他論文的方法:對比了兩個(gè)自動剪枝方法、4個(gè)預(yù)定義結(jié)構(gòu)的剪枝方法
訓(xùn)練的開銷:對于從頭開始訓(xùn)練的剪枝模型爱态,怎么分配訓(xùn)練輪次合適谭贪?之前的方法都是和大模型采用相同的輪次,用Scratch-E表示锦担;如果按照訓(xùn)練過程中的浮點(diǎn)數(shù)計(jì)算俭识,那么一個(gè)被剪枝50%的模型,應(yīng)該訓(xùn)練的輪次為原始模型的2倍洞渔,這種訓(xùn)練方式用Scratch-B表示套媚。在直覺上,小的模型只需要更少輪次就可以實(shí)現(xiàn)收斂磁椒,但是在本文的實(shí)驗(yàn)中堤瘤,發(fā)現(xiàn)部分情況下,Scratch-B的訓(xùn)練方式是有必要的浆熔,可以提升精度.

實(shí)驗(yàn)分析

實(shí)驗(yàn)的分析章節(jié)就是對簡述中提到的結(jié)論的驗(yàn)證本辐,這邊就不展開贅述了。

網(wǎng)絡(luò)剪枝==網(wǎng)絡(luò)結(jié)構(gòu)搜索

1. 剪枝策略和等比例剪枝

對于《 Learning efficient convolutional networks through network slimming》這篇文章蘸拔,采用全局剪枝的方式师郑,根據(jù)不同的剪枝比率可以得到不同的剪枝模型。對不同的剪枝模型從頭開始訓(xùn)練可以得到圖中的藍(lán)色曲線调窍;采用相同的剪枝比率,但是逐層等比例剪枝(比如剪枝比率為0.2张遭,在上面的論文中邓萨,是網(wǎng)絡(luò)所有層參數(shù)排序之后,減掉排序末尾的20%;而后面這種等比例剪枝缔恳,則是每層減掉20%)宝剖,從頭開始訓(xùn)練可以得到圖中紅色曲線∏干酰可見即使不采用剪枝之后的權(quán)重万细,剪枝保留的結(jié)構(gòu)也是很有用的。


net slimming

作者針對《 Learning efficient convolutional networks through network slimming》這篇文章進(jìn)行了5次隨機(jī)從頭訓(xùn)練纸泄,發(fā)現(xiàn)如果指定比率剪枝赖钞,那么5次剪枝之后,每層的保留層數(shù)總是神奇的相似聘裁,這說明這個(gè)方法確實(shí)可以得到一個(gè)比較高效穩(wěn)定的結(jié)構(gòu)雪营。


剪枝后每層剩余數(shù)量

更進(jìn)一步的實(shí)驗(yàn)發(fā)現(xiàn),在VGG網(wǎng)絡(luò)上衡便,net-slimming剪枝策略優(yōu)于每層等比例剪枝献起,而在ResNet,DenseNet上,net-slimming剪枝策略可能不如每層等比例剪枝镣陕。作者分析了這些網(wǎng)絡(luò)剪枝之后的結(jié)構(gòu)谴餐,發(fā)現(xiàn)這種結(jié)構(gòu)趨向于每層等比例剪枝,這可能就是這個(gè)策略剪枝之后的效果約等于每層等比例剪枝的原因呆抑。而VGG網(wǎng)絡(luò)每層的冗余并不是均衡的岂嗓,因此剪枝策略有效。

精心設(shè)計(jì)的剪枝策略效果低于等比例剪枝的實(shí)驗(yàn)圖

2.剪枝策略設(shè)計(jì)的原則

根據(jù)net slimming算法在VGG網(wǎng)絡(luò)上的成功結(jié)果理肺,是否可以挖掘到一個(gè)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的基本原則摄闸?
對于VGG網(wǎng)絡(luò),剪枝之后的相鄰層有相似的channel數(shù)量妹萨,將相似channel數(shù)量的層分為一個(gè)stage年枕,網(wǎng)絡(luò)分為三個(gè)stage。將同一個(gè)stage中的平均層數(shù)作為新模型的該stage中的層數(shù)乎完,這樣得到的新網(wǎng)絡(luò)稱為“Guided Pruning”熏兄。
在VGG16上剪枝的模型遷移到VGG19上,這樣得到的新網(wǎng)絡(luò)稱為遷移“Guided Pruning方法树姨。
下圖展示了剪枝算法摩桶、“Guided Pruning”、遷移“Guided Pruning方法以及每層均勻剪枝策略在不同剪枝比率(x軸是參數(shù)量帽揪,餐數(shù)量少的剪枝比率高)時(shí)的準(zhǔn)確率硝清。可以看到前三者的準(zhǔn)確率大差不差转晰。因此不需要從頭開始訓(xùn)練一個(gè)大的網(wǎng)絡(luò)芦拿,可以采用遷移學(xué)習(xí)的方式從小網(wǎng)絡(luò)直接得到一個(gè)性能還不錯(cuò)的更深層網(wǎng)絡(luò)

針對net slimming的分析

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末士飒,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蔗崎,更是在濱河造成了極大的恐慌酵幕,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缓苛,死亡現(xiàn)場離奇詭異芳撒,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)未桥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門笔刹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人钢属,你說我怎么就攤上這事徘熔。” “怎么了淆党?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵酷师,是天一觀的道長。 經(jīng)常有香客問我染乌,道長山孔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任荷憋,我火速辦了婚禮台颠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘勒庄。我一直安慰自己串前,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布实蔽。 她就那樣靜靜地躺著荡碾,像睡著了一般。 火紅的嫁衣襯著肌膚如雪局装。 梳的紋絲不亂的頭發(fā)上坛吁,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機(jī)與錄音铐尚,去河邊找鬼拨脉。 笑死,一個(gè)胖子當(dāng)著我的面吹牛宣增,可吹牛的內(nèi)容都是我干的玫膀。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼爹脾,長吁一口氣:“原來是場噩夢啊……” “哼匆骗!你這毒婦竟也來了劳景?” 一聲冷哼從身側(cè)響起誉简,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤碉就,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后闷串,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瓮钥,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年烹吵,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碉熄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡肋拔,死狀恐怖锈津,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情凉蜂,我是刑警寧澤琼梆,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站窿吩,受9級特大地震影響茎杂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜纫雁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一煌往、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧轧邪,春花似錦刽脖、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至菜循,卻和暖如春翘地,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背癌幕。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工衙耕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人勺远。 一個(gè)月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓橙喘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親胶逢。 傳聞我的和親對象是個(gè)殘疾皇子厅瞎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容