文章鏈接:
https://arxiv.org/pdf/1905.11946v2.pdf
motivation
在計(jì)算資源受限的情況下册舞,科學(xué)家們往往需要精心設(shè)計(jì)網(wǎng)絡(luò)模型蕴掏。在往計(jì)算能力更強(qiáng)的計(jì)算環(huán)境進(jìn)行遷移時(shí),我們需要增加模型的運(yùn)算量來提升模型精度调鲸,充分利用計(jì)算資源盛杰。
innovation
一般常見的方法在模型寬度 , 模型深度
, 模型輸入
上進(jìn)行研究。本文綜合考慮了三個(gè)方面藐石,提出了簡單而有效的compund coefficient方法即供。
問題定義
一般的神經(jīng)網(wǎng)絡(luò)模型由多個(gè)相似的stage組成(如ResNet),每個(gè)stage中又包含一些常見操作(conv于微,bn逗嫡,relu等),因此一般的模型可以描述為:
在不改變模型結(jié)構(gòu)的前提下株依,要擴(kuò)大模型計(jì)算量驱证,我們需要在模型寬度 , 模型深度
, 模型輸入
進(jìn)行考慮,形式定義如下:
兩個(gè)發(fā)現(xiàn)
1 單獨(dú)改變?nèi)齻€(gè)變量中的一個(gè)恋腕,準(zhǔn)確率的增益會(huì)逐漸變小甚至消失抹锄。
2 為了更好地平衡準(zhǔn)確率和效率,需要平衡地改動(dòng)三個(gè)變量荠藤。
Compound Scaling Method
該文章提出了一個(gè)準(zhǔn)則祈远,只需要按照這個(gè)準(zhǔn)則,就可以非常有限地?cái)U(kuò)大網(wǎng)絡(luò):
是用于控制網(wǎng)絡(luò)計(jì)算量的商源,擴(kuò)大后的網(wǎng)絡(luò)計(jì)算量為原始網(wǎng)絡(luò)的
倍车份。
實(shí)驗(yàn)結(jié)果
最后文章在ResNet,mobileNet以及自己搜出的網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行了實(shí)驗(yàn)牡彻,實(shí)驗(yàn)結(jié)果比較好扫沼。進(jìn)行的實(shí)驗(yàn)較多出爹,這里就不貼圖了。感興趣的朋友可以去看原文
我的看法
其實(shí)本人并沒有在這個(gè)領(lǐng)域有過研究缎除,只是這篇文章在 Arxiv Sanity上排名較高严就,所以拿過來讀一讀。知乎上的大佬們對這個(gè)有比較深入的探討器罐,大家可以讀一讀梢为。
研究生已經(jīng)過去一年了,自己還是一事無成轰坊。希望能通過這第一篇博客铸董,養(yǎng)成自己規(guī)律讀論文并總結(jié)的習(xí)慣。路漫漫其修遠(yuǎn)兮肴沫,吾將上下而求索粟害。