大家好,今天我要講的內(nèi)容是在深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)中输吏,如何減弱過擬合問題的相關(guān)研究,最近剛好在修改論文替蛉,就把相關(guān)的方法和技術(shù)整理出來贯溅,對(duì)于怎樣選擇和設(shè)計(jì)網(wǎng)絡(luò)模型具有一定的指導(dǎo)性,希望對(duì)大家有幫助躲查。
內(nèi)容主要分為三個(gè)模塊它浅,首先對(duì)過擬合問題的產(chǎn)生原因、以及解決方向進(jìn)行簡(jiǎn)單的介紹镣煮,然后會(huì)就不同的解決方案姐霍,講解一些解決方法;最后是簡(jiǎn)單說一下自己的一些研究工作(最后一部分略)。
在講過擬合問題前镊折,先簡(jiǎn)單介紹一下偏差和方差權(quán)衡的問題胯府,假設(shè)存在一組觀測(cè)數(shù)據(jù) x, y,如果存在一組理想的映射恨胚,使得每個(gè)觀測(cè)值經(jīng)過該映射后骂因,能夠與它對(duì)應(yīng)的預(yù)測(cè)值一一對(duì)應(yīng),這就是識(shí)別赃泡、分類以及回歸問題的本質(zhì)寒波,這里我們先不管怎么去優(yōu)化這個(gè)理想的映射中的未知參數(shù),我們也意識(shí)到對(duì)于觀測(cè)數(shù)據(jù)升熊,本身其實(shí)也是有噪聲的俄烁,我們假設(shè)觀測(cè)數(shù)據(jù)滿足這樣一個(gè)分布模式,也就是觀測(cè)值經(jīng)過理想的映射后還含有一個(gè)隨機(jī)的高斯噪聲項(xiàng)epsilon级野,這樣就構(gòu)成了采樣數(shù)據(jù)的分布模式页屠,經(jīng)過學(xué)習(xí)后,我們得到了一個(gè)模型蓖柔,滿足學(xué)習(xí)模型的預(yù)測(cè)值與采樣數(shù)據(jù)的預(yù)測(cè)值的差的平方的期望值最小化卷中,一般滿足這樣的條件,得到的模型就是我們想要的了渊抽。把這個(gè)約束項(xiàng)展開蟆豫,我們最后就能得到這個(gè)結(jié)果,也就是采樣數(shù)據(jù)的噪聲的方差懒闷,學(xué)習(xí)模型的方差十减,學(xué)習(xí)模型與采樣模型之間的偏差期望的平方之和。
為什么說很多時(shí)候?qū)W習(xí)算法就是學(xué)習(xí)模型在偏差和方差上的權(quán)衡呢愤估,原因很簡(jiǎn)單帮辟,我們看下面的公式,統(tǒng)計(jì)方差項(xiàng)是針對(duì)學(xué)習(xí)模型的玩焰,如果我們想要這一項(xiàng)較小由驹,那么我們的學(xué)習(xí)模型應(yīng)該是線性的或者說接近線性的,但是對(duì)于非線性問題昔园,這一項(xiàng)滿足最小化原則的話蔓榄,那很容易就造成高偏差問題,也就是欠擬合問題默刚,比如使用線性函數(shù)擬合非線性函數(shù)甥郑,可以保證線性函數(shù)的預(yù)測(cè)值符合方差最小分布,但是預(yù)測(cè)值與真實(shí)值之間卻有較大偏差荤西;而偏差項(xiàng)可以看到澜搅,是預(yù)測(cè)值與采樣值之間的差異的期望的平方伍俘,如果這一項(xiàng)滿足最小化原則,那么就要求預(yù)測(cè)模型的分布模式盡可能符合采樣數(shù)據(jù)的分布模式勉躺,同樣如果是針對(duì)非線性問題癌瘾,這樣很容易導(dǎo)致高方差,也就是過擬合問題饵溅。因?yàn)榉镣耍詈头讲顣?huì)存在此消彼長的現(xiàn)象,我們的目的就是解決這一一個(gè)tradeoff問題概说。
這里給出一個(gè)簡(jiǎn)單的例子碧注,深藍(lán)色的圓點(diǎn)嚣伐,就是采樣數(shù)據(jù)糖赔,綠色曲線是這組數(shù)據(jù)樣本的真實(shí)分布函數(shù),我們分布用1次轩端,4次放典,15次多項(xiàng)式曲線擬合,對(duì)于1次線性函數(shù)基茵,這樣的擬合結(jié)果奋构,符合預(yù)測(cè)值方差最小,但效果顯然并不好拱层,因?yàn)楹芏囝A(yù)測(cè)值與采樣數(shù)據(jù)之間的偏差過大弥臼;而15次多項(xiàng)式曲線擬合的結(jié)果,雖然達(dá)到了預(yù)測(cè)值與所有的采樣數(shù)據(jù)之間偏差最小根灯,但是如果再引入新的采樣數(shù)據(jù)径缅,那么效果就會(huì)明顯變差;4次多項(xiàng)式擬合結(jié)果烙肺,雖然方差大于1次纳猪,偏差大于15次,但是很明顯卻是擬合最好的桃笙。
一般來講氏堤,欠擬合的結(jié)果表現(xiàn)為,在訓(xùn)練數(shù)據(jù)和新的測(cè)試數(shù)據(jù)上都表現(xiàn)不佳搏明,通常使用過于簡(jiǎn)單的模型或者方法擬合非線性問題鼠锈,就會(huì)產(chǎn)生這種問題,學(xué)習(xí)到的模型星著,具有高偏差低方差的性質(zhì)脚祟;而過擬合的結(jié)果表現(xiàn)為在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但是在新的數(shù)據(jù)上泛化能力一般强饮,通常使用過于復(fù)雜的模型或者方法擬合非線性問題由桌,就有可能遭遇這種問題,學(xué)習(xí)到的模型,具有低偏差高方差的性質(zhì)行您。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)铭乾,引入了以往機(jī)器學(xué)習(xí)前所未有的參數(shù)規(guī)模,雖然能夠適用和解決很多非線性問題娃循,但是過擬合問題也經(jīng)常出現(xiàn)炕檩,這也就是為什么一直以來大家對(duì)這個(gè)問題比較關(guān)注的主要原因。
造成模型過擬合的主要原因捌斧,簡(jiǎn)單來講有三個(gè)方面笛质,首先是數(shù)據(jù)不足,如果采樣數(shù)據(jù)不足捞蚂,很有可能不能反映出數(shù)據(jù)的真實(shí)分布妇押,這也就限制了學(xué)習(xí)模型的預(yù)測(cè)能力;其次是使用的模型和學(xué)習(xí)算法姓迅,尤其是學(xué)習(xí)算法參數(shù)規(guī)模較大敲霍,比如CNN,參數(shù)規(guī)亩〈妫可以達(dá)到幾十兆甚至上百兆肩杈,理論上能夠擬合大多數(shù)非線性問題,但是也非常容易造成過擬合問題解寝;最后是正則化方法扩然,所謂正則化,就是一種限制學(xué)習(xí)算法的復(fù)雜度的方法聋伦,比如這張圖里的藍(lán)色曲線夫偶,在采樣數(shù)據(jù)上的偏差都為0,但是經(jīng)過正則化限制后嘉抓,復(fù)雜度衰減成為綠色的曲線索守,對(duì)于未知的數(shù)據(jù)分布具有更好的泛化能力。
這里抑片,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的操作過程卵佛,分為5個(gè)方面講述,一些減弱過擬合的方法敞斋。首先是數(shù)據(jù)量不足時(shí)截汪,對(duì)數(shù)據(jù)進(jìn)行重采樣或者數(shù)據(jù)擴(kuò)充;然后是網(wǎng)絡(luò)模型以及一些特殊結(jié)構(gòu)本身能降低過擬合植捎;激活函數(shù)是使卷積神經(jīng)網(wǎng)絡(luò)具有非線性能力的基礎(chǔ)衙解,不同的激活函數(shù)不單在訓(xùn)練過程中表現(xiàn)出不同的收斂狀態(tài),在某種程度上焰枢,也對(duì)過擬合有所影響蚓峦;卷積神經(jīng)網(wǎng)絡(luò)使用大量的隱含參數(shù)舌剂,在訓(xùn)練優(yōu)化過程中,通過梯度傳導(dǎo)調(diào)整隱含參數(shù)暑椰,調(diào)整過程往往表現(xiàn)為不可知霍转、不可控,這就很容易導(dǎo)致隱含參數(shù)之間具有較強(qiáng)的相關(guān)性一汽,這對(duì)于學(xué)習(xí)避消、強(qiáng)化多種有效特征是不利的,很容易對(duì)訓(xùn)練數(shù)據(jù)過好地表達(dá)召夹,但是泛化能力一般岩喷;最后,就是使用一些正則化的方法监憎,降低模型的復(fù)雜度纱意,提高泛化能力。
數(shù)據(jù)擴(kuò)充枫虏,以前講深度學(xué)習(xí)的例會(huì)中也提到過妇穴,比如AlexNet論文里爬虱,為了避免由于數(shù)據(jù)樣本不足的問題造成過擬合隶债,進(jìn)行數(shù)據(jù)拓充(Data Augmentation),使用了兩種方法:第一種是隨機(jī)Crop跑筝,訓(xùn)練的時(shí)候死讹,將輸入的256x256的圖像,隨機(jī)裁剪成為224x224+水平翻轉(zhuǎn)拓展了2048倍曲梗;第二種是對(duì)RGB空間做PCA赞警,即主成分分析,然后對(duì)主成分做一個(gè)輕微的高斯擾動(dòng)虏两;其實(shí)都是數(shù)據(jù)重采樣過程愧旦,但是這種方法產(chǎn)生的效果很有限,在AlexNet的識(shí)別分類應(yīng)用中定罢,僅僅把測(cè)試階段的錯(cuò)誤率降低了1個(gè)百分點(diǎn)笤虫。
數(shù)據(jù)重采樣中,有一個(gè)很有價(jià)值的研究點(diǎn)祖凫,那就是當(dāng)我們的數(shù)據(jù)存在不均衡的類分布時(shí)琼蚯,也就是屬于某一類別的觀測(cè)樣本的數(shù)量顯著少于其它類別,這種現(xiàn)象很多情形下都存在惠况,尤其是在異常檢測(cè)是至關(guān)重要的的場(chǎng)景中很明顯遭庶。根據(jù)長尾理論,在機(jī)器學(xué)習(xí)中稠屠,學(xué)習(xí)算法學(xué)習(xí)到的特征將會(huì)被那些具有大量采樣數(shù)據(jù)的樣本類別所主導(dǎo)峦睡,以至于對(duì)于那些只有少量采樣數(shù)據(jù)的類別不利翎苫。也就是說,采樣數(shù)據(jù)少的類別的特征很有可能淹沒在其他大量采樣數(shù)據(jù)類別的特征中榨了,因?yàn)樘卣鳑]有得到足夠的學(xué)習(xí)或者強(qiáng)化拉队,在這些學(xué)習(xí)算法在這些類別上的預(yù)測(cè)能力會(huì)大打折扣。前面講偏差方差權(quán)衡的時(shí)候阻逮,提到我們的學(xué)習(xí)算法其實(shí)就是在優(yōu)化二者之和粱快,不難理解,對(duì)于一個(gè)學(xué)習(xí)算法來說叔扼,如果對(duì)于大多數(shù)采樣數(shù)據(jù)都滿足了損失代價(jià)最小事哭,按照優(yōu)化的原則,就有理由認(rèn)為已經(jīng)達(dá)到了理想的狀態(tài)瓜富,但是這樣的理想狀態(tài)顯然不是我們想要的鳍咱,我們真正追求的并不是整體的大多數(shù)準(zhǔn)確,而是每個(gè)類別的大多數(shù)準(zhǔn)確与柑,這兩者還是有區(qū)別的谤辜。
這里給出幾個(gè)語義分割的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集都存在這樣的不均衡的類分布問題价捧。數(shù)量占優(yōu)的類別與不占優(yōu)的類別之間的差異往往可能很大丑念,比如我之前做的裂縫檢測(cè),采樣數(shù)據(jù)中絕大多數(shù)的像素都是非裂縫像素结蟋,如果一個(gè)分類器把全部的像素都分為非裂縫脯倚,那整體上的精度仍然是超過90%,顯然這樣的分類器對(duì)我們沒什么用嵌屎。
這是SegNet中使用的一份街景分割的數(shù)據(jù)集推正,同樣也存在這樣的問題。
目前來講宝惰,這種情形下主要有兩種解決方案植榕,首先很容易想到,調(diào)整損失函數(shù)尼夺,把數(shù)量多的類別的單個(gè)訓(xùn)練樣本的損失代價(jià)降低尊残,相反地把類別數(shù)量少的單個(gè)訓(xùn)練樣本的損失代價(jià)提高;另一個(gè)經(jīng)常用到的方法就是對(duì)數(shù)據(jù)集進(jìn)行重采樣汞斧。
這里列出兩個(gè)class reweighting的代表夜郁,其實(shí)本質(zhì)上是一樣的,都是根據(jù)采樣數(shù)據(jù)的統(tǒng)計(jì)結(jié)果粘勒,重新賦予每個(gè)類別相應(yīng)的類別損失權(quán)值竞端。HED 網(wǎng)絡(luò)是進(jìn)行contour detection,所以每個(gè)訓(xùn)練的batch中的非contour像素?cái)?shù)與全部像素?cái)?shù)的比值作為contour類別的損失代價(jià)庙睡,類似得把contour像素與全部像素的比值作為非contour類別的損失代價(jià)事富。MSCNN是針對(duì)多類別的語義分割的網(wǎng)絡(luò)技俐,他同樣先統(tǒng)計(jì)每個(gè)類別的像素?cái)?shù),與其分布的圖像上的像素總和的比值统台,作為每個(gè)類別的頻率雕擂,再對(duì)統(tǒng)計(jì)的頻率進(jìn)行排序,得到中值頻率贱勃,然后使用中值頻率逐一處以每個(gè)類別的頻率井赌,就得到每個(gè)類別對(duì)應(yīng)的損失權(quán)重。
再來看另一個(gè)方向贵扰,數(shù)據(jù)重采樣仇穗,關(guān)于這方面的研究內(nèi)容相對(duì)比較多,這里列出一部分
先來看兩種比較粗暴的方法戚绕,隨機(jī)降采樣和過采樣纹坐,對(duì)于前者,不重復(fù)地從類別1中抽取10%舞丛,這樣減少了類別1 的實(shí)例數(shù)耘子,從而間接地提高了類別2在數(shù)據(jù)中的比例。優(yōu)點(diǎn):它可以提升運(yùn)行時(shí)間球切;并且當(dāng)訓(xùn)練數(shù)據(jù)集很大時(shí)谷誓,可以通過減少樣本數(shù)量來解決存儲(chǔ)問題;缺點(diǎn):它會(huì)丟棄對(duì)構(gòu)建分類器很重要的有價(jià)值的潛在信息欧聘,被隨機(jī)欠采樣選取的樣本可能具有偏差梯醒,它不能準(zhǔn)確代表大多數(shù)擦秽。從而在實(shí)際的測(cè)試數(shù)據(jù)集上得到不精確的結(jié)果。隨機(jī)過采樣介返,把類別2的數(shù)據(jù)復(fù)制20次焕妙,這樣就增加了少數(shù)派的比例蒋伦,相比于欠采樣,這種方法不會(huì)帶來信息損失焚鹊,表現(xiàn)應(yīng)該是比欠采樣好一些的痕届,但是由于復(fù)制少數(shù)類事件,它加大了過擬合的可能性末患。
然后是基于聚類的過采樣研叫,比如采用K均值聚類算法獨(dú)立地被用于兩個(gè)類的實(shí)例,隨后璧针,每一個(gè)聚類都被過采樣以至于相同類的所有聚類有著同樣的實(shí)例數(shù)量嚷炉,這樣做有助于克服由不同子聚類組成的類之間的不平衡,但是還是有可能會(huì)造成過擬合訓(xùn)練探橱。
然后是合成少數(shù)類過采樣技術(shù)申屹,這種方法绘证,是把少數(shù)類中的部分?jǐn)?shù)據(jù)抽取出來,進(jìn)行合成新數(shù)據(jù)的操作哗讥,合成的方法是多樣的嚷那,可以像AlexNet那樣crop + 顏色擾動(dòng),然后再把新生產(chǎn)的數(shù)據(jù)添加到原有數(shù)據(jù)中杆煞,這樣做的好處是魏宽,不會(huì)損失有價(jià)值的信息,而且通過隨機(jī)采樣生成的合成樣本而非實(shí)例的副本决乎,可以緩解過擬合的問題湖员;當(dāng)然缺點(diǎn)也是有的,受限于合成技術(shù)瑞驱,一般不會(huì)把來自其他類的相鄰實(shí)例考慮進(jìn)來娘摔,這樣就有可能導(dǎo)致類間的重疊增加,也有可能引入額外的噪聲唤反;另外凳寺,這種方式對(duì)于高維數(shù)據(jù)不是很有效,像AlexNet彤侍,對(duì)數(shù)據(jù)擴(kuò)充了幾千倍肠缨,但是最終的精度也僅僅是微微提升了一個(gè)百分點(diǎn)。
從原始數(shù)據(jù)集中盏阶,隨機(jī)可重復(fù)采樣晒奕,生成n個(gè)數(shù)據(jù)集,然后分別使用n個(gè)分類器去擬合每個(gè)數(shù)據(jù)集名斟,再把每個(gè)分類器的結(jié)果組合在一起脑慧,得到最終的擬合結(jié)果。這種方式是一種機(jī)器學(xué)習(xí)中的經(jīng)典方法之一砰盐,可以提高及其學(xué)習(xí)算法的穩(wěn)定性和準(zhǔn)確性闷袒,不過這種策略的有效前提條件是基本分類器效果還不錯(cuò),不然很有可能會(huì)使效果更差岩梳。后來CNN里很出名的囊骤,Dropout方法的思路其實(shí)就是bagging的思路。
還有一些機(jī)器學(xué)習(xí)的重采樣方法冀值,但是在CNN中很少用到也物,這里就不再提×辛疲總體上來講滑蚯,常見的數(shù)據(jù)擴(kuò)充這種重采樣方式,往往都是針對(duì)整個(gè)數(shù)據(jù)集作彤,并不會(huì)針對(duì)性的對(duì)那些少數(shù)類進(jìn)行特殊處理膘魄,所以單純的數(shù)據(jù)擴(kuò)充并不能起到強(qiáng)化少數(shù)類特征學(xué)習(xí)的效果乌逐,在這種前提下,權(quán)衡類別損失代價(jià)就顯得更為有效创葡,但是這樣過擬合的問題其實(shí)還是存在浙踢。對(duì)于需要標(biāo)注的監(jiān)督學(xué)習(xí),這其實(shí)是件很麻煩的事情灿渴,目前的做法能夠緩解過擬合的程度還是有限洛波,想要真正避免,還是要從數(shù)據(jù)本身入手骚露。成本和精度也是個(gè)tradeoff的問題蹬挤,最終還是取決于應(yīng)用需求。
再來看CNN的網(wǎng)絡(luò)結(jié)構(gòu)棘幸,這方面的研究相對(duì)而言比較多焰扳,我們經(jīng)常見到最新的方法將基礎(chǔ)網(wǎng)絡(luò)換一下,性能就會(huì)得到很大的提升误续,這也就意味著吨悍,好的網(wǎng)絡(luò)結(jié)構(gòu)本身就有能夠減弱過擬合的能力。因此蹋嵌,研究并設(shè)計(jì)一個(gè)更好的網(wǎng)絡(luò)模型變得至關(guān)重要育瓜。經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型主要在“寬度”與“深度”方面進(jìn)行不同程度的擴(kuò)增。借助于大規(guī)模數(shù)據(jù)的訓(xùn)練栽烂,AlexNet躏仇、VGG經(jīng)典網(wǎng)絡(luò)通過深度增加可以有效地提升其模型的表達(dá)能力。但是很快就遇到了瓶頸腺办,也就是當(dāng)我們這樣一味地追求深度時(shí)候焰手,有個(gè)難以回避的問題,梯度消失菇晃,一些弱的但是有效的特征會(huì)在經(jīng)歷了深層卷積和多層池化后消失册倒,反而導(dǎo)致性能下降,而且受限于顯卡顯存磺送,我們也不可能無限制增加網(wǎng)絡(luò)深度。之后網(wǎng)絡(luò)框架的探索主要集中在如何合理地增加網(wǎng)絡(luò)寬度灿意,提升網(wǎng)絡(luò)性能估灿。比如GoogLeNet和inception網(wǎng)絡(luò),把同一層的單一卷積擴(kuò)展成多種卷積操作并聯(lián)的結(jié)構(gòu)缤剧,以及殘差網(wǎng)絡(luò)的shortcut結(jié)構(gòu)馅袁,這兩種結(jié)構(gòu)成為了后來很多網(wǎng)絡(luò)探索的基礎(chǔ),比如ResNeXt, inception-v4.
這里的幾個(gè)同樣也都是以殘差網(wǎng)絡(luò)和Inception的框架為基礎(chǔ)
這里簡(jiǎn)單介紹幾個(gè)比較有影響力的網(wǎng)絡(luò)結(jié)構(gòu)
Inception 模塊荒辕,不同于Lenet汗销,Alexnet犹褒,VGG那些串行的單路網(wǎng)絡(luò),inception的結(jié)構(gòu)通過類似于并聯(lián)的方式弛针,在同一層的卷積過程中叠骑,引入不同感受野大小的卷積操作,從而在訓(xùn)練過程中削茁,挖掘更多潛在網(wǎng)絡(luò)隱含單元宙枷,Inception v1-v4四篇論文,都是谷歌的同一個(gè)大神研究員發(fā)表茧跋。
在GoogLeNet中慰丛,關(guān)于inception的進(jìn)一步探索比較少,但是隨后的Inception v3的探索中瘾杭,提出一些設(shè)計(jì)理論诅病,首先,特征圖的降采樣粥烁,應(yīng)該遵循漸進(jìn)式地睬隶,而不要很突兀地一下把特征圖縮小很多,這樣容易造成特征的過度壓縮页徐,特征維度增加的過程也要避免表征瓶頸的問題苏潜,作者也意識(shí)到適當(dāng)?shù)卦黾泳矸e網(wǎng)絡(luò)的深度和寬度,可以提升網(wǎng)絡(luò)性能变勇,但是會(huì)導(dǎo)致計(jì)算量的增加恤左,因此這個(gè)過程中要考慮怎么減少不必要的計(jì)算;然后是關(guān)于卷積核的一些思路搀绣,接著關(guān)于不同卷積階段的監(jiān)督在網(wǎng)絡(luò)里起著什么作用以及是否有必要飞袋,還有關(guān)于更好的降采樣方式等。因?yàn)槠渲械囊恍┨剿鬟€是很有價(jià)值的链患,我們細(xì)看一下巧鸭。
第一代版本中,同一層的卷積操作麻捻,分別使用了1x1,3x3,5x5大小的卷積核纲仍,后續(xù)的論文里作者分析認(rèn)為,5x5大小的卷積核首先在計(jì)算消耗上是3x3卷積核的差不多3倍左右贸毕,這么做不劃算
從效果上來看郑叠,一個(gè)5x5大小的卷積核實(shí)現(xiàn)的效果,跟左邊這個(gè)1x1明棍,3x3乡革,3x3的過程是一樣的,分解后參數(shù)的規(guī)模還可以縮減很多
基于前面卷積核分解的思考,我們是不是可以繼續(xù)假設(shè)沸版,那些大于3x3的卷積核嘁傀,因?yàn)槎伎梢苑纸獬梢幌盗械?x3大小的卷積核,因此就顯得沒那么有必要视粮。那是不是又可以把3x3的卷積核再分解成更小的卷積核呢细办,作者首先去測(cè)試了分解成2x2,發(fā)現(xiàn)使用這種對(duì)稱結(jié)構(gòu)的卷積效果比非對(duì)稱的卷積效果更好馒铃,所謂非對(duì)稱的卷積蟹腾,就是不再是nxn標(biāo)準(zhǔn)的窗口,而是nx1或者1xn的窗口区宇,這么做同樣也可以縮減參數(shù)規(guī)模娃殖,但是遺憾的是,作者在測(cè)試的時(shí)候發(fā)現(xiàn)议谷,這種結(jié)構(gòu)對(duì)于網(wǎng)絡(luò)的早期階段炉爆,特征圖plane size 較大的時(shí)候并不起作用,而在特征圖大小在12x12到20x20范圍內(nèi)時(shí)卧晓,才有效芬首,而且設(shè)置成1x7和7x1的卷積核最好。但是后來在inception-v4 和 Inception-resnet-v2中逼裆,作者在feature map較大的情況下仍然使用了這種非對(duì)稱分解郁稍,說白了,其實(shí)并沒有嚴(yán)格的標(biāo)準(zhǔn)胜宇,還是怎么效果好耀怜,就怎么改。
這里輔助分類器桐愉,是指網(wǎng)絡(luò)早期卷積階段學(xué)習(xí)到的特征進(jìn)行預(yù)測(cè)财破,從而通過監(jiān)督各個(gè)階段的卷積特征學(xué)習(xí),這個(gè)DSN(深度監(jiān)督網(wǎng)絡(luò))是一樣的思路, 測(cè)試的發(fā)現(xiàn)从诲,其實(shí)有沒有這樣的輔助分類器左痢,對(duì)于網(wǎng)絡(luò)早期的訓(xùn)練結(jié)果影響不大,但是在訓(xùn)練的后期系洛,確實(shí)可以是的網(wǎng)絡(luò)的精度提升俊性。另外,在網(wǎng)絡(luò)的早期階段引入輔助分類器碎罚,還有助于強(qiáng)化那些容易出問題的 low-level 的特征磅废。因此,也可以把這些輔助分類器看做一種正則化方法荆烈。
在減小特征圖plane size 或者叫g(shù)rid size時(shí), 如果我們先擴(kuò)充特征的維度,再進(jìn)行pooling操作憔购,或者先后完成了plane size 降采樣再進(jìn)行特征維度增長宫峦,這兩種做法在串行的單路網(wǎng)絡(luò)中很常見,但是兩種操作都不是好的做法玫鸟,因?yàn)檫@兩種做法都面臨著导绷,輸入特征維度到輸出特征維度,驟降的過程屎飘,也就是有表征瓶頸的風(fēng)險(xiǎn)妥曲,作者就想出一種新的方法,融合卷積和pooling的結(jié)果的方式钦购,這里卷積步長不再是1檐盟,而是2,在實(shí)現(xiàn)特征圖plane size 減小的同時(shí)還可以增加特征維度押桃,是的表征瓶頸的問題得以減弱葵萎,而且計(jì)算量上比前兩種都還小一些。
殘差網(wǎng)絡(luò)非常簡(jiǎn)單唱凯,想左圖那樣羡忘,通過設(shè)置一些shortcut,把卷積操作之前的特征和映射后的特征進(jìn)行求和磕昼,這樣可以在一定程度上補(bǔ)償那些卷積過程損失掉的有效特征卷雕,后面一些論文分析,這么做之所以有利于學(xué)習(xí)票从,最主要的可能是因?yàn)閟hortcut增加了潛在的組成網(wǎng)絡(luò)是數(shù)量漫雕。
Inception-resnet v2還是inception 系列的,這里保持了以往inception的基本結(jié)構(gòu)和優(yōu)點(diǎn)纫骑,另外也把resnet的結(jié)構(gòu)引入其中蝎亚,效果還不錯(cuò)。
分型網(wǎng)絡(luò)先馆,由于包含不同深度的子網(wǎng)絡(luò)发框,分形網(wǎng)絡(luò)對(duì)總體深度的選取不敏感;在訓(xùn)練階段煤墙,會(huì)找出有用的子網(wǎng)絡(luò)集合梅惯。它是第一個(gè)在極深卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域?qū)τ?ResNet 的替代品,這也表明了殘差學(xué)習(xí)對(duì)于極深網(wǎng)絡(luò)不是必需的仿野,最重要的還是前面講的铣减,要增加潛在的組成網(wǎng)絡(luò)的數(shù)目。網(wǎng)絡(luò)結(jié)構(gòu)其實(shí)很簡(jiǎn)單脚作,像這樣包含多條路徑葫哗。
分型網(wǎng)絡(luò)中存在多條連接路徑缔刹,在訓(xùn)練的階段,假設(shè)即使一些路徑拋棄掉劣针,仍至少存在一條路徑是有效的校镐,這就是它的路徑舍棄原則,在訓(xùn)練階段捺典,Drop-path 有兩種模式鸟廓,local 和 global ,前者使用固定的概率值襟己,拋棄一些path, 但是保證至少有一條path是通的引谜,Global 是全局唯一一條選中的path是通的,其他都拋棄掉擎浴,這就跟Bagging的思路相似员咽,在多個(gè)分類器都比較有效的情形下,對(duì)自舉樣本集進(jìn)行訓(xùn)練退客,并組合訓(xùn)練結(jié)果骏融,這種方式在不進(jìn)行數(shù)據(jù)擴(kuò)充的情況下,仍然取得能和ResNet相比的結(jié)果萌狂。
DFN档玻,跟FractalNet一樣,都是多路徑的網(wǎng)絡(luò)結(jié)構(gòu)茫藏,這類網(wǎng)絡(luò)都可以理解為一種組合網(wǎng)絡(luò)误趴,組合網(wǎng)絡(luò)可以分解成為一系列不同深度的網(wǎng)絡(luò),他們?cè)趯?shí)驗(yàn)整對(duì)這些網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練务傲,得到的結(jié)果是凉当,融合網(wǎng)絡(luò)里較深的網(wǎng)絡(luò)組合能夠使網(wǎng)絡(luò)性能提升,較淺的組合網(wǎng)絡(luò)反而使網(wǎng)絡(luò)性能下降售葡,但是由于淺層的網(wǎng)絡(luò)容易收斂看杭,它們能夠幫助深層的網(wǎng)絡(luò)進(jìn)行優(yōu)化。既然我們認(rèn)為最終的表現(xiàn)是一種集成的近似挟伙,那么我們是否可以著手尋找更優(yōu)的組合網(wǎng)絡(luò)以達(dá)到整體性能的提升楼雹?通過這里的組合網(wǎng)絡(luò)之間相互影響的啟發(fā),我們認(rèn)為極深的網(wǎng)絡(luò)會(huì)產(chǎn)生“拖后腿”的效果尖阔,反而較深但又不是特別深的“中間”網(wǎng)絡(luò)會(huì)對(duì)結(jié)果影響比較大贮缅。這是我看到的第一篇把從組成網(wǎng)絡(luò)的角度去思考網(wǎng)絡(luò)性能的論文,之前的很多網(wǎng)絡(luò)更多的通過實(shí)驗(yàn)證明可行介却,卻沒有一篇說明谴供,為什么一些增加寬度的網(wǎng)絡(luò)可以使效果更好。
我們現(xiàn)在已經(jīng)知道齿坷,需要淺層網(wǎng)絡(luò)來幫助訓(xùn)練較深網(wǎng)絡(luò)桂肌,而且實(shí)際設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的時(shí)候很難做到只保留中間深度的網(wǎng)絡(luò)結(jié)構(gòu)数焊。那么一個(gè)折中的方案是把這里面最深的組成網(wǎng)絡(luò)去掉,去除極深的組成網(wǎng)絡(luò)不會(huì)對(duì)整體性能產(chǎn)生太大影響轴或,有時(shí)候反而會(huì)提高最終結(jié)果昌跌,尤其是隨著網(wǎng)絡(luò)深度不斷增大的時(shí)候仰禀。
因此作者認(rèn)為一個(gè)好的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該包含如下兩個(gè)特性:足夠多的潛在網(wǎng)絡(luò)數(shù)目照雁,以及足夠好的組成網(wǎng)絡(luò)。最簡(jiǎn)單的策略是去掉“拖后腿”的極深網(wǎng)絡(luò)答恶,將其變成“中間”深的組成網(wǎng)絡(luò)饺蚊。為此,提出的Inception-Like結(jié)構(gòu)與Merge-and-Run結(jié)構(gòu)都去除了極深的那一條線路悬嗓,但是Inception-Like的組合數(shù)目比相同參數(shù)下的ResNet要少污呼,最終Merge-and-Run形式比較符合前面的分析與觀察。
這篇方法是MSRA最近剛剛發(fā)布的包竹,突破了傳統(tǒng)標(biāo)準(zhǔn)卷積窗口的限制燕酷,使用可變形的卷積窗口和池化窗口。受啟發(fā)于Spatial Transformer Networks周瞎,那個(gè)方法里是對(duì)特征圖進(jìn)行形變苗缩,這里是對(duì)卷積核池化窗口進(jìn)行形變。其中關(guān)于雙線性插值的方法声诸,基本沿用了STN酱讶。在傳統(tǒng)的卷積特征圖一般都是稀疏矩陣,固定卷積窗口彼乌,相當(dāng)于對(duì)圖像的潛在特征等間距采樣表達(dá)泻肯,但是如果稀疏特征甚至沒有意義的特征占圖像面積較大,這樣等間距采樣表達(dá)對(duì)于學(xué)習(xí)算法是不利的慰照,很容易想到灶挟,好的方式應(yīng)該是對(duì)于感興趣的區(qū)域投以更多的關(guān)注,學(xué)習(xí)更多特征毒租,這也就是作者在論文中的論述:并非所有的 pixel 位置感受野內(nèi)的特征對(duì)最后的相應(yīng)結(jié)果具有相同的價(jià)值稚铣。
這是在卷積和池化過程中學(xué)習(xí)
簡(jiǎn)單總結(jié)一下,網(wǎng)絡(luò)結(jié)構(gòu)上的一些特點(diǎn)蝌衔,首先寬度和深度都很重要榛泛,尤其是深度;后來的很多拓展寬度的方法噩斟,其實(shí)都是為了減弱深度擴(kuò)展的負(fù)面影響曹锨,從而提升網(wǎng)絡(luò)性能;在寬度擴(kuò)展的問題上剃允,基本都是在保證計(jì)算更高效沛简,同時(shí)減少模型參數(shù)的前提下進(jìn)行齐鲤,而擴(kuò)展寬度的核心似乎是,增加潛在的組成網(wǎng)絡(luò)的數(shù)目椒楣,整個(gè)訓(xùn)練過程就轉(zhuǎn)化成了尋找一組最優(yōu)網(wǎng)絡(luò)組合的問題给郊。另外,我也發(fā)現(xiàn)一個(gè)有趣的問題捧灰,像單路淆九、多路的網(wǎng)絡(luò)現(xiàn)在在圖像識(shí)別分類的問題上都已經(jīng)比較成熟,相關(guān)的探索非常多毛俏,但是對(duì)于那些非圖像級(jí)的應(yīng)用炭庙,而是像素級(jí)的語義問題,似乎現(xiàn)在只有單路的網(wǎng)絡(luò)煌寇,包括語義分割焕蹄,GAN等,都是單路串行的網(wǎng)絡(luò)阀溶,我也有嘗試把inception腻脏,resnet的結(jié)構(gòu)應(yīng)用在像素級(jí)的問題上,發(fā)現(xiàn)網(wǎng)絡(luò)訓(xùn)練的結(jié)果表現(xiàn)為不收斂银锻,原因目前我還不清楚永品,我還在摸索中。
非線性激活單元徒仓,一般都很簡(jiǎn)單腐碱,但是卻是CNN能夠描述非線性問題的根本。在研究過擬合問題的時(shí)候掉弛,激活單元按照原理來講症见,并不會(huì)直接影響模型過擬合,但是對(duì)模型的訓(xùn)練收斂影響較大殃饿,同樣的網(wǎng)絡(luò)結(jié)構(gòu)谋作,使用不同的激活函數(shù),最終的預(yù)測(cè)精度可能會(huì)差異很大乎芳,這就間接反映出激活單元對(duì)過擬合問題其實(shí)也有一定的影響遵蚜。目前激活函數(shù),已經(jīng)有一個(gè)家族奈惑,按照函數(shù)本身的平滑性吭净,可以分為3類,首先是平滑的非線性函數(shù)肴甸,其次是連續(xù)但是并非處處可導(dǎo)的寂殉,還有就是部分離散的。
平滑非線性函數(shù)里面原在,最早被使用的是Tanh 和 Sigmoid, 但是后來在AlexNet 網(wǎng)絡(luò)中對(duì)這兩個(gè)激活函數(shù)進(jìn)行了分析友扰,由于他們的兩端處于飽和狀態(tài)彤叉,容易產(chǎn)生梯度消失,對(duì)于網(wǎng)絡(luò)的收斂不利村怪,被ReLU 取代秽浇,之后使用就較少,Softplus 和 Softsign 也存在同樣的問題甚负,被使用的更少柬焕,而ELU是比較新的一種激活函數(shù),現(xiàn)在不少網(wǎng)絡(luò)里都能看到它腊敲,大于0 的部分跟ReLU一樣击喂,小與0的部分改成了指數(shù)函數(shù)的形式,可以略微提升網(wǎng)絡(luò)的性能碰辅。
連續(xù)非處處可導(dǎo)的非線性激活單元,全都是ReLU的變體介时,ReLU激活函數(shù)有很多優(yōu)點(diǎn)没宾,相比于它之前的激活函數(shù),它足夠簡(jiǎn)單沸柔,計(jì)算量很小性誉,能夠使模型快速收斂川背,非飽和的性質(zhì)也緩解了梯度消失的問題,提供了神經(jīng)網(wǎng)絡(luò)的稀疏表達(dá)能力等,缺點(diǎn)也有籍茧,可能會(huì)出現(xiàn)神經(jīng)元死亡,權(quán)重?zé)o法更新的情況架谎。如果發(fā)生這種情況讲冠,那么流經(jīng)神經(jīng)元的梯度從這一點(diǎn)開始將永遠(yuǎn)是0。也就是說俭正,ReLU神經(jīng)元在訓(xùn)練中不可逆地死亡了奸鬓。
部分離散是指,在激活過程中引入高斯噪聲掸读,使得網(wǎng)絡(luò)在接近飽和狀態(tài)時(shí)串远,仍然存在梯度,網(wǎng)絡(luò)仍然可以繼續(xù)進(jìn)行優(yōu)化儿惫,比如NAF澡罚,使用退火機(jī)制控制噪聲的程度,在訓(xùn)練的早期階段肾请,投入大量的噪聲留搔,使得網(wǎng)絡(luò)能夠在優(yōu)化空間內(nèi)進(jìn)行更多的探索,隨著收斂過程筐喳,逐漸減少噪聲催式。不過這種引入噪聲的機(jī)制對(duì)性能的提升其實(shí)比較有限函喉,而且增大了激活函數(shù)的復(fù)雜度,目前來看荣月,使用的很少管呵,還有待開發(fā)吧
激活函數(shù)源自于神經(jīng)網(wǎng)絡(luò)中的閘門機(jī)制,或者說是疼痛的閘門控制理論哺窄,這個(gè)理論簡(jiǎn)單來講捐下,就是非疼痛的輸入可以阻止疼痛的感覺傳遞到中樞神經(jīng)系統(tǒng)中。因此萌业,通過無害的刺激輸入是可以抑制疼痛的坷襟。這也是麻醉劑的基本原理
我們可以把那些傳輸痛感的神經(jīng)纖維,稱為傳入疼痛感受神經(jīng)生年,人體內(nèi)的這種神經(jīng)纖維并不是單一的婴程,而是多種的,簡(jiǎn)單可以分為兩種抱婉,一種是AB纖維档叔,傳遞劇烈疼痛,C纖維傳遞絞痛蒸绩、慢性痛衙四,而且彼此之間還會(huì)相互影響,而回顧C(jī)NN的激活單元患亿,一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)都是單一的激活單元传蹈,更不存在激活單元之間的相互影響,因此步藕,未來有可能這方面還會(huì)有更多的探索惦界。
去相關(guān)這類的整體思路認(rèn)為,CNN中的隱含單元漱抓,在學(xué)習(xí)特征的過程中表锻,存在一定的相關(guān)性,換種說法就是乞娄,存在相互重疊冗余的特征表征瞬逊,從而使得潛在性能不能完全發(fā)揮出來,因此想尋求一種方法仪或,約束隱含單元确镊,使他們盡可能學(xué)到不相關(guān)的有效特征
這是早一些的學(xué)習(xí)算法,玻爾茲曼機(jī)范删,基于生理神經(jīng)的一些研究模型蕾域,認(rèn)為大腦視覺神經(jīng)皮層的細(xì)胞,可以看成由一對(duì)半調(diào)制線性濾波器,像這樣濾波輸出的平方的和再開方旨巷,對(duì)于隱含層的優(yōu)化函數(shù)使用的有兩個(gè)部分巨缘,前一部分,是相關(guān)系數(shù)采呐,就是約束隱含單元盡可能學(xué)到多樣的若锁,不相關(guān)特征,后面的一項(xiàng)主要是約束迭代過程中收斂的斧吐,在收斂后又固,前后兩次迭代結(jié)果的差異應(yīng)該足夠小。
到深度學(xué)習(xí)后煤率,其實(shí)還是延續(xù)著這個(gè)領(lǐng)域還是延續(xù)著這個(gè)思路仰冠,不過,目前來看蝶糯,這種對(duì)隱含單元相關(guān)性限制主要是利用最后的輸出層的結(jié)果洋只,中間隱含層隱含單元的相關(guān)性依賴于梯度下降優(yōu)化過程的間接調(diào)整,這也不難理解裳涛,一般我們認(rèn)為隱含單元之間的相關(guān)性過強(qiáng)會(huì)弱化網(wǎng)絡(luò)的能力木张,但是有些隱單元之間的相關(guān)性對(duì)于部分特征的學(xué)習(xí)和增強(qiáng)也不能忽略,這樣一來端三,我們并不知道優(yōu)化過程中哪些隱單元之間會(huì)形成這樣的相關(guān)性,也就很難去建立約束規(guī)則鹃彻,另一方面郊闯,全部進(jìn)行約束,需要耗費(fèi)很多計(jì)算在計(jì)算方差蛛株,協(xié)方差等上面团赁,所以大型網(wǎng)絡(luò)還沒見到隱含層使用去相關(guān)操作的。DCCA公式很簡(jiǎn)單谨履,不多說欢摄。
相關(guān)性神經(jīng)網(wǎng)絡(luò),跟前面講述的DCCA方法笋粟,研究的問題相似怀挠,對(duì)于每個(gè)sample數(shù)據(jù)含有two views,比如把圖像拆分成左右兩半害捕,輸入到兩個(gè)網(wǎng)絡(luò)中獨(dú)立調(diào)整參數(shù)绿淋,重點(diǎn)是,得到兩組輸出后尝盼,假設(shè)對(duì)于同一個(gè)sample的兩個(gè)視圖吞滞,他們應(yīng)該是強(qiáng)相關(guān)的,因?yàn)槭菑?qiáng)相關(guān)的盾沫,那就有希望利用其中一個(gè)重建另一個(gè)裁赠,這應(yīng)該算是一種生成模型殿漠,但是不像GAN,沒有生成器和判別器的 tradeoff 過程佩捞。
DeCov的設(shè)計(jì)思路很有趣绞幌,改變了以往單個(gè)sample訓(xùn)練的方式,把兩張sample組合成一張圖失尖,這沿用了前面的two views的思想啊奄,同時(shí)約束隱含層的相關(guān)性,統(tǒng)計(jì)相關(guān)性損失代價(jià)掀潮,這里其實(shí)隱含一個(gè)重要的信息菇夸,相關(guān)性約束其實(shí)可以再細(xì)分,對(duì)于卷積階段的隱含單元仪吧,為了學(xué)習(xí)特征的多樣和有效庄新,應(yīng)該盡量使他們相關(guān)性較小,然而并不能做到完全去相關(guān)薯鼠,一種可行的方法是對(duì)隱含單元進(jìn)行分組择诈,按照組內(nèi)強(qiáng)相關(guān),組間弱相關(guān)的原則出皇,進(jìn)行約束羞芍。
SDC,是基于DeCov的方法升級(jí)郊艘,隱含單元之間的相關(guān)性限制包括兩個(gè)方面荷科,擴(kuò)展了DeCov的 group 的做法,組內(nèi)強(qiáng)相關(guān)纱注,組外弱相關(guān)畏浆。
總的來說,這一類方法狞贱,理論上來說應(yīng)該是有效的刻获,但是目前的研究主要還是處于應(yīng)用在分類識(shí)別的問題上,測(cè)試數(shù)據(jù)集不大瞎嬉,還沒看到有人拿來用在目標(biāo)檢測(cè)或者像素級(jí)語義上蝎毡。
最后,簡(jiǎn)單講一講一些網(wǎng)絡(luò)中起著正則化作用的操作佑颇,有助于減弱網(wǎng)絡(luò)過擬合問題顶掉。
首先是權(quán)值衰減,也就是在常規(guī)的損失函數(shù)里挑胸,添加一項(xiàng)權(quán)值更新的約束項(xiàng)痒筒,權(quán)值在更新的過程中更加平滑的調(diào)整,并且使得優(yōu)化后的權(quán)值向量,整體上平方和最小簿透,避免了權(quán)值差異過大移袍,可能原因是權(quán)值過大會(huì)過分強(qiáng)化部分特征,如果很不巧這部分特征源自數(shù)據(jù)本身的采樣或者統(tǒng)計(jì)噪聲老充,可能對(duì)于訓(xùn)練數(shù)據(jù)擬合較好葡盗,但泛化能力很差。所以作者在論文里分析啡浊,使用權(quán)值縮減的策略可以抑制權(quán)值向量中一些不相關(guān)的成分觅够,如果衰減系數(shù)選擇的合適,還可以在一定程度上抑制數(shù)據(jù)本身的噪聲巷嚣,從而提高泛化能力喘先。
Dropout在減弱網(wǎng)絡(luò)模型的過擬合問題上,影響力還是非常大的廷粒,是很多減弱過擬合方法的baseline窘拯,直到現(xiàn)在很多網(wǎng)絡(luò)里還在使用。Dropout的思路是這樣坝茎,作者也意識(shí)對(duì)于擬合能力很強(qiáng)涤姊,訓(xùn)練樣本不足情景,網(wǎng)絡(luò)模型很容易過擬合嗤放,一個(gè)可行的解決方案思喊,是整合很多個(gè)不同的網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的,這就是Bagging的策略次酌,當(dāng)然分別訓(xùn)練這樣一些網(wǎng)絡(luò)時(shí)間成本太高搔涝,Dropout的方法是,當(dāng)網(wǎng)絡(luò)在輸入一個(gè)訓(xùn)練樣本時(shí)和措,隱含層的每個(gè)隱單元都有概率為p的可能被忽略掉,在測(cè)試階段只需要把權(quán)值的輸出結(jié)果乘以概率p蜕煌,就能實(shí)現(xiàn)在一個(gè)網(wǎng)絡(luò)中派阱,在共享網(wǎng)絡(luò)參數(shù)的情形下,實(shí)現(xiàn)多個(gè)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的融合斜纪。如果一個(gè)網(wǎng)絡(luò)含有n個(gè)隱單元贫母,在整個(gè)網(wǎng)絡(luò)中使用Dropout,就相當(dāng)于有2^n個(gè)網(wǎng)絡(luò)盒刚,應(yīng)該說在數(shù)目上還是非常龐大的腺劣。被忽略的隱含單元,是根據(jù)二項(xiàng)分布隨機(jī)選擇的因块。
使用dropout能夠使網(wǎng)絡(luò)學(xué)習(xí)的特征更加有效橘原,圖左和圖右是在小數(shù)據(jù)集上的測(cè)試差異很明顯,左邊的隱單元之間必須通過相互合作才能產(chǎn)生好的重建結(jié)果,每個(gè)隱單元看起來都是雜亂的趾断、沒有意義的拒名,而使用dropout的網(wǎng)絡(luò),在訓(xùn)練過程中更加強(qiáng)調(diào)每個(gè)隱單元的重建結(jié)果芋酌,所以每個(gè)隱單元呈現(xiàn)出更有意義的特征信息增显。這里回顧前面去相關(guān)的方法,其實(shí)全局Dropout就是使每個(gè)隱單元之間的相關(guān)性最小脐帝。
關(guān)于對(duì)哪些隱單元使用Dropout ,測(cè)試結(jié)果看起來同云,對(duì)所有的層都使用最好
關(guān)于對(duì)哪些隱單元使用Dropout ,測(cè)試結(jié)果看起來,對(duì)所有的層都使用最好堵腹,而且隱含層和數(shù)據(jù)輸入層的dropout 比率還會(huì)有些區(qū)別炸站,一般來講最優(yōu)的設(shè)置是,輸入層0.8秸滴, 隱含層根據(jù)隱含層隱單元數(shù)量的多少武契,一般設(shè)置在0.5-0.8之間;數(shù)據(jù)集大小對(duì)于dropout方法也有影響荡含,如果數(shù)據(jù)量過少咒唆,dropout是不起作用的,而且還有可能產(chǎn)生負(fù)面影響释液,隨著數(shù)據(jù)增多全释,dropout的增益效果才體現(xiàn)出來,但是如果數(shù)據(jù)量非常豐富误债,不存在過擬合問題浸船,用不用dropout沒什么差別。
DropConnect是基于Dropout的變體寝蹈,改動(dòng)也很簡(jiǎn)單李命,一般卷積過程是,先對(duì)輸入v進(jìn)行卷積箫老,在對(duì)結(jié)果進(jìn)行非線性激活封字,dropout是在非線性激活后,通過隨機(jī)選擇的方式生成一個(gè)二值的mask耍鬓,作用于輸出結(jié)果阔籽,DropConnect 就考慮是不是可以把這個(gè)mask放置在權(quán)值矩陣進(jìn)行卷積之前,也能稍微改善一點(diǎn)精度牲蜀。
一般來講笆制,在使用一個(gè)數(shù)據(jù)集訓(xùn)練的時(shí)候,受限于顯卡顯存和計(jì)算能力的限制涣达,不會(huì)一次性把整個(gè)數(shù)據(jù)集投入訓(xùn)練在辆,往往會(huì)采用從數(shù)據(jù)集中采樣出一個(gè)batch证薇,稱這樣的batch為mini-batch,經(jīng)驗(yàn)上來看开缎,當(dāng)batch的大小增加時(shí)棕叫,訓(xùn)練過程中的梯度損失,應(yīng)該是與整個(gè)數(shù)據(jù)集的分布狀態(tài)更符合奕删,而且從效果上來看俺泣,batch的大小一般是大于1的偶數(shù)時(shí),往往比數(shù)據(jù)逐個(gè)訓(xùn)練要高效完残,這是計(jì)算過程的并行加速效果伏钠。在權(quán)值更新過程中,都存在這樣的現(xiàn)象谨设,最終的輸出結(jié)果熟掂,要受到全局參數(shù)的影響,網(wǎng)絡(luò)參數(shù)很小的變化都有可能在深層的網(wǎng)絡(luò)中被急速放大扎拣,這就要求赴肚,卷積層在表征特征分布模式時(shí),需要連續(xù)地適應(yīng)新的數(shù)據(jù)分布模式二蓝。以往的網(wǎng)絡(luò)為了解決這個(gè)問題誉券,會(huì)設(shè)置很小的學(xué)習(xí)率,以及專門進(jìn)行初始化刊愚。
這就是Batch normalization的過程踊跟,可以緩解前面說的問題,對(duì)一個(gè)mini-batch 訓(xùn)練數(shù)據(jù)鸥诽,進(jìn)行標(biāo)準(zhǔn)化商玫,核心公式是這樣。允許使用更大的學(xué)習(xí)率牡借,不用精心地進(jìn)行初始化拳昌。
(完)