一、多層神經(jīng)網(wǎng)絡(luò)中關(guān)于級(jí)數(shù)的解釋
在多層神經(jīng)網(wǎng)絡(luò)中客蹋,圖像的第一級(jí)的表示可以是在特定的位置和?度是否出現(xiàn)邊緣盐捷;
而第二級(jí)的表示說(shuō)不定能夠?qū)⑦@些邊緣組合出有趣的模式,如花紋倔矾;
在第三級(jí)的表示中妄均,也許上一級(jí)的花紋能進(jìn)一步匯合成對(duì)應(yīng)物體特定部位的模式柱锹。
這樣逐級(jí)表示下去哪自,最終,模型能夠較容易根據(jù)最后一級(jí)的表示完成分類(lèi)任務(wù)禁熏。需要強(qiáng)調(diào)的是壤巷,輸入的逐級(jí)表示由多層模型中的參數(shù)決定,而這些參數(shù)都是學(xué)出來(lái)的瞧毙。深度學(xué)習(xí)的優(yōu)勢(shì)就在于不需要人來(lái)提取復(fù)雜的特征胧华,而缺點(diǎn)就是更加龐大的參數(shù)。
二宙彪、AlexNet與LeNet的比較
(1)與相對(duì)較小的LeNet相比矩动,AlexNet包含8層變換,其中有5層卷積和2層全連接隱藏層释漆,以及1個(gè)全連接輸出層悲没。
第一層中的卷積窗口形狀是11×11。因?yàn)镮mageNet中絕大多數(shù)圖像的高和寬均比MNIST圖像的高和寬大10倍以上男图,ImageNet圖像的物體占用更多的像素示姿,所以需要更大的卷積窗口來(lái)捕獲物體甜橱。
第二層中的卷積窗口形狀減小到5×5,之后全采用3×3栈戳。
此外岂傲,第一、第二和第五個(gè)卷積層之后都使用了窗口形狀為3×3子檀、步幅為2的最大池化層镊掖。而且,AlexNet使用的卷積通道數(shù)也大于LeNet中的卷積通道數(shù)數(shù)十倍褂痰。
緊接著最后一個(gè)卷積層的是兩個(gè)輸出個(gè)數(shù)為4096的全連接層堰乔。這兩個(gè)巨大的全連接層帶來(lái)將近1 GB的模型參數(shù)。由于早期顯存的限制脐恩,最早的AlexNet使用雙數(shù)據(jù)流的設(shè)計(jì)使一個(gè)GPU只需要處理一半模型镐侯。幸運(yùn)的是,顯存在過(guò)去幾年得到了長(zhǎng)足的發(fā)展驶冒,因此通常我們不再需要這樣的特別設(shè)計(jì)了苟翻。
(2)AlexNet將sigmoid激活函數(shù)改成了更加簡(jiǎn)單的ReLU激活函數(shù)
????????一方面,ReLU激活函數(shù)的計(jì)算更簡(jiǎn)單骗污,例如它并沒(méi)有sigmoid激活函數(shù)中的求冪運(yùn)算崇猫。
????????另一方面,ReLU激活函數(shù)在不同的參數(shù)初始化方法下使模型更容易訓(xùn)練需忿。這是由于當(dāng)sigmoid激活函數(shù)輸出極接近0或1時(shí)诅炉,這些區(qū)域的梯度幾乎為0,從而造成反向傳播無(wú)法繼續(xù)更新部分模型參數(shù)屋厘;而ReLU激活函數(shù)在正區(qū)間的梯度恒為1涕烧。因此,若模型參數(shù)初始化不當(dāng)汗洒,sigmoid函數(shù)可能在正區(qū)間得到幾乎為0的梯度议纯,從而令模型無(wú)法得到有效訓(xùn)練。
(3)AlexNet通過(guò)丟棄法(dropout)來(lái)控制全連接層的模型復(fù)雜度溢谤。而LeNet并沒(méi)有使用丟棄法瞻凤。
(4)AlexNet引入了大量的圖像增廣,如翻轉(zhuǎn)世杀、裁剪和顏色變化阀参,從而進(jìn)一步擴(kuò)大數(shù)據(jù)集來(lái)緩解過(guò)擬合。