一 神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題怎么解決孝宗?請(qǐng)?jiān)敿?xì)說(shuō)明。
答案:
(1)L1與L2正則化?
????????????在損失函數(shù)加懲罰項(xiàng)忍抽,L1正則加系數(shù)絕對(duì)值求和,L2正則加系數(shù)的平方求和董朝,使損失函數(shù)增大鸠项,降低過(guò)擬合風(fēng)險(xiǎn)。
(2)Dropout正則化
????????1子姜、訓(xùn)練過(guò)程
????????????神經(jīng)元隨機(jī)失效祟绊,概率為P。并且在神經(jīng)元存在且工作的狀態(tài)下哥捕,權(quán)重才會(huì)更新牧抽,權(quán)重更新的? ?越多理論上會(huì)變得更大
????????2、測(cè)試過(guò)程
????????????神經(jīng)元隨機(jī)失效遥赚,概率為0扬舒。所有的神經(jīng)元都會(huì)參與計(jì)算,大于訓(xùn)練時(shí)候的任意一個(gè)模型的計(jì)算量
(3)BN結(jié)構(gòu)
? ? ? ? ?1凫佛、Batch Normalization的作用就是減小Internal Covariate Shift 所帶來(lái)的影響讲坎,讓模型變得更加健壯孕惜,魯棒性(Robustness)更強(qiáng)。
? ? ? ? ? 2 衣赶、Batch Normalization 的作用诊赊,使得均值和方差保持固定(由每一層γ和β決定),不同層學(xué)習(xí)到不同的分布狀態(tài)
? ? ? ? ? 3府瞄、因此后層的學(xué)習(xí)變得更容易一些碧磅。Batch Normalization 減少了各層 W 和 b 之間的耦合性,讓各層更加獨(dú)立遵馆,實(shí)現(xiàn)自我訓(xùn)練學(xué)習(xí)的效果
(4)早停止法
通常不斷訓(xùn)練之后鲸郊,損失越來(lái)越小。但是到了一定之后货邓,模型學(xué)到的過(guò)于復(fù)雜(過(guò)于擬合訓(xùn)練集上的數(shù)據(jù)的特征)造成測(cè)試集開(kāi)始損失較小秆撮,后來(lái)又變大。模型的w參數(shù)會(huì)越來(lái)越大换况,那么可以在測(cè)試集損失減小一定程度之后停止訓(xùn)練职辨。
(5)數(shù)據(jù)增強(qiáng)
剪切、旋轉(zhuǎn)/反射/翻轉(zhuǎn)變換戈二、縮放變換舒裤、平移變換、尺度變換觉吭、對(duì)比度變換腾供、噪聲擾動(dòng)、顏色變換等一種或多種組合數(shù)據(jù)增強(qiáng)變換的方式來(lái)增加數(shù)據(jù)集的大小
二? ?假設(shè)有一個(gè)28x28的圖片鲜滩,有32個(gè)卷積核進(jìn)行卷積伴鳖,大小為3x3,步幅為1徙硅,使用“same”的填充方式榜聂。請(qǐng)寫出輸出特征圖的尺寸是多少和計(jì)算過(guò)程。
答案:
(1)卷積網(wǎng)絡(luò)計(jì)算公式
輸入大忻朴巍:H1峻汉,W1,C1
輸出大衅晖:H2休吠,W2,C2
卷積核參數(shù):FxF(核大幸挡尽)瘤礁,S(步長(zhǎng)),P(零填充大忻酚取)柜思, N(卷積核個(gè)數(shù))
H2 = (H1-F+2P)/S +1
W2 = (W1-F+2P)/S + 1
C2 = N
Same意為特征圖的大小與處理之前一致:
輸出大小為:H = (28-3+2P)/1+1=28
W = (28-3+2P)/1+1=28
求解可得:P=1
通道數(shù)與Filter個(gè)數(shù)一致:
C = 32
輸出圖像的大小為:28*28*32
三 有哪些激活函數(shù)可以使用岩调?詳細(xì)說(shuō)明每種激活函數(shù)的特點(diǎn)?
(1)sigmoid
1Sigmoid函數(shù)飽和使梯度消失赡盘。sigmoid神經(jīng)元有一個(gè)不好的特性号枕,就是當(dāng)神經(jīng)元的激活在接近0或1處時(shí)會(huì)飽和:在這些區(qū)域,梯度幾乎為0陨享。
2指數(shù)函數(shù)的計(jì)算是比較消耗計(jì)算資源的
(2)Tanh
Tanh:和sigmoid神經(jīng)元一樣葱淳,它也存在飽和問(wèn)題,依然指數(shù)運(yùn)算抛姑。但是和sigmoid神經(jīng)元不同的是赞厕,它的輸出是零中心的。
(3)Relu
優(yōu)點(diǎn):
1相較于sigmoid和tanh函數(shù)定硝,ReLU對(duì)于隨機(jī)梯度下降的收斂有巨大的加速作用皿桑,這是由它的線性,非飽和的公式導(dǎo)致的蔬啡。
2sigmoid和tanh神經(jīng)元含有指數(shù)運(yùn)算等耗費(fèi)計(jì)算資源的操作诲侮,而ReLU可以簡(jiǎn)單地通過(guò)對(duì)一個(gè)矩陣進(jìn)行閾值計(jì)算得到。
缺點(diǎn):在訓(xùn)練的時(shí)候箱蟆,ReLU單元比較脆弱并且可能“死掉”浆西。
(4)Leaky ReLU:
Leaky ReLU是為解決“ReLU死亡”問(wèn)題的嘗試。ReLU中當(dāng)x<0時(shí)顽腾,函數(shù)值為0。而Leaky
ReLU則是給出一個(gè)很小的負(fù)數(shù)梯度值诺核,比如0.01抄肖。
四 講一下你了解的梯度下降的優(yōu)化方法,sgd, momentum,rmsprop, adam的區(qū)別和聯(lián)系窖杀。
(1)SGD
相對(duì)于批量梯度和mini-batch梯度下降漓摩,隨機(jī)梯度下降在每次更新時(shí)用1個(gè)樣本,隨機(jī)也就是說(shuō)我們用樣本中的一個(gè)例子來(lái)近似我所有的樣本入客,來(lái)調(diào)整參數(shù)管毙。
問(wèn)題:
雖然不是每次迭代得到的損失函數(shù)都向著全局最優(yōu)方向, 但是大的整體的方向是向全局最優(yōu)解的桌硫,最終的結(jié)果往往是在全局最優(yōu)解附近夭咬。但是相比于批量梯度,這樣的方法更快铆隘,更快收斂卓舵,雖然不是全局最優(yōu),但很多時(shí)候是我們可以接受的膀钠。當(dāng)然理論上來(lái)講SGD會(huì)很難去解決鞍點(diǎn)等優(yōu)化問(wèn)題掏湾,需要后面的算法去進(jìn)行求解裹虫。
(2)momentum
動(dòng)量梯度下降(Gradient Descent with Momentum)是計(jì)算梯度的指數(shù)加權(quán)平均數(shù),并利用該值來(lái)更新參數(shù)值融击。動(dòng)量梯度下降法的整個(gè)過(guò)程為筑公,其中\(zhòng)betaβ通常設(shè)置為0.9:
下面兩種都是能夠適應(yīng)性地對(duì)學(xué)習(xí)率調(diào)參的方法,甚至是逐個(gè)參數(shù)適應(yīng)學(xué)習(xí)率調(diào)參尊浪。
(3)RMSProp
不同于AdaGrad算法里狀態(tài)變量st是截至?xí)r間步t所有小批量隨機(jī)梯度gt按元素平方和匣屡。
RMSProp(Root Mean Square Prop)算法將這些梯度按元素平方做指數(shù)加權(quán)移動(dòng)平均
(4)Adam算法
Adam 優(yōu)化算法(AdaptiveMoment Estimation,自適應(yīng)矩估計(jì))將 Momentum 和 RMSProp 算法結(jié)合在一起际长。Adam算法在RMSProp算法基礎(chǔ)上對(duì)小批量隨機(jī)梯度也做了指數(shù)加權(quán)移動(dòng)平均耸采。