深度學(xué)習(xí)前言

一 神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題怎么解決孝宗?請(qǐng)?jiān)敿?xì)說(shuō)明。

答案:

(1)L1與L2正則化?

????????????在損失函數(shù)加懲罰項(xiàng)忍抽,L1正則加系數(shù)絕對(duì)值求和,L2正則加系數(shù)的平方求和董朝,使損失函數(shù)增大鸠项,降低過(guò)擬合風(fēng)險(xiǎn)。

(2)Dropout正則化

????????1子姜、訓(xùn)練過(guò)程

????????????神經(jīng)元隨機(jī)失效祟绊,概率為P。并且在神經(jīng)元存在且工作的狀態(tài)下哥捕,權(quán)重才會(huì)更新牧抽,權(quán)重更新的? ?越多理論上會(huì)變得更大

????????2、測(cè)試過(guò)程

????????????神經(jīng)元隨機(jī)失效遥赚,概率為0扬舒。所有的神經(jīng)元都會(huì)參與計(jì)算,大于訓(xùn)練時(shí)候的任意一個(gè)模型的計(jì)算量

(3)BN結(jié)構(gòu)

? ? ? ? ?1凫佛、Batch Normalization的作用就是減小Internal Covariate Shift 所帶來(lái)的影響讲坎,讓模型變得更加健壯孕惜,魯棒性(Robustness)更強(qiáng)。

? ? ? ? ? 2 衣赶、Batch Normalization 的作用诊赊,使得均值和方差保持固定(由每一層γ和β決定),不同層學(xué)習(xí)到不同的分布狀態(tài)

? ? ? ? ? 3府瞄、因此后層的學(xué)習(xí)變得更容易一些碧磅。Batch Normalization 減少了各層 W 和 b 之間的耦合性,讓各層更加獨(dú)立遵馆,實(shí)現(xiàn)自我訓(xùn)練學(xué)習(xí)的效果

(4)早停止法

通常不斷訓(xùn)練之后鲸郊,損失越來(lái)越小。但是到了一定之后货邓,模型學(xué)到的過(guò)于復(fù)雜(過(guò)于擬合訓(xùn)練集上的數(shù)據(jù)的特征)造成測(cè)試集開(kāi)始損失較小秆撮,后來(lái)又變大。模型的w參數(shù)會(huì)越來(lái)越大换况,那么可以在測(cè)試集損失減小一定程度之后停止訓(xùn)練职辨。

(5)數(shù)據(jù)增強(qiáng)

剪切、旋轉(zhuǎn)/反射/翻轉(zhuǎn)變換戈二、縮放變換舒裤、平移變換、尺度變換觉吭、對(duì)比度變換腾供、噪聲擾動(dòng)、顏色變換等一種或多種組合數(shù)據(jù)增強(qiáng)變換的方式來(lái)增加數(shù)據(jù)集的大小

二? ?假設(shè)有一個(gè)28x28的圖片鲜滩,有32個(gè)卷積核進(jìn)行卷積伴鳖,大小為3x3,步幅為1徙硅,使用“same”的填充方式榜聂。請(qǐng)寫出輸出特征圖的尺寸是多少和計(jì)算過(guò)程。

答案:

(1)卷積網(wǎng)絡(luò)計(jì)算公式

輸入大忻朴巍:H1峻汉,W1,C1

輸出大衅晖:H2休吠,W2,C2

卷積核參數(shù):FxF(核大幸挡尽)瘤礁,S(步長(zhǎng)),P(零填充大忻酚取)柜思, N(卷積核個(gè)數(shù))

H2 = (H1-F+2P)/S +1

W2 = (W1-F+2P)/S + 1

C2 = N

Same意為特征圖的大小與處理之前一致:

輸出大小為:H = (28-3+2P)/1+1=28

W = (28-3+2P)/1+1=28

求解可得:P=1

通道數(shù)與Filter個(gè)數(shù)一致:

C = 32

輸出圖像的大小為:28*28*32

三 有哪些激活函數(shù)可以使用岩调?詳細(xì)說(shuō)明每種激活函數(shù)的特點(diǎn)?

(1)sigmoid

1Sigmoid函數(shù)飽和使梯度消失赡盘。sigmoid神經(jīng)元有一個(gè)不好的特性号枕,就是當(dāng)神經(jīng)元的激活在接近0或1處時(shí)會(huì)飽和:在這些區(qū)域,梯度幾乎為0陨享。

2指數(shù)函數(shù)的計(jì)算是比較消耗計(jì)算資源的

(2)Tanh

Tanh:和sigmoid神經(jīng)元一樣葱淳,它也存在飽和問(wèn)題,依然指數(shù)運(yùn)算抛姑。但是和sigmoid神經(jīng)元不同的是赞厕,它的輸出是零中心的。

(3)Relu

優(yōu)點(diǎn):

1相較于sigmoid和tanh函數(shù)定硝,ReLU對(duì)于隨機(jī)梯度下降的收斂有巨大的加速作用皿桑,這是由它的線性,非飽和的公式導(dǎo)致的蔬啡。

2sigmoid和tanh神經(jīng)元含有指數(shù)運(yùn)算等耗費(fèi)計(jì)算資源的操作诲侮,而ReLU可以簡(jiǎn)單地通過(guò)對(duì)一個(gè)矩陣進(jìn)行閾值計(jì)算得到。

缺點(diǎn):在訓(xùn)練的時(shí)候箱蟆,ReLU單元比較脆弱并且可能“死掉”浆西。

(4)Leaky ReLU:

Leaky ReLU是為解決“ReLU死亡”問(wèn)題的嘗試。ReLU中當(dāng)x<0時(shí)顽腾,函數(shù)值為0。而Leaky

ReLU則是給出一個(gè)很小的負(fù)數(shù)梯度值诺核,比如0.01抄肖。

四 講一下你了解的梯度下降的優(yōu)化方法,sgd, momentum,rmsprop, adam的區(qū)別和聯(lián)系窖杀。

(1)SGD

相對(duì)于批量梯度和mini-batch梯度下降漓摩,隨機(jī)梯度下降在每次更新時(shí)用1個(gè)樣本,隨機(jī)也就是說(shuō)我們用樣本中的一個(gè)例子來(lái)近似我所有的樣本入客,來(lái)調(diào)整參數(shù)管毙。

問(wèn)題:

雖然不是每次迭代得到的損失函數(shù)都向著全局最優(yōu)方向, 但是大的整體的方向是向全局最優(yōu)解的桌硫,最終的結(jié)果往往是在全局最優(yōu)解附近夭咬。但是相比于批量梯度,這樣的方法更快铆隘,更快收斂卓舵,雖然不是全局最優(yōu),但很多時(shí)候是我們可以接受的膀钠。當(dāng)然理論上來(lái)講SGD會(huì)很難去解決鞍點(diǎn)等優(yōu)化問(wèn)題掏湾,需要后面的算法去進(jìn)行求解裹虫。

(2)momentum

動(dòng)量梯度下降(Gradient Descent with Momentum)是計(jì)算梯度的指數(shù)加權(quán)平均數(shù),并利用該值來(lái)更新參數(shù)值融击。動(dòng)量梯度下降法的整個(gè)過(guò)程為筑公,其中\(zhòng)betaβ通常設(shè)置為0.9:

下面兩種都是能夠適應(yīng)性地對(duì)學(xué)習(xí)率調(diào)參的方法,甚至是逐個(gè)參數(shù)適應(yīng)學(xué)習(xí)率調(diào)參尊浪。

(3)RMSProp

不同于AdaGrad算法里狀態(tài)變量st是截至?xí)r間步t所有小批量隨機(jī)梯度gt按元素平方和匣屡。

RMSProp(Root Mean Square Prop)算法將這些梯度按元素平方做指數(shù)加權(quán)移動(dòng)平均

(4)Adam算法

Adam 優(yōu)化算法(AdaptiveMoment Estimation,自適應(yīng)矩估計(jì))將 Momentum 和 RMSProp 算法結(jié)合在一起际长。Adam算法在RMSProp算法基礎(chǔ)上對(duì)小批量隨機(jī)梯度也做了指數(shù)加權(quán)移動(dòng)平均耸采。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市工育,隨后出現(xiàn)的幾起案子虾宇,更是在濱河造成了極大的恐慌,老刑警劉巖如绸,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嘱朽,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡怔接,警方通過(guò)查閱死者的電腦和手機(jī)搪泳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)扼脐,“玉大人岸军,你說(shuō)我怎么就攤上這事⊥呶辏” “怎么了艰赞?”我有些...
    開(kāi)封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)肚吏。 經(jīng)常有香客問(wèn)我方妖,道長(zhǎng),這世上最難降的妖魔是什么罚攀? 我笑而不...
    開(kāi)封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任党觅,我火速辦了婚禮,結(jié)果婚禮上斋泄,老公的妹妹穿的比我還像新娘杯瞻。我一直安慰自己,他們只是感情好炫掐,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布又兵。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪沛厨。 梳的紋絲不亂的頭發(fā)上宙地,一...
    開(kāi)封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音逆皮,去河邊找鬼宅粥。 笑死,一個(gè)胖子當(dāng)著我的面吹牛电谣,可吹牛的內(nèi)容都是我干的秽梅。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼剿牺,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼企垦!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起晒来,我...
    開(kāi)封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤钞诡,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后湃崩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荧降,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年攒读,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了朵诫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡薄扁,死狀恐怖剪返,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情邓梅,我是刑警寧澤随夸,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站震放,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏驼修。R本人自食惡果不足惜殿遂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望乙各。 院中可真熱鬧墨礁,春花似錦、人聲如沸耳峦。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至驶乾,卻和暖如春邑飒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背级乐。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工疙咸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人风科。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓撒轮,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親贼穆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子题山,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359