【深度學(xué)習(xí)DL】三砸讳、訓(xùn)練神經(jīng)網(wǎng)絡(luò)

一骂际、欠擬合(Underfitting)和過擬合(Overfitting)

有時(shí)候?qū)⑦^擬合稱為因方差造成的誤差瓷们。

早期停止(Early Stopping)

我們要做的是降低梯度业栅,直到測試誤差停止降低并開始增大,這時(shí)我們就停止谬晕。這個(gè)算法叫早期停止法碘裕,廣泛用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

擬合過擬合_早期停止

二攒钳、正則化

正則化

右邊的模型非常穩(wěn)定帮孔,很難應(yīng)用梯度下降法。在右邊模型中分類錯(cuò)誤會(huì)導(dǎo)致更大的偏差不撑,這會(huì)很難調(diào)優(yōu)模型或糾正模型文兢。
Large coefficient --->Overfitting

如何避免這種過擬合的發(fā)生呢?
解決方案:

01_03_訓(xùn)練神經(jīng)網(wǎng)絡(luò)_正則化_解決方案.png

Error Function應(yīng)為: {E = -\frac{1}{m} \sum_{i=1}^m \left( (1-y^{(i)}) \ln (1-\hat{y^{(i)}}) + y^{(i)} \ln(\hat{y^{(i)}}) \right) + ... }

參數(shù) { \lambda} 表示懲罰系數(shù)的多少焕檬。如果{ \lambda}很大姆坚,會(huì)懲罰很嚴(yán)重;如果{ \lambda}很小揩页,不需要懲罰很嚴(yán)重旷偿。

對(duì)于使用 {L1}{L2}正則化有一些通用的規(guī)則:
如果我們需要得到絕對(duì)值,可以使用{L1}正則化爆侣;如果想得到平方萍程,可以使用{L2}正則化。兩者都比較通用兔仰,取決于我們的目標(biāo)茫负,可以應(yīng)用其中一個(gè)或另一個(gè)。
使用{L1}正則化時(shí)乎赴,我們希望得到稀疏向量忍法;它表示較小權(quán)重趨向于0,所以榕吼,如果想降低權(quán)重值饿序,最終得到較小的數(shù),{L1}正則可以幫助我們選擇哪一些更重要羹蚣,然后將其余的變?yōu)?原探。而{L2}正則化,不支持稀疏向量,因?yàn)樗_保所有權(quán)重一致較小咽弦,這個(gè)可以訓(xùn)練模型得出更好的結(jié)果徒蟆,所以這會(huì)是我們最常用的。

01_03_正則化通用規(guī)則.png

為什么{L1}正則化型型,得出稀疏權(quán)重的向量段审,{L2}正則化得出較小齊權(quán)的向量?
原因是這樣:{L2}正則化可以得出更小的額平方總和以及更小的誤差函數(shù)闹蒜。

三寺枉、Dropout

四、局部最低點(diǎn)

局部最低點(diǎn)

一種解決方式是隨機(jī)重新開始(Random Restart)绷落。
我們從幾個(gè)隨機(jī)的不同地點(diǎn)開始型凳,從所有這些地點(diǎn)進(jìn)行梯度下降,這樣就增大了抵達(dá)全局最低點(diǎn)或者至少是非常低的局部最低點(diǎn)的概率嘱函。
局部最低點(diǎn)_隨機(jī)重新開始

五、梯度消失

我們來看看s型函數(shù)埂蕊,在兩端曲線非常平緩往弓,如果我們計(jì)算最左端或最右端的點(diǎn)的導(dǎo)數(shù),這個(gè)導(dǎo)數(shù)將幾乎為0蓄氧,這樣不好函似,因?yàn)閷?dǎo)數(shù)可以告訴我們移動(dòng)方向。


梯度消失1

在多層線性感知器中喉童,情況更糟糕撇寞,看看以下示例:


梯度消失2

我們知道誤差函數(shù)相對(duì)權(quán)重的導(dǎo)數(shù)是在輸出對(duì)應(yīng)路徑上的節(jié)點(diǎn),算出的所有導(dǎo)數(shù)的積堂氯,所有這些導(dǎo)數(shù)都是s型函數(shù)導(dǎo)數(shù)蔑担。所以它們很小,一堆很小的數(shù)相乘更小了咽白。
這樣使訓(xùn)練過程變得很難啤握,因?yàn)樘荻认陆凳刮覀儗?duì)權(quán)重所做的更改非常非常小。意味著我們邁出很小的步子晶框,永遠(yuǎn)也無法重珠峰上下來排抬。


梯度消失3.png

如何解決這一問題呢?
最后的解決方法是改變激活函數(shù)授段。

1.激活函數(shù){tanh(x)}

這是另外一種方法叫做雙曲正切蹲蒲。這個(gè)公式與sigmoid函數(shù)相似,不過由于它的范圍在-1到1之間導(dǎo)數(shù)更大侵贵。這個(gè)較小的區(qū)別實(shí)際上會(huì)在神經(jīng)網(wǎng)絡(luò)中產(chǎn)生更大進(jìn)步届搁。


激活函數(shù)tanh
2.激活函數(shù){relu(x)}

修正線性單元Rectified Linear Unit 即ReLU
它只表示,如果為正,就會(huì)返回相同的值咖祭;如果為負(fù)掩宜,就返回0。除了sigmoid函數(shù)么翰,這個(gè)函數(shù)是最常使用的牺汤,可以在不犧牲精度的前提下,極大提高訓(xùn)練(improve tainig significantly)浩嫌。因?yàn)殚艹伲绻麨檎瑢?dǎo)數(shù)為1码耐。有趣的是追迟,這個(gè)函數(shù)很少會(huì)打破線性,得出復(fù)雜的非線性解

激活函數(shù)relu

六骚腥、批次與隨機(jī)梯度下降(Stochastic Gradient Descent)

隨機(jī)梯度下降的原理很簡單敦间,拿出一小部分?jǐn)?shù)據(jù),讓它們經(jīng)歷這個(gè)神經(jīng)網(wǎng)絡(luò)束铭,根據(jù)這些點(diǎn)計(jì)算誤差函數(shù)的梯度廓块,然后沿著該方向移動(dòng)一個(gè)步長,我們依然要使用所有數(shù)據(jù)契沫。我們的做法是带猴,將數(shù)據(jù)拆分為幾個(gè)批次....
在現(xiàn)實(shí)中,采取大量稍微不太準(zhǔn)確的步長懈万,比采取一個(gè)很準(zhǔn)確的步長要好很多拴清。


批次與隨機(jī)梯度下降

七、學(xué)習(xí)速率衰退

使用什么樣的學(xué)習(xí)速率這一問題会通,差不多算是一個(gè)研究性問題(research question),但可以遵守一個(gè)基本原則:如果學(xué)習(xí)速率太大口予,那么采取的就是很大的步長,一開始可能速度很快渴语,但是會(huì)錯(cuò)過最低點(diǎn)苹威,并繼續(xù)前進(jìn),這樣會(huì)導(dǎo)致模型混亂驾凶。如果學(xué)習(xí)速率很小牙甫,會(huì)采取很小的步長,更有可能達(dá)到局部最低值调违,這樣會(huì)使模型速度很慢窟哺。但是,有個(gè)好的經(jīng)驗(yàn)做法是技肩,如果模型不可行且轨,則減低學(xué)習(xí)速率浮声。


01_03_訓(xùn)練神經(jīng)網(wǎng)絡(luò)_學(xué)習(xí)速率衰退1.png

最佳學(xué)習(xí)速率是在模型越來越接近解決方案時(shí)降低。


01_03_訓(xùn)練神經(jīng)網(wǎng)絡(luò)_學(xué)習(xí)速率衰退2.png

八旋奢、動(dòng)量

另一個(gè)解決局部最低點(diǎn)問題的方法是用動(dòng)量和決心快速行動(dòng)泳挥,如果在局部最低點(diǎn)卡住,可以翻過駝峰找到更低的最低點(diǎn)至朗。


動(dòng)量momentum.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末屉符,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子锹引,更是在濱河造成了極大的恐慌矗钟,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,692評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嫌变,死亡現(xiàn)場離奇詭異吨艇,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)腾啥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門东涡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人倘待,你說我怎么就攤上這事软啼。” “怎么了延柠?”我有些...
    開封第一講書人閱讀 162,995評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長锣披。 經(jīng)常有香客問我贞间,道長,這世上最難降的妖魔是什么雹仿? 我笑而不...
    開封第一講書人閱讀 58,223評(píng)論 1 292
  • 正文 為了忘掉前任增热,我火速辦了婚禮,結(jié)果婚禮上胧辽,老公的妹妹穿的比我還像新娘峻仇。我一直安慰自己,他們只是感情好邑商,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評(píng)論 6 388
  • 文/花漫 我一把揭開白布摄咆。 她就那樣靜靜地躺著,像睡著了一般人断。 火紅的嫁衣襯著肌膚如雪吭从。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,208評(píng)論 1 299
  • 那天恶迈,我揣著相機(jī)與錄音涩金,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛步做,可吹牛的內(nèi)容都是我干的副渴。 我是一名探鬼主播,決...
    沈念sama閱讀 40,091評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼全度,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼煮剧!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起讼载,我...
    開封第一講書人閱讀 38,929評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤轿秧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后咨堤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體菇篡,經(jīng)...
    沈念sama閱讀 45,346評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評(píng)論 2 333
  • 正文 我和宋清朗相戀三年一喘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了驱还。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,739評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡凸克,死狀恐怖议蟆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情萎战,我是刑警寧澤咐容,帶...
    沈念sama閱讀 35,437評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站蚂维,受9級(jí)特大地震影響戳粒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜虫啥,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評(píng)論 3 326
  • 文/蒙蒙 一蔚约、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧涂籽,春花似錦苹祟、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至景东,卻和暖如春团赏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背耐薯。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評(píng)論 1 269
  • 我被黑心中介騙來泰國打工舔清, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丝里,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,760評(píng)論 2 369
  • 正文 我出身青樓体谒,卻偏偏與公主長得像杯聚,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子抒痒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容