1 緒論
1.1 深度學(xué)習(xí)與機(jī)器學(xué)習(xí)
1.2 深度學(xué)習(xí)的發(fā)展歷程
為了提升性能,人們提出了Dropout等過擬合的方法,為了使訓(xùn)練過程順利收斂荒叶,人們又提出了激活函數(shù)和預(yù)訓(xùn)練方法豪筝,這些方法對(duì)深度學(xué)習(xí)的性能提升起到了支撐作用。 ——P5
這是說(shuō)杠氢,神經(jīng)網(wǎng)絡(luò)如果沒有激活函數(shù)等站刑,也是可以用來(lái)訓(xùn)練的。(0024.py就沒有激活函數(shù)鼻百,神經(jīng)元結(jié)點(diǎn)的輸入就是其輸出绞旅,順利完成了線性擬合)
1.3 為什么是深度學(xué)習(xí)
1.4 什么是深度學(xué)習(xí)
深度學(xué)習(xí)的起源包括感知器和玻爾茲曼機(jī)。起源于感知器的深度學(xué)習(xí)中温艇,最基本的結(jié)構(gòu)是把多個(gè)感知器組合到一起得到的多層感知器因悲。在多層感知器的基礎(chǔ)上加入類似人類視覺皮質(zhì)的結(jié)構(gòu)而得到的卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域。起源于基于圖模型的玻爾茲曼機(jī)的深度學(xué)習(xí)中中贝,深度玻爾茲曼機(jī)以及深度信念網(wǎng)絡(luò)是通過把多個(gè)受限玻爾茲曼機(jī)組合到一起而得到的囤捻。
起源于感知器的深度學(xué)習(xí)是一種有監(jiān)督學(xué)習(xí),根據(jù)期望輸出訓(xùn)練網(wǎng)絡(luò);而起源于受限玻爾茲曼機(jī)的深度學(xué)習(xí)是一種無(wú)監(jiān)督學(xué)習(xí)蝎土,只根據(jù)特定的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)视哑。
——P8
1.5 本書結(jié)構(gòu)
2 神經(jīng)網(wǎng)絡(luò)
2.1 神經(jīng)網(wǎng)絡(luò)的歷史
三個(gè)階段
2.2 M-P模型
M-P模型是首個(gè)通過模仿神經(jīng)元而形成的模型。
已通過電阻得到了物理實(shí)現(xiàn)誊涯。
2.3 感知器
與M-P模型需要人為確定參數(shù)不同挡毅,感知器能夠通過訓(xùn)練自動(dòng)確定參數(shù)。
- 有監(jiān)督學(xué)習(xí)暴构,誤差修正跪呈。
- 感知器訓(xùn)練只能解決線性可分問題,不能解決線性不可分問題取逾。
無(wú)法用一條直線將兩個(gè)類別區(qū)分開的就是線性不可分問題佳头。
2.4 多層感知器 multilayer perception
- 多層感知器 = 前饋網(wǎng)絡(luò) = 正向傳播網(wǎng)絡(luò)
多層網(wǎng)絡(luò)中應(yīng)該如何訓(xùn)練連接權(quán)重呢旺遮?人們提出了誤差反向傳播算法。
2.5 誤差反向傳播算法 ★
- 誤差的反向傳播,然后調(diào)整各層的連接權(quán)重
所以阻荒,多層感知器的訓(xùn)練過程就是不斷調(diào)整連接權(quán)重w捣郊,以使最小二乘誤差函數(shù)趨近于0.
(sigmoid函數(shù)做激活函數(shù)的時(shí)候痕囱,如果自變量遠(yuǎn)小于或者遠(yuǎn)大于0的時(shí)候聂喇,函數(shù)導(dǎo)數(shù)趨近于0)此時(shí),由于權(quán)重調(diào)整值趨近于0儒洛,所以無(wú)法調(diào)整連接權(quán)重精耐。這就是誤差反向傳播算法中的梯度消失導(dǎo)致無(wú)法調(diào)整連接權(quán)重的問題。對(duì)于這個(gè)問題琅锻,需要在訓(xùn)練過程中調(diào)整學(xué)習(xí)率以防止梯度消失卦停。
2.6 誤差函數(shù)和激活函數(shù)
- 誤差函數(shù)
- 多分類問題:交叉熵代價(jià)函數(shù)
- 遞歸問題:最小二乘誤差函數(shù)
- 激活函數(shù)
- sigmoid
- tanh
- ReLU
2.7 似然函數(shù)
2.8 隨機(jī)梯度下降法
誤差反向傳播算法會(huì)先對(duì)誤差函數(shù)求導(dǎo)計(jì)算梯度,然后計(jì)算連接權(quán)重調(diào)整值浅浮。反復(fù)迭代訓(xùn)練沫浆,直至獲得最優(yōu)解。根據(jù)訓(xùn)練樣本的輸入方式不同滚秩,誤差反向傳播算法又有不同的種類
- 批量學(xué)習(xí) batch learning
- 全部樣本
- 抑制帶噪音樣本所帶來(lái)的劇烈變動(dòng)
- 訓(xùn)練用時(shí)長(zhǎng)
- 在線學(xué)習(xí) sequential learning / online learning
- 每輸入一個(gè)樣本就進(jìn)行一次迭代
- 樣本的差異導(dǎo)致變動(dòng)大
- 如果降低學(xué)習(xí)率則還可能出現(xiàn)收斂速度緩慢甚至無(wú)法收斂的情況
- 小批量梯度下降法 mini-batch learning
- 樣本分子集開始迭代专执,全部子集迭代完成開始調(diào)整權(quán)重;repeat
- 同時(shí)彌補(bǔ)前兩種方式的缺點(diǎn)
- 隨機(jī)梯度下降法 Stocastic Gradient Descent, SGD
- 只是用部分訓(xùn)練樣本的方式郁油。
- 每次迭代后樣本集的趨勢(shì)都會(huì)發(fā)生變化本股,減少了迭代結(jié)果陷入局部最優(yōu)解的情況。
2.9 學(xué)習(xí)率
學(xué)習(xí)率是用來(lái)確定權(quán)重連接調(diào)整程度的系數(shù)桐腌。