1. 章節(jié)主要內(nèi)容
今天讓我們來(lái)好好理解一下機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法吧逛球,其中多隱含層的神經(jīng)網(wǎng)絡(luò)算法就是目前最熱的深度學(xué)習(xí)算法。本章將從神經(jīng)網(wǎng)絡(luò)最小單元神經(jīng)元開(kāi)始宦搬,慢慢深入介紹阿迈,一步步的將神經(jīng)網(wǎng)絡(luò)算法娓娓道來(lái)。我將爭(zhēng)取對(duì)其中的具體的算法邏輯和思考策略進(jìn)行總結(jié)和概括断盛,使大伙能更快更輕松的理解神經(jīng)網(wǎng)絡(luò)算法是什么!
1)神經(jīng)網(wǎng)絡(luò)的的基礎(chǔ)單元:神經(jīng)元(neuron)
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中的最基本的成分愉舔,其是仿造生物學(xué)中神經(jīng)細(xì)胞之間傳遞信號(hào)的方式而設(shè)計(jì)的钢猛。在生物神經(jīng)網(wǎng)絡(luò)中,神經(jīng)細(xì)胞都是相互相連的轩缤,當(dāng)一個(gè)神經(jīng)元接收到其它神經(jīng)元發(fā)送的化學(xué)物質(zhì)時(shí)命迈,其會(huì)判斷神經(jīng)元的電位是否超過(guò)閾值。如果超過(guò)了火的,該神經(jīng)元將會(huì)被激活壶愤,并向其它神經(jīng)元發(fā)送化學(xué)物質(zhì)。
與此類似馏鹤,機(jī)器學(xué)習(xí)中的神經(jīng)元接收來(lái)自 n 個(gè)其它神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào)征椒,這些輸入數(shù)據(jù)通過(guò)加權(quán)計(jì)算之后,神經(jīng)元將會(huì)判斷其是否超過(guò)神經(jīng)元閾值湃累。如果超過(guò)閾值勃救,神經(jīng)元將被激活,并通過(guò)“激活函數(shù)”(activation function)產(chǎn)生神經(jīng)元的輸出治力。
回顧我們?cè)诒緯?shū)第三章線性模型中學(xué)到的內(nèi)容蒙秒,其實(shí)每一個(gè)神經(jīng)元就如同一個(gè)廣義線性模型一般,激活函數(shù)就是廣義線性模型中的聯(lián)系函數(shù)琴许。下圖是書(shū)中一個(gè)具體的神經(jīng)元示例圖税肪,以幫助大伙理解:
2)神經(jīng)元的初步組合:感知機(jī)和多層網(wǎng)絡(luò)
將許多個(gè)神經(jīng)元按一定的層次結(jié)構(gòu)連接起來(lái),就得到了神經(jīng)網(wǎng)絡(luò)榜田,而不同的組合形式將生成不同的神經(jīng)網(wǎng)絡(luò)益兄。
[1]感知機(jī)(perceptron)是早期的神經(jīng)網(wǎng)絡(luò)組合形式,由輸入層和輸出層兩層神經(jīng)元組成箭券。因?yàn)楦兄獧C(jī)只擁有一層功能神經(jīng)元(functional neuron)-輸出層净捅,其學(xué)習(xí)能力有限,在處理線性可分問(wèn)題(如邏輯與辩块、非蛔六、或運(yùn)算)上效果很好荆永,但在非線性可分問(wèn)題(邏輯異或)上無(wú)法求得合適解。
[2]多層網(wǎng)絡(luò)
要解決非線性可分問(wèn)題国章,需要考慮使用多層功能神經(jīng)元具钥,即在輸入輸出層之外再加入中間層,這個(gè)中間層也叫隱含層液兽。隱含層可以是一到多層骂删,當(dāng)隱含層很多時(shí),這時(shí)的神經(jīng)網(wǎng)絡(luò)就是深度神經(jīng)網(wǎng)絡(luò)四啰。
更一般的宁玫,每層神經(jīng)元與下一層神經(jīng)元全互連,神經(jīng)元之間不存在同層連接柑晒,也不存在跨層連接欧瘪,這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常稱為“多層前饋神經(jīng)網(wǎng)絡(luò)”(multi-layer feedforward neural networks)
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程就是根據(jù)訓(xùn)練數(shù)據(jù)對(duì)網(wǎng)絡(luò)中神經(jīng)元之間的權(quán)重以及每個(gè)功能神經(jīng)元的閾值進(jìn)行調(diào)整的過(guò)程;換言之匙赞,神經(jīng)網(wǎng)絡(luò)“學(xué)”到的東西佛掖,蘊(yùn)涵在權(quán)重和閾值中。
3)多層網(wǎng)絡(luò)的學(xué)習(xí)算法:誤差逆?zhèn)鞑ニ惴ǎ╡rror BackPropagation涌庭,簡(jiǎn)稱BP算法)
多層網(wǎng)絡(luò)學(xué)習(xí)算法的目標(biāo)是通過(guò)調(diào)整網(wǎng)絡(luò)中的權(quán)重和閾值使得神經(jīng)網(wǎng)絡(luò)模型的泛化誤差最锌啻选(其實(shí)每一種機(jī)器學(xué)習(xí)算法的中心思想都是一致的,這在我們第二章的學(xué)習(xí)中已經(jīng)了解到了脾猛,設(shè)定一個(gè)模型/算法,用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練鱼鸠,然后用測(cè)試數(shù)據(jù)進(jìn)行測(cè)試猛拴,以找到泛化性能最高的模型結(jié)構(gòu)和參數(shù))。
BP算法也是一樣的蚀狰,其目標(biāo)是要最小化訓(xùn)練集 D 上的累計(jì)誤差愉昆。對(duì)每個(gè)訓(xùn)練樣例,BP算法執(zhí)行以下操作:先將輸入示例提供給輸入層神經(jīng)元麻蹋,然后逐層將信號(hào)前傳跛溉,直到產(chǎn)生輸出層的結(jié)果;然后計(jì)算輸出層的誤差扮授,再將誤差逆向傳播至隱層神經(jīng)元芳室;最后根據(jù)隱層神經(jīng)元的誤差來(lái)對(duì)連接權(quán)和閾值進(jìn)行調(diào)整。該循環(huán)重復(fù)進(jìn)行直到達(dá)到停止條件(比如訓(xùn)練誤差小于一定的值)
如何設(shè)置隱含層神經(jīng)元的個(gè)數(shù)仍是個(gè)未決問(wèn)題刹勃,實(shí)際應(yīng)用中通晨昂睿靠“試錯(cuò)法”(trial-by-error)調(diào)整。
由于神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的表示能力荔仁,BP神經(jīng)網(wǎng)絡(luò)容易遭遇過(guò)擬合伍宦。目前有兩種策略常用來(lái)緩解神經(jīng)網(wǎng)絡(luò)過(guò)擬合現(xiàn)象:
[1]早停(early stopping):將數(shù)據(jù)分成訓(xùn)練集和驗(yàn)證集的策略芽死,訓(xùn)練集用來(lái)計(jì)算梯度、更新權(quán)值和閾值次洼,驗(yàn)證集用來(lái)估計(jì)誤差关贵,若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高,則停止訓(xùn)練卖毁。
[2]正則化(regularization):其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分揖曾,這樣的話訓(xùn)練過(guò)程將會(huì)偏好比較小的連接權(quán)和閾值,使網(wǎng)絡(luò)輸出更加“光滑”势篡,從而對(duì)過(guò)擬合有所緩解翩肌。
4)學(xué)習(xí)的參數(shù)是否是最優(yōu)解
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法是根據(jù)誤差的導(dǎo)數(shù)來(lái)對(duì)參數(shù)進(jìn)行調(diào)優(yōu)的過(guò)程。在數(shù)學(xué)上禁悠,導(dǎo)數(shù)值代表的是一個(gè)函數(shù)的斜率念祭,是一種傾向性,所以以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整會(huì)使得誤差變小碍侦。
當(dāng)梯度為零時(shí)粱坤,此時(shí)的誤差達(dá)到了一個(gè)極值,即其誤差函數(shù)值小于鄰點(diǎn)的誤差函數(shù)值瓷产。但是這個(gè)極值只可能是一個(gè)局部極小值站玄,而并不一定是全局極小值。我們可以根據(jù)下圖來(lái)理解一下局部極小和全局極小之間的關(guān)系:
實(shí)際上濒旦,我們所要計(jì)算的是全局最小值株旷,在現(xiàn)實(shí)任務(wù)中,人們常采用以下策略來(lái)試圖“跳出”局部極小尔邓,從而進(jìn)一步接近全局最辛榔省:
[1]以多組不同參數(shù)初始化多個(gè)神經(jīng)網(wǎng)絡(luò),取其中誤差最小的解梯嗽。類似于從不同出發(fā)點(diǎn)開(kāi)始搜索最小值齿尽,得到的多個(gè)局部最小中最小的那個(gè)更可能是全局最小
[2]“模擬退火”(simulated annealing)技術(shù):每一步以一定概率接受次優(yōu)解。每次以一定概率接受次優(yōu)解有助于“跳出”局部極小灯节,不過(guò)接受次優(yōu)解的概率要隨著時(shí)間的推移而逐漸降低循头,從而保證算法穩(wěn)定
[3]隨機(jī)梯度下降。每次一個(gè)訓(xùn)練樣本算完后就直接調(diào)整參數(shù)炎疆,而不要積累一定誤差再調(diào)整卡骂,這樣的好處在于在計(jì)算梯度時(shí)加入了隨機(jī)因素,于是即便陷入局部極小點(diǎn)磷雇,它計(jì)算的梯度仍可能不為零偿警,這樣就有機(jī)會(huì)跳出局部極小繼續(xù)搜索了
需注意的是,上述用于跳出局部極小的技術(shù)大多是啟發(fā)式唯笙,理論上尚缺乏保障螟蒸。
5)神經(jīng)網(wǎng)絡(luò)的各種常用算法
將許多個(gè)神經(jīng)元按一定的層次結(jié)構(gòu)連接起來(lái)盒使,就得到了神經(jīng)網(wǎng)絡(luò),而不同的神經(jīng)元結(jié)構(gòu)七嫌、不同的激活函數(shù)選擇少办、不同的誤差指標(biāo)選擇、不同的學(xué)習(xí)策略都會(huì)導(dǎo)致形成不同的神經(jīng)網(wǎng)絡(luò)
[1]RBF網(wǎng)絡(luò)
RBF(Radial Basis Function诵原,徑向基函數(shù))網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)英妓。
它的特點(diǎn)是:?jiǎn)坞[層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);使用徑向基函數(shù)作為隱層的激活函數(shù)绍赛,而輸出層則是對(duì)隱層神經(jīng)元輸出的線性組合蔓纠。
具體訓(xùn)練過(guò)程:第一步,確定神經(jīng)元中心吗蚌,常用的包括隨機(jī)采樣腿倚、聚類等;第二步蚯妇,利用BP算法來(lái)確定參數(shù)敷燎。
[2]ART網(wǎng)絡(luò)
ART(Adaptive Resonance Theory,自適應(yīng)協(xié)振理論)網(wǎng)絡(luò)是一種競(jìng)爭(zhēng)型(competitive learning)學(xué)習(xí)網(wǎng)絡(luò)箩言。競(jìng)爭(zhēng)型學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一種常用的無(wú)監(jiān)督學(xué)習(xí)策略硬贯,在使用該策略時(shí),網(wǎng)絡(luò)的輸出神經(jīng)元相互競(jìng)爭(zhēng)陨收,每一時(shí)刻只有一個(gè)競(jìng)爭(zhēng)獲勝的神經(jīng)元被激活饭豹。
它的特點(diǎn)是:兩層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),分別是比較層(輸入)和識(shí)別層(輸出)务漩;無(wú)監(jiān)督的學(xué)習(xí)方式墨状;競(jìng)爭(zhēng)型的神經(jīng)網(wǎng)絡(luò),即同時(shí)只有一個(gè)識(shí)別層結(jié)點(diǎn)被激活菲饼;識(shí)別層的神經(jīng)元數(shù)量可以動(dòng)態(tài)增加。
一個(gè)簡(jiǎn)單的ART網(wǎng)絡(luò)是這樣訓(xùn)練的:對(duì)輸入的數(shù)據(jù)向量列赎,找到與每個(gè)識(shí)別層神經(jīng)元所對(duì)應(yīng)的模式類代表向量的距離最小的神經(jīng)元宏悦。如果這個(gè)距離小于閾值,則將這個(gè)數(shù)據(jù)歸入該神經(jīng)元所屬的類中包吝,并重新計(jì)算這個(gè)神經(jīng)元的代表向量饼煞,否則重置模塊并在識(shí)別層上增設(shè)一個(gè)新的神經(jīng)元,其代表向量就設(shè)為當(dāng)前輸入向量诗越。
[3]SOM網(wǎng)絡(luò)
SOM(Self-Organizing Map砖瞧,自組織映射)網(wǎng)絡(luò)也是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)。
它的特點(diǎn)是:兩層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)嚷狞,分別是輸入層和輸出層(輸出層以矩陣方式排列在二維空間中)块促;無(wú)監(jiān)督的學(xué)習(xí)方式荣堰;競(jìng)爭(zhēng)型的神經(jīng)網(wǎng)絡(luò),即同時(shí)只有一個(gè)識(shí)別層結(jié)點(diǎn)被激活竭翠;
訓(xùn)練過(guò)程如下:對(duì)每個(gè)訓(xùn)練樣本振坚,找到距離訓(xùn)練樣本最近的輸出神經(jīng)元,我們稱為最佳匹配單元斋扰;調(diào)整最佳匹配單元及其附近神經(jīng)元的權(quán)向量渡八,使得權(quán)向量與當(dāng)前輸入樣本的距離縮小传货;不斷迭代直到收斂屎鳍。
[4]級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)
級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)是一種結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò),其不像一般的神經(jīng)網(wǎng)絡(luò)问裕,它還將網(wǎng)絡(luò)結(jié)構(gòu)也當(dāng)作學(xué)習(xí)的目標(biāo)之一逮壁。
訓(xùn)練過(guò)程如下:剛開(kāi)始訓(xùn)練時(shí),只有輸入和輸出層僻澎,處于最小拓?fù)浣Y(jié)構(gòu)貌踏;隨著訓(xùn)練的進(jìn)行,逐漸加入新的隱層神經(jīng)元窟勃;其是通過(guò)最大化新神經(jīng)元的輸出與網(wǎng)絡(luò)誤差之間的相關(guān)性(correlation)來(lái)訓(xùn)練相關(guān)參數(shù)祖乳。
和前饋神經(jīng)網(wǎng)絡(luò)相比,級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)無(wú)需設(shè)置網(wǎng)絡(luò)層數(shù)秉氧、隱層神經(jīng)元數(shù)目眷昆,所以訓(xùn)練速度較快,但在數(shù)據(jù)較小時(shí)容易陷入過(guò)擬合汁咏。
[5]Elman網(wǎng)絡(luò)
遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu)亚斋,從而可讓一些神經(jīng)元的輸出反饋回來(lái)作為輸入信號(hào)。這樣的結(jié)構(gòu)使得網(wǎng)絡(luò)狀態(tài)不僅與自身狀態(tài)相關(guān)攘滩,還跟前一刻的狀態(tài)相關(guān)帅刊,從而能處理與時(shí)間有關(guān)的動(dòng)態(tài)變化。
Elman網(wǎng)絡(luò)是最常用的一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)漂问,其使用隱層神經(jīng)元的輸出與下一刻的神經(jīng)元輸入一起作為下一刻的輸入赖瞒。它使用Sigmoid激活函數(shù),并使用BP算法進(jìn)行訓(xùn)練
[6]Boltzmann機(jī)
Boltzmann機(jī)是一種“基于能量的模型”蚤假,其為網(wǎng)絡(luò)狀態(tài)定義一個(gè)“能量”栏饮,當(dāng)能量最小化時(shí)網(wǎng)絡(luò)達(dá)到理想狀態(tài)。
它的特點(diǎn)是:兩層結(jié)構(gòu)磷仰,顯層與隱層袍嬉,顯層即代表輸入也代表輸出,隱層則被理解為數(shù)據(jù)的內(nèi)部表達(dá)灶平;神經(jīng)元是布爾型
訓(xùn)練過(guò)程(對(duì)比散度 Contrastive Divergence 算法)如下:通過(guò)輸入層算出隱層分布伺通,再通過(guò)隱層分布重新算出輸入層的新分布箍土;并利用新分布與舊分布之間的差別調(diào)整連接權(quán)重
6)深度學(xué)習(xí)
理論上來(lái)說(shuō),參數(shù)越多的模型復(fù)雜度越高泵殴,這意味著它能完成更復(fù)雜的學(xué)習(xí)任務(wù)涮帘。但同樣的,復(fù)雜模型的缺點(diǎn)是訓(xùn)練慢笑诅,且易陷入過(guò)擬合调缨。
但隨著大數(shù)據(jù)、云計(jì)算時(shí)代的到來(lái)吆你,計(jì)算能力大幅提高可緩解訓(xùn)練低效性弦叶,訓(xùn)練數(shù)據(jù)的大幅增加則可降低過(guò)擬合風(fēng)險(xiǎn),所以以“深度學(xué)習(xí)”為代表的復(fù)雜模型開(kāi)始受到人們的關(guān)注妇多。
深度學(xué)習(xí)無(wú)法直接使用BP算法進(jìn)行訓(xùn)練伤哺,因?yàn)檎`差在多隱層內(nèi)傳播時(shí),往往會(huì)“發(fā)散”而不能收斂到穩(wěn)定狀態(tài)者祖。
深度學(xué)習(xí)采用無(wú)監(jiān)督逐層訓(xùn)練(unsupervised layer-wise training)來(lái)訓(xùn)練模型立莉,其基本思想是每次用無(wú)監(jiān)督方法訓(xùn)練一層隱結(jié)點(diǎn),并用本層結(jié)點(diǎn)的輸出作為下一層隱結(jié)點(diǎn)的輸入七问,這稱為“預(yù)訓(xùn)練”(pre-training)蜓耻;在預(yù)訓(xùn)練全部完成后,再對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行“微調(diào)”(fine-tuning)訓(xùn)練械巡。
比如刹淌,在深度信念網(wǎng)絡(luò)(Deep Belif networks,簡(jiǎn)稱DBN)中讥耗,每層都是一個(gè)受限Boltzmann機(jī)有勾,所以訓(xùn)練過(guò)程是對(duì)每一層的Boltzmann機(jī)進(jìn)行訓(xùn)練,等各層預(yù)訓(xùn)練完成后古程,再利用BP算法等對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練蔼卡。
這種“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練策略很值得我們學(xué)習(xí),其等于將大量參數(shù)分組挣磨,先對(duì)每組進(jìn)行無(wú)監(jiān)督學(xué)習(xí)找到局部較優(yōu)解菲宴,然后再基于這些局部較優(yōu)解進(jìn)行全局尋優(yōu)。既保證了自由度趋急,還有效的節(jié)省了訓(xùn)練開(kāi)銷(xiāo)
我們可以從另一個(gè)角度來(lái)理解深度學(xué)習(xí),其多隱層堆疊势誊,可看作是在對(duì)輸入信號(hào)進(jìn)行逐層加工呜达,從而把初始的、與輸出目標(biāo)之間聯(lián)系不太密切的輸入表示粟耻,轉(zhuǎn)換成與輸出目標(biāo)聯(lián)系更密切的表示查近。換言之眉踱,通過(guò)多層處理,逐漸將初始“低層”的特征轉(zhuǎn)換為“高層”特征表示霜威,使得用簡(jiǎn)單模型就能完成復(fù)雜的分類等學(xué)習(xí)任務(wù)谈喳。
由此岩调,我們可以將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”的過(guò)程
2. 基礎(chǔ)知識(shí)
1)激活函數(shù)
用來(lái)產(chǎn)生神經(jīng)元輸出的函數(shù)茬末,一般是在區(qū)間[0,1](有例外)巴席,用來(lái)判斷神經(jīng)元是否被激活大猛。常用的激活函數(shù)有階越函數(shù)扭倾、Sigmoid函數(shù)和ReLu函數(shù)。
2)多層前饋神經(jīng)網(wǎng)絡(luò)
每層神經(jīng)元與下一層神經(jīng)元全互連挽绩,神經(jīng)元之間不存在同層連接膛壹,也不存在跨層連接,這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常稱為多層前饋神經(jīng)網(wǎng)絡(luò)
3)誤差逆?zhèn)鞑ニ惴?/b>
對(duì)每個(gè)訓(xùn)練樣例唉堪,BP算法執(zhí)行一下操作:先將輸入示例提供給輸入層神經(jīng)元模聋,然后逐層將信號(hào)前傳,直到產(chǎn)生輸出層的結(jié)果唠亚;然后計(jì)算輸出層的誤差链方,再將誤差逆向傳播至隱層神經(jīng)元;最后根據(jù)隱層神經(jīng)元的誤差來(lái)對(duì)連接權(quán)和閾值進(jìn)行調(diào)整趾撵。該循環(huán)重復(fù)進(jìn)行直到達(dá)到停止條件(比如訓(xùn)練誤差小于一定的值)
4)結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)
其不像一般的神經(jīng)網(wǎng)絡(luò)侄柔,它還將網(wǎng)絡(luò)結(jié)構(gòu)也當(dāng)作學(xué)習(xí)的目標(biāo)之一。
5)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)
允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu)占调,從而可讓一些神經(jīng)元的輸出反饋回來(lái)作為輸入信號(hào)暂题。這樣的結(jié)構(gòu)使得網(wǎng)絡(luò)狀態(tài)不僅與自身狀態(tài)相關(guān),還跟前一刻的狀態(tài)相關(guān)究珊,從而能處理與時(shí)間有關(guān)的動(dòng)態(tài)變化薪者。
6)競(jìng)爭(zhēng)型學(xué)習(xí)
競(jìng)爭(zhēng)型學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一種常用的無(wú)監(jiān)督學(xué)習(xí)策略,在使用該策略時(shí)剿涮,網(wǎng)絡(luò)的輸出神經(jīng)元相互競(jìng)爭(zhēng)言津,每一時(shí)刻只有一個(gè)競(jìng)爭(zhēng)獲勝的神經(jīng)元被激活。
3. 總結(jié)
1)神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中的基礎(chǔ)元件取试,其接收來(lái)自 n 個(gè)其它神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào)悬槽,這些輸入數(shù)據(jù)通過(guò)加權(quán)計(jì)算之后,神經(jīng)元將會(huì)判斷其是否超過(guò)神經(jīng)元閾值瞬浓。如果超過(guò)閾值初婆,神經(jīng)元將被激活,并通過(guò)“激活函數(shù)”(activation function)產(chǎn)生神經(jīng)元的輸出。
2)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程就是根據(jù)訓(xùn)練數(shù)據(jù)對(duì)網(wǎng)絡(luò)中神經(jīng)元之間的權(quán)重以及每個(gè)功能神經(jīng)元的閾值進(jìn)行調(diào)整的過(guò)程磅叛、
3)BP算法是多層神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)主流算法
4)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中要加入適當(dāng)?shù)摹耙馔狻毙伎龋员苊庀萑刖植孔顑?yōu)
5)將許多個(gè)神經(jīng)元按一定的層次結(jié)構(gòu)連接起來(lái),就得到了神經(jīng)網(wǎng)絡(luò)弊琴,而不同的神經(jīng)元結(jié)構(gòu)兆龙、不同的激活函數(shù)選擇、不同的誤差指標(biāo)選擇敲董、不同的學(xué)習(xí)策略都會(huì)導(dǎo)致形成不同的神經(jīng)網(wǎng)絡(luò)
6)深度學(xué)習(xí)的訓(xùn)練是基于“預(yù)訓(xùn)練+微調(diào)”的策略進(jìn)行的
7)我們可以將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”的過(guò)程