“一種難以解釋的黑箱模型”
一般使用Sigmoid(x) = 1/(1+ e^-z)作為神經(jīng)元激活函數(shù)
感知機(jī)由兩層神經(jīng)元組成勤庐,輸入層接收外界輸入信號(hào)后傳遞給輸出層探孝,輸出層是M-P神經(jīng)元
單層感知機(jī)能解決線性可分的 與衰腌,或葱峡,非問(wèn)題,但不能解決非線性可分的抑或
多層神經(jīng)網(wǎng)絡(luò): 多層前饋神經(jīng)網(wǎng)絡(luò)
前饋并不意味著網(wǎng)路中的信號(hào)不能向后傳饰及,而是指網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中不存在環(huán)或回路
誤差擬傳播算法(BackPropagation)
最小化訓(xùn)練集上的累積誤差蔗坯,假設(shè)樣本有N個(gè),每一輪迭代進(jìn)行N次參數(shù)調(diào)整
迄今為止最成功的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法
BP算法基于梯度下降策略燎含,以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整宾濒,根據(jù)鏈?zhǔn)椒▌t推導(dǎo)
詳見(jiàn)西瓜書(shū)P103
學(xué)習(xí)率控制了算法每一輪的更新步長(zhǎng),太大容易振蕩屏箍,太小則收斂過(guò)慢
累積BP算法
標(biāo)準(zhǔn)BP算法每次針對(duì)一個(gè)訓(xùn)練樣例進(jìn)行權(quán)重調(diào)整绘梦,如果基于累積誤差最小更新規(guī)則,得到累積BP算法赴魁。
標(biāo)準(zhǔn)BP算法的缺點(diǎn):參數(shù)更新頻繁卸奉,可能出現(xiàn)抵消現(xiàn)象,因此需要大量迭代
累積BP算法的做法是一輪迭代只作一次參數(shù)調(diào)整
但在很多任務(wù)中颖御,累積誤差下降到一定程度后榄棵,進(jìn)一步下降會(huì)非常緩慢,這時(shí)標(biāo)準(zhǔn)BP往往會(huì)更快獲得較好的解郎嫁,尤其是在訓(xùn)練集D非常大的時(shí)候
Hornik證明秉继,只需一個(gè)包含足夠多神經(jīng)元的隱層,M-P神經(jīng)網(wǎng)絡(luò)就能以任意精度逼近任意復(fù)雜度的連續(xù)函數(shù)泽铛。
用“試錯(cuò)法”調(diào)整隱層神經(jīng)元的個(gè)數(shù)
BP神經(jīng)網(wǎng)絡(luò)經(jīng)常過(guò)擬合尚辑,其訓(xùn)練誤差持續(xù)下降,但測(cè)試誤差卻有可能上升盔腔。
兩種策略:
‘’早透懿纾” :若發(fā)現(xiàn)訓(xùn)練誤差下降但測(cè)試誤差上升,則停止訓(xùn)練
”正則化”:類(lèi)似于L1弛随,L2范數(shù)瓢喉,在誤差目標(biāo)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分,如連接權(quán)與閾值的平方和
使得E = λ/m*ΣEk + (1-λ)Σwi^2
全局最小與局部最小
一些策略來(lái)接近全局最幸ㄍ浮:
1.以多組初始參數(shù)栓票,訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)取最優(yōu)
2.使用模擬退火,在每一步都以一定概率接收比當(dāng)前解更差的結(jié)果,接收次優(yōu)解的概率隨著時(shí)間的推移而逐漸降低走贪,從而保證算法穩(wěn)定
3.使用隨機(jī)梯度下降
4.遺傳算法