一個(gè)模仿人體大腦神經(jīng)信號(hào)處理的算法模型干跛,理念很簡(jiǎn)單,但是其中還是有些點(diǎn)會(huì)有點(diǎn)糾結(jié)慌植。
1. gradian descent ?梯度下降休雌。需要使用在連續(xù)可導(dǎo)的函數(shù)灶壶。對(duì)于梯度下降的理解,花了很多的時(shí)間杈曲,最后通過(guò)一篇博客中描述了驰凛,導(dǎo)數(shù)(一元函數(shù)求導(dǎo),得到結(jié)果小于零則在這個(gè)方向上函數(shù)值是減小趨勢(shì)担扑,否則是上升趨勢(shì))恰响,偏導(dǎo)(多元在一個(gè)方向上求導(dǎo)),方向?qū)?shù)(多元在多個(gè)方向上求導(dǎo))涌献,得到梯度就是多元在多個(gè)方向上求出哪個(gè)方向上有最大的變化率胚宦。
梯度即函數(shù)在某一點(diǎn)最大的方向?qū)?shù),函數(shù)延梯度方向有最大的變化率燕垃。
既然理解了梯度枢劝,那么梯度下降會(huì)比較清晰。因?yàn)樘荻却砗瘮?shù)最大的變化率卜壕,那么為了減小函數(shù)值您旁,要采取負(fù)梯度方向,這樣函數(shù)值延方向下降最快轴捎,優(yōu)化目標(biāo)鹤盒。
這篇blog的地址是:http://m.blog.csdn.net/article/details?id=50978864
2. error backpropagation BP。假設(shè)使用的是sigmoid unit轮蜕。建立在gradian descent基礎(chǔ)之上昨悼。其目標(biāo)就是要最小化training set中的累積誤差蝗锥。那么gradian descent確實(shí)比較適合跃洛。
根據(jù)機(jī)器學(xué)習(xí)教材,bp又有標(biāo)準(zhǔn)和累積之分终议,標(biāo)準(zhǔn)bp是針對(duì)單個(gè)樣例不停迭代汇竭,中間可能出現(xiàn)抵消效果葱蝗,但在訓(xùn)練集非常大時(shí)效果比累積bp好。累積bp是直接針對(duì)累積誤差最小化细燎,讀取整個(gè)訓(xùn)練集以后對(duì)參數(shù)進(jìn)行更新两曼,更新頻率低。
bp容易o(hù)verfitting玻驻,一般會(huì)有early stopping和regularization悼凑。early stopping很基本,就是驗(yàn)證集璧瞬,當(dāng)驗(yàn)證集誤差增大户辫,則停止訓(xùn)練。regularization則是在誤差中加入閾值平方和與一個(gè)0-1之間的參數(shù)乘積嗤锉。
3. 局部最小和全局最小渔欢。如何跳出局部最小而得到全部最小。
根據(jù)機(jī)器學(xué)習(xí)教材瘟忱,
(1)多組初始值初始化多個(gè)神經(jīng)網(wǎng)絡(luò)奥额,得倒的值很有可能有全局最小。????但是要多少組呢访诱?會(huì)不會(huì)消耗資源很大垫挨?
(2)simulated annealing。以一定概率接受比當(dāng)前解更差的結(jié)果盐数,從而在某個(gè)點(diǎn)的到全局最小棒拂。但有可能跳出全局最小呢。
(3)隨機(jī)梯度下降玫氢。加入隨機(jī)因子帚屉,在局部最小時(shí)也不為零從而跳出。??
(4)遺傳算法漾峡。??
4. 節(jié)點(diǎn)攻旦,層,權(quán)值變大會(huì)造成overfitting生逸。用cross validation限制overfitting牢屋。
5.怎么設(shè)定隱藏層的大小槽袄?
一般三層烙无,節(jié)點(diǎn)小于訓(xùn)練集數(shù)-1,在連接權(quán)的2-10倍遍尺。截酷?可能經(jīng)驗(yàn)中得到。
6. mark rbf網(wǎng)絡(luò)乾戏,art網(wǎng)絡(luò)迂苛,som網(wǎng)絡(luò)三热,elmam,boltzmann機(jī)