神經(jīng)元模型
單一神經(jīng)元的模型通常是一個(gè)階躍函數(shù)或sigmoid函數(shù),像是模擬神經(jīng)元輸入累積超過(guò)一定閾值才給一個(gè)輸出运悲。
感知機(jī)與多層網(wǎng)絡(luò)
感知機(jī)就是兩個(gè)輸入給出一個(gè)輸出的基礎(chǔ)模型乍构,再?gòu)?fù)雜的神經(jīng)網(wǎng)絡(luò)都是多個(gè)感知機(jī)疊加而成的旨袒。感知機(jī)可以根據(jù)訓(xùn)練誤差瓣铣,調(diào)整權(quán)重炮叶。
誤差逆?zhèn)鞑?/h1>
誤差逆?zhèn)鞑ゾ褪?b>BP算法碗旅,是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的常用算法。標(biāo)準(zhǔn)BP算法和累積BP算法基本對(duì)應(yīng)于隨機(jī)梯度下降(參數(shù)更新只針對(duì)單個(gè)樣本镜悉,參數(shù)更新頻繁)和批量梯度下降(參數(shù)更新考慮所有樣本)扛芽。
BP算法避免過(guò)擬合的策略包括“早停”和“正則化”』鳎“早停”在每次訓(xùn)練完都要用驗(yàn)證集估計(jì)誤差登下,當(dāng)訓(xùn)練誤差下降但驗(yàn)證誤差升高時(shí)停止訓(xùn)練茫孔。“正則化”在誤差函數(shù)中加入描述網(wǎng)絡(luò)復(fù)雜度的部分被芳。
全局最小與局部最小
這一部分內(nèi)容對(duì)其他模型也都適用缰贝。梯度下降算法趨向于梯度為零的位置,但有可能是一個(gè)局部最小值畔濒,而非全局最小剩晴。常用的跳出局部最小的方法有:
以多組不同參數(shù)值初始化多個(gè)神經(jīng)網(wǎng)絡(luò),相當(dāng)于從不同初始點(diǎn)開始梯度下降,有可能陷入不同的局部最小赞弥,再?gòu)闹羞x擇更接近全局最小的結(jié)果毅整;
模擬退火,類似金屬冷卻中的原子绽左,一開始都是隨機(jī)運(yùn)動(dòng)的悼嫉,但慢慢趨于穩(wěn)定。在當(dāng)前問題中拼窥,即在梯度下降的每一步中都以一定概率接受比當(dāng)前解更差的結(jié)果戏蔑,從而有助于跳出局部最小。
隨機(jī)梯度下降鲁纠。因?yàn)槊看胃轮豢紤]一個(gè)樣本总棵,那么單一樣本的隨機(jī)誤差其實(shí)也有助于跳出局部最小。