寫一寫我理解的模型退化
矩陣退化
首先來回顧一點(diǎn)線性代數(shù)中退化矩陣的知識(shí),退化這個(gè)概念應(yīng)該是類似線性代數(shù)中的退化矩陣,也叫奇異矩陣,特點(diǎn)是行列式為0顶捷,也就是說矩陣內(nèi)* 存在線性相關(guān)的向量組 *。
什么是線性相關(guān)屎篱? 按照定義服赎, 就是對(duì)于向量組 v 存在一組常數(shù)使這個(gè)等式成立葵蒂。
模型退化
那么,不太嚴(yán)謹(jǐn)?shù)闹庇^理解一下神經(jīng)網(wǎng)絡(luò)模型的退化就是辐脖,線性相關(guān)性增加饲宛,則提取到的特征也有很多重復(fù)相似的,本來神經(jīng)網(wǎng)絡(luò)為了應(yīng)對(duì)復(fù)雜的任務(wù)而準(zhǔn)備了龐大的參數(shù)量嗜价,但是矩陣退化導(dǎo)致很多參數(shù)形同虛設(shè)艇抠,難以獲得更豐富的特征,模型的表達(dá)能力下降導(dǎo)致訓(xùn)練的損失難以下降久锥。
舉個(gè)例子吧家淤,本來可以看整個(gè)人識(shí)人,現(xiàn)在只觀察得到眼睛瑟由,雖然也能達(dá)到目的絮重,可是總歸不如綜合考慮來得精確。
2013年Saxe等人發(fā)現(xiàn)在隨機(jī)初始化的深度神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)之間會(huì)出現(xiàn)線性相關(guān)的現(xiàn)象绿鸣,而且這個(gè)現(xiàn)象隨著深度加深而變得更嚴(yán)重。
造成模型退化的原因包括:
節(jié)點(diǎn)相等暂氯,
壞死,
線性相關(guān)亮蛔。
這會(huì)導(dǎo)致神經(jīng)元相鄰的權(quán)重identifiable不可辨認(rèn)痴施,我的理解就是權(quán)重得不到有效的更新。
減輕退化程度:
雖然模型退化是一個(gè)懸而未決的問題究流,但是其實(shí)辣吃,研究者們嘗試過的很多方法,究其根本也是在超這個(gè)方向努力芬探。
使用LeNet的s2神得,c3層的不完全連接,dropout技術(shù)偷仿,參數(shù)初始化方法哩簿,跳躍連接宵蕉。
還有一點(diǎn)補(bǔ)充一下就是,ReLU可能會(huì)造成神經(jīng)元壞死(永遠(yuǎn)無法激活的情況节榜,權(quán)重的不到更新羡玛,腦細(xì)胞死了就是這種感覺。)宗苍,而Leaky ReLU因?yàn)樵谧蟀肫矫嬉灿刑荻燃诟澹涂梢员苊膺@個(gè)問題。