56.1 參數(shù)和超參數(shù)的區(qū)別
- 區(qū)分兩者最大的一點(diǎn)就是是否通過數(shù)據(jù)來進(jìn)行調(diào)整,模型參數(shù)通常是有數(shù)據(jù)來驅(qū)動(dòng)調(diào)整,超參數(shù)則不需要數(shù)據(jù)來驅(qū)動(dòng),而是在訓(xùn)練前或者訓(xùn)練中人為的進(jìn)行調(diào)整的參數(shù)
- 例如卷積核的具體核參數(shù)就是指模型參數(shù),這是有數(shù)據(jù)驅(qū)動(dòng)的。而學(xué)習(xí)率則是人為來進(jìn)行調(diào)整的超參數(shù)
- 這里需要注意的是济欢,通常情況下卷積核數(shù)量、卷積核尺寸這些也是超參數(shù)小渊,注意與卷積核的核參數(shù)區(qū)分法褥。
56.2 神經(jīng)網(wǎng)絡(luò)中包含哪些超參數(shù)
- 通常可以將超參數(shù)分為三類:
- 網(wǎng)絡(luò)參數(shù):可指網(wǎng)絡(luò)層與層之間的交互方式(相加酬屉、相乘或者串接等)半等、卷積核數(shù)量和卷積核尺寸、網(wǎng)絡(luò)層數(shù)(也稱深度)和激活函數(shù)等梆惯。
- 優(yōu)化參數(shù):一般指學(xué)習(xí)率(learning rate)酱鸭、批樣本數(shù)量(batch size)、不同優(yōu)化器的參數(shù)以及部分損失函數(shù)的可調(diào)參數(shù)垛吗。
- 正則化:權(quán)重衰減系數(shù),丟棄法比率(dropout)
56.3 為什么要進(jìn)行超參數(shù)調(diào)優(yōu)
- 本質(zhì)上烁登,這是模型優(yōu)化尋找最優(yōu)解和正則項(xiàng)之間的關(guān)系
- 網(wǎng)絡(luò)模型優(yōu)化調(diào)整的目的是為了尋找到全局最優(yōu)解(或者相比更好的局部最優(yōu)解)怯屉,而正則項(xiàng)又希望模型盡量擬合到最優(yōu)
- 兩者通常情況下,存在一定的對立饵沧,但兩者的目標(biāo)是一致的锨络,即最小化期望風(fēng)險(xiǎn)
- 模型優(yōu)化希望最小化經(jīng)驗(yàn)風(fēng)險(xiǎn),而容易陷入過擬合狼牺,正則項(xiàng)用來約束模型復(fù)雜度
- 所以如何平衡兩者之間的關(guān)系羡儿,得到最優(yōu)或者較優(yōu)的解就是超參數(shù)調(diào)整優(yōu)化的目的。
56.4 學(xué)習(xí)率是钥,損失函數(shù)上的可調(diào)參數(shù)
- 在網(wǎng)絡(luò)參數(shù)掠归、優(yōu)化參數(shù)、正則化參數(shù)中最重要的超參數(shù)可能就是學(xué)習(xí)率了
- 學(xué)習(xí)率直接控制著訓(xùn)練中網(wǎng)絡(luò)梯度更新的量級(jí)悄泥,直接影響著模型的有效容限能力虏冻;
- 損失函數(shù)上的可調(diào)參數(shù),這些參數(shù)通常情況下需要結(jié)合實(shí)際的損失函數(shù)來調(diào)整弹囚,大部分情況下這些參數(shù)也能很直接的影響到模型的的有效容限能力厨相。
- 這些損失一般可分成三類
- 第一類輔助損失結(jié)合常見的損失函數(shù),起到輔助優(yōu)化特征表達(dá)的作用
- 例如度量學(xué)習(xí)中的Center loss,通常結(jié)合交叉熵?fù)p失伴隨一個(gè)權(quán)重完成一些特定的任務(wù)
- 這種情況下一般建議輔助損失值不高于或者不低于交叉熵?fù)p失值的兩個(gè)數(shù)量級(jí)蛮穿;
- 第二類庶骄,多任務(wù)模型的多個(gè)損失函數(shù),每個(gè)損失函數(shù)之間或獨(dú)立或相關(guān)践磅,用于各自任務(wù)单刁,這種情況取決于任務(wù)之間本身的相關(guān)性,目前筆者并沒有一個(gè)普適的經(jīng)驗(yàn)由于提供參考音诈;
- 第三類幻碱,獨(dú)立損失函數(shù),這類損失通常會(huì)在特定的任務(wù)有顯著性的效果细溅。例如RetinaNet中的focal loss褥傍,其中的參數(shù)γ,α喇聊,對最終的效果會(huì)產(chǎn)生較大的影響恍风。這類損失通常論文中會(huì)給出特定的建議值。
- 第一類輔助損失結(jié)合常見的損失函數(shù),起到輔助優(yōu)化特征表達(dá)的作用
大數(shù)據(jù)視頻推薦:
網(wǎng)易云課堂
CSDN
人工智能算法競賽實(shí)戰(zhàn)
AIops智能運(yùn)維機(jī)器學(xué)習(xí)算法實(shí)戰(zhàn)
ELK7 stack開發(fā)運(yùn)維實(shí)戰(zhàn)
PySpark機(jī)器學(xué)習(xí)從入門到精通
AIOps智能運(yùn)維實(shí)戰(zhàn)
騰訊課堂
大數(shù)據(jù)語音推薦:
ELK7 stack開發(fā)運(yùn)維
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門到精通