泛化和過擬合
構(gòu)建泛化能力強的模型
- 正確的數(shù)據(jù)
- 合適的模型(圖像:CNN)
- 合適的優(yōu)化算法(梯度下降、adam)
- 避免模型過擬合
過擬合:訓(xùn)練集上擬合好预鬓,但在測試集上表現(xiàn)差
通常濒募,一個模型存在過擬合現(xiàn)象的時候鞭盟,它的參數(shù)趨向于變大。
L1和L2正則
由于使用L1正則之后瑰剃,很多參數(shù)變成了0齿诉,這自然就起到了特征選擇的目的。讓模型的參數(shù)變稀疏。
L1正則所存在的潛在的問題:
1粤剧、計算上的挑戰(zhàn) 無法很好地融合到梯度下降法歇竟,對于||w||, w=0時,0點沒有梯度抵恋。
2焕议、特征選擇上的挑戰(zhàn)。 對于相似特征上弧关,是隨機篩選盅安。解決方法可以是結(jié)合L1+L2 。在成千上萬個特征選某幾個時會用L1.
關(guān)于L2參數(shù)λ:絕對值變大的時候世囊,L2范數(shù)的值也會相應(yīng)地變大别瞭,這就跟最小化目標(biāo)函數(shù)是矛盾的。所以加入L2范數(shù)之后株憾,優(yōu)化過程傾向于選擇絕對值小的參數(shù)
MAP 和 MLP
最大似然估計(MLE, Maximum Likelihood Estimation)和最大后驗估計 MAP之間也有著特殊的關(guān)系:當(dāng)數(shù)據(jù)量無窮多的時候蝙寨,最大后驗估計的結(jié)果會逼近于最大似然估計的結(jié)果。這就說明号胚,當(dāng)數(shù)據(jù)越來越多的時候籽慢,先驗的作用會逐步減弱浸遗。
MLE 尋找θ使得 P(D|θ) 最大
MAP 尋找θ使得 P(θ|D) 最大
θ_MAP = argmax P(D|θ)·P(θ) 似然概率·先驗概率
當(dāng)樣本量很小的時候猫胁,應(yīng)加入先驗概率,否則容易被樣本迷惑跛锌,參考癌癥看病的例子 4-4 PART1弃秆。同時也相當(dāng)于一個正則項,不同先驗概率分布相當(dāng)于不同正則項髓帽,比如高斯分布=L2正則菠赚。
當(dāng)樣本量無窮大時,MAP趨向于MLP郑藏。因為MLE部分權(quán)重隨N變大而變大衡查,prior權(quán)重相應(yīng)變小