15.1 優(yōu)化與深度學(xué)習(xí)
15.1.1 優(yōu)化與深度學(xué)習(xí)
- 優(yōu)化目標(biāo)
- 最小化目標(biāo)函數(shù)
- 降低泛化誤差
- 避免過擬合
- 挑戰(zhàn)
- 局部最小值
- 鞍點(diǎn)
15.1.2 局部最小值
-
深度學(xué)習(xí)模型的目標(biāo)函數(shù)可能有若干局部最優(yōu)值。
15.1.3 鞍點(diǎn)
-
當(dāng)前解在鞍點(diǎn)(saddle point)附近
15.1.4 提高深度學(xué)習(xí)的泛化能力
- 使用更多數(shù)據(jù)
- 使用更大批次
- 調(diào)整數(shù)據(jù)分布
- 調(diào)整目標(biāo)函數(shù)
- 調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)
- 數(shù)據(jù)增強(qiáng)
- 權(quán)值正則化
- 屏蔽網(wǎng)絡(luò)節(jié)點(diǎn)
15.2 優(yōu)化器-1
15.2.1 動(dòng)量法
-
基本的想法就是計(jì)算梯度的指數(shù)加權(quán)平均數(shù)白嘁,并利用該梯度更新你的權(quán)重
-
動(dòng)量法的提出是為了解決梯度下降的不穩(wěn)定性。
- 指數(shù)加權(quán)移動(dòng)平均
-
給定超參數(shù)0≤γ < 1,當(dāng)前時(shí)間步t的變量yt是上一時(shí)間步t-1的變量yt-1和當(dāng)前時(shí)間步另一變量xt的線性組合:
-
可以對(duì)y_t展開:
-
給定超參數(shù)0≤γ < 1,當(dāng)前時(shí)間步t的變量yt是上一時(shí)間步t-1的變量yt-1和當(dāng)前時(shí)間步另一變量xt的線性組合:
-
指數(shù)加權(quán)移動(dòng)平均
-
由指數(shù)加權(quán)移動(dòng)平均理解動(dòng)量法
15.2.2 AdaGrad算法
- 目標(biāo)函數(shù)自變量的每一個(gè)元素在相同時(shí)間步都使用同一個(gè)學(xué)習(xí)率來(lái)自我迭代
- AdaGrad算法
-
根據(jù)自變量在每個(gè)維度的梯度值的大小來(lái)調(diào)整各個(gè)維度上的學(xué)習(xí)率,從而避免統(tǒng)一的學(xué)習(xí)率難以適應(yīng)所有維度的問題
-
根據(jù)自變量在每個(gè)維度的梯度值的大小來(lái)調(diào)整各個(gè)維度上的學(xué)習(xí)率,從而避免統(tǒng)一的學(xué)習(xí)率難以適應(yīng)所有維度的問題
-
AdaGrad算法會(huì)使用一個(gè)小批量隨機(jī)梯度Gt按元素平方的累加變量St 。
-
接著陕见,將目標(biāo)函數(shù)自變量中每個(gè)元素的學(xué)習(xí)率通過按元素運(yùn)算重新調(diào)整一下:
15.2.2.1 AdaGrad特點(diǎn)
- 需要強(qiáng)調(diào)的是,小批量隨機(jī)梯度按元素平方的累加變量St出現(xiàn)在學(xué)習(xí)率的分母項(xiàng)中味抖。
- 因此评甜,如果目標(biāo)函數(shù)有關(guān)自變量中某個(gè)元素的偏導(dǎo)數(shù)一直都較大,那么該元素的學(xué)習(xí)率將下降較快仔涩;
- 反之忍坷,如果目標(biāo)函數(shù)有關(guān)自變量中某個(gè)元素的偏導(dǎo)數(shù)一直都較小,那么該元素的學(xué)習(xí)率將下降較慢。
- 由于St一直在累加按元素平方的梯度佩研,自變量中每個(gè)元素的學(xué)習(xí)率在迭代過程中一直在降低(或不變)柑肴。
- 當(dāng)學(xué)習(xí)率在迭代早期降得較快且當(dāng)前解依然不佳時(shí),AdaGrad算法在迭代后期由于學(xué)習(xí)率過小旬薯,可能較難找到一個(gè)有用的解晰骑。
大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語(yǔ)音推薦:
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語(yǔ)言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門到精通
- 當(dāng)學(xué)習(xí)率在迭代早期降得較快且當(dāng)前解依然不佳時(shí),AdaGrad算法在迭代后期由于學(xué)習(xí)率過小旬薯,可能較難找到一個(gè)有用的解晰骑。