梯度下降
用于迭代求解函數(shù)最優(yōu)解匠襟,是大數(shù)據(jù)領(lǐng)域用于求解問題的常用思想祟敛。
步長:每一步梯度下降時向目標方向前進的長度猫态。前期可以使用較大步長佣蓉,加快訓練速度,后期可以使用較短步長亲雪,保證訓練精度勇凭。
假設函數(shù):由特征產(chǎn)生目標變量的函數(shù),即預測所用函數(shù)义辕。
損失函數(shù):給任意參數(shù)組合打分的函數(shù)虾标。通過損失函數(shù),可以知道在梯度下降時终息,哪些點更接近目標值夺巩。
隨機梯度下降:每次隨機選擇一個或一小部分點進行損失函數(shù)計算贞让,達到減少計算量周崭、提高訓練速度的目的。由于每次只使用部分數(shù)據(jù)進行優(yōu)化喳张,數(shù)據(jù)中可能存在噪聲续镇,因此每次的移動方向不一定是正確,但迭代次數(shù)增加销部,總體還是會朝著期望的方向移動摸航,且可能因為“非正確移動”,更有可能找到全局最優(yōu)解舅桩。
通常酱虎,隨機梯度下降比普通梯度下降效果更好、速度更快。
每次訓練使用部分樣本,使得隨機梯度下降具有增量學習的特性荣刑〈〔Γ可以邊讀數(shù)據(jù)邊訓練指孤『葡浚可以基于已有模型基礎上進行訓練仇奶。
引用
1.從機器學習到深度學習:基于scikit-learn與tensorflow的高效開發(fā)實戰(zhàn)