李宏毅機器學習(五)梯度下降

梯度下降TIP1:調(diào)整你的學習率

下圖左側(cè)為loss曲線和選取學習率對應的情況来候,紅色為選的剛好,藍色選的比較小称杨,所以需要很長時間來找到最低點始苇,綠色較大導致在一定范圍內(nèi)震蕩砌烁,黃色太大導致loss反而增大

當然參數(shù)不一定是一個維度的,如果是高維度就不能單純的把所有參數(shù)用可視曲線分析催式,我們這里就把每個參數(shù)和loss的影響做一個曲線函喉,同樣可以看出關系

插圖1

我們可以為了找到最小值點,同時又為了保證一定的效率荣月,可以梯度下降迭代的同時改變學習率管呵,比如將學習率和第t次迭代掛鉤,\eta ^t= \frac{\eta }{\sqrt{t+1} } ,當然調(diào)整學習率不能對于所有參數(shù)都設置一個學習率哺窄,需要對不同參數(shù)設置不同學習率

插圖2

Adagrad

還記得我們上次課程代碼段將代碼調(diào)整捐下,這種方法就是Adagrad账锹,其每次迭代過程見圖,除了使用學習率和偏微分外坷襟,還是用了\sigma ^t ,其實過去所有迭代梯度參數(shù)的均方差

插圖3

具體實現(xiàn)可以參照下圖

插圖4

其實學習率\eta ^t \sigma ^t都有\frac{1}{\sqrt{t+1} } ,可以消去,就成了下圖的最終寫法

插圖5

我們?yōu)槭裁催@么定制學習率的變化呢啤握,其實是adagrad為了造成反差的效果

插圖6

以最簡單的二次函數(shù)為例晶框,我們知道最小點是x=-\frac{2a} ,如果我們是圖中x_{0} 位置授段,當然我們最好的一步就是\vert x_{0} +\frac{2a}  \vert =\frac{\vert 2ax_{0}+b  \vert }{2a} ,所以其實最好的一步是一階導的絕對值/二階導

插圖7

當然我們adagrad下面是平方和開根號侵贵,并不是二次導,這里是因為二階導當參數(shù)量大的時候往往是我們不能接受的窍育,所以我們采用計算量小的來近似,比如下面2個曲線漱抓,當我們迭代次數(shù)多的時候表锻,就會發(fā)現(xiàn)二階導大的其一階導往往也比較大

插圖8

梯度下降TIP2 ?Stochastic Gradient Descent隨機梯度下降

我們一般的梯度下降是考慮樣本所有誤差的平方和,而隨機梯度下降呢乞娄,是每個樣本單獨計算梯度瞬逊,然后執(zhí)行樣本數(shù)量,聽起來好像很怪仪或,有什么用呢

插圖9

下圖左側(cè)為一般梯度下降确镊,右側(cè)為隨機梯度下降,以20個樣本為例范删,左側(cè)執(zhí)行一次梯度下降時蕾域,右側(cè)執(zhí)行了20次,雖然右側(cè)第一個樣本步很小到旦,而且方向往往不會和左側(cè)一致束铭,但是執(zhí)行了20次后,下降的速度往往比較快

插圖10

梯度下降TIP3 ?Feature Scaling特征處理

比如處理2個特征的輸入時厢绝,x2的分布范圍比x1的寬契沫,我們就把x2的范圍處理成和x1一致,如果x1分布比較大昔汉,那w1與w2相同時懈万,x1,x2相同的改變拴清,w1x1影響y的會比較大

插圖11

處理的方法很多,下圖的方法是將特征標準化

插圖12

我們都知道梯度下降的迭代過程中会通,loss函數(shù)不一定是嚴格意義每次都變小

如求下圖從\theta _{1} 開始迭代口予,我們可以嘗試在一個半徑d的范圍內(nèi)求出損失函數(shù)最小值點

插圖13

這里應用到了泰勒展開式h(x)=\sum_{0}^∞ \frac{h^k (x)}{k!}(x-x_{0} ) ^k,損失函數(shù)用了a,b點的一階偏微分

插圖14

求最小值就是當△\theta _{1} 涕侈,△\theta _{2} 與u,v向量反向時的值沪停,我們可以得到他們之間是-\eta 的關系,當然我們學習率\eta 越小裳涛,偏微分計算出的下一點才最準確木张,所以學習率\eta 不合適可能導致下一點損失函數(shù)不一定最小,如果我們引入二階導(牛頓迭代法)端三,當然模型會更接近舷礼,但是計算量往往太大,我們做深度學習的時候承受不了郊闯,所以梯度下降還是我們比較主流的做法妻献。

插圖15

梯度下降的限制

我們知道沿著損失函數(shù)梯度下降可能我們會找到一個局部最小點,也可能停留在一個平穩(wěn)點团赁,甚至是一個較高的位置育拨,比如我們程序設定迭代多少次就<10-6,但是損失函數(shù)本身分布就比較低,可能扔不是一個可以停止迭代的位置

插圖16
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末欢摄,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子剧浸,更是在濱河造成了極大的恐慌,老刑警劉巖唆香,帶你破解...
    沈念sama閱讀 222,865評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件躬它,死亡現(xiàn)場離奇詭異,居然都是意外死亡冯吓,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,296評論 3 399
  • 文/潘曉璐 我一進店門凸舵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來啊奄,“玉大人渐苏,你說我怎么就攤上這事琼富∽拢” “怎么了?”我有些...
    開封第一講書人閱讀 169,631評論 0 364
  • 文/不壞的土叔 我叫張陵械蹋,是天一觀的道長吭从。 經(jīng)常有香客問我恶迈,道長,這世上最難降的妖魔是什么步做? 我笑而不...
    開封第一講書人閱讀 60,199評論 1 300
  • 正文 為了忘掉前任奈附,我火速辦了婚禮,結(jié)果婚禮上将鸵,老公的妹妹穿的比我還像新娘佑颇。我一直安慰自己,他們只是感情好挑胸,可當我...
    茶點故事閱讀 69,196評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著簿透,像睡著了一般解藻。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蚂维,一...
    開封第一講書人閱讀 52,793評論 1 314
  • 那天,我揣著相機與錄音虫啥,去河邊找鬼。 笑死苹祟,一個胖子當著我的面吹牛评雌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播景东,決...
    沈念sama閱讀 41,221評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼斤吐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了庄呈?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,174評論 0 277
  • 序言:老撾萬榮一對情侶失蹤诬留,失蹤者是張志新(化名)和其女友劉穎文兑,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绿贞,經(jīng)...
    沈念sama閱讀 46,699評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡樟蠕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,770評論 3 343
  • 正文 我和宋清朗相戀三年靠柑,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片歼冰。...
    茶點故事閱讀 40,918評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖隔嫡,靈堂內(nèi)的尸體忽然破棺而出甘穿,到底是詐尸還是另有隱情温兼,我是刑警寧澤,帶...
    沈念sama閱讀 36,573評論 5 351
  • 正文 年R本政府宣布募判,位于F島的核電站咒唆,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏全释。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,255評論 3 336
  • 文/蒙蒙 一妄迁、第九天 我趴在偏房一處隱蔽的房頂上張望糟袁。 院中可真熱鬧躺盛,春花似錦、人聲如沸槽惫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,749評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽各薇。三九已至,卻和暖如春峭判,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背林螃。 一陣腳步聲響...
    開封第一講書人閱讀 33,862評論 1 274
  • 我被黑心中介騙來泰國打工疗认, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留伏钠,地道東北人谨设。 一個月前我還...
    沈念sama閱讀 49,364評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像打掘,于是被迫代替她去往敵國和親鹏秋。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,926評論 2 361