李宏毅機(jī)器學(xué)習(xí)——誤差和梯度下降

誤差

誤差的來源

在機(jī)器學(xué)習(xí)中赖欣,誤差=偏差+方差(Error=Bias+Variance)罐韩。

Error反映整個模型的準(zhǔn)確度

Bias反映模型在樣本上的輸出與真實值之間的誤差憾赁,即模型本身的精準(zhǔn)度

Variance反映模型每一次輸出結(jié)果與模型輸出期望之間的誤差厚柳,即模型的穩(wěn)定性

Bias的計算

估計μ: m=\dfrac{1}{n} \sum_{n} {x^n} \neq μ

E(m)=E(\dfrac{1}{n} \sum_{n} {x^n}) = \dfrac{1}{N}\sum_n E(x^n)=μ

m分布對于μ的離散程度(方差): Var(m)=\dfrac{σ^2}{N}

Var的計算

估計\sigma ^ 2:

m=\dfrac{1}{N} \sum_{n} x^{n}

s^{2}=\dfrac{1}{N} \sum_{n}\left(x^{n}-m\right)^{2}

E\left[s^{2}\right]=\dfrac{N-1}{N} \sigma^{2} \neq \sigma^{2}


下面這張圖可以更直觀地顯示Bias和Variance的區(qū)別宵溅。

Bias vs Variance

比較簡單的model var行伞(受數(shù)據(jù)的影響小)荡碾,var大谨读;復(fù)雜的model var大,bias小坛吁。

簡單模型擬合能力不如復(fù)雜模型劳殖,所以對一些偏差較大的值不太敏感。

簡單模型是偏差比較大造成的誤差阶冈,這種情況叫做欠擬合闷尿,而復(fù)雜模型是方差過大造成的誤差,這種情況叫做過擬合女坑。

過擬合和欠擬合

  • 欠擬合:模型沒有很好的訓(xùn)練訓(xùn)練集填具,偏差過大。
  • 過擬合:模型在訓(xùn)練集上得到很小的錯誤匆骗,但是在測試集上得到很大的錯誤劳景。

處理方式

偏差大-欠擬合:重新設(shè)計模型,加入更多的函數(shù)碉就,或者考慮更復(fù)雜的模型盟广。

方差大-過擬合:更多的數(shù)據(jù)(可以采用數(shù)據(jù)增強(qiáng)方法);正則化瓮钥。

模型的選擇

權(quán)衡偏差和偏差筋量,使得總誤差最好,但是公共測試集的數(shù)據(jù)往往是不可靠的碉熄,所以不要做下面這張圖片的事桨武。

Model Selection

交叉驗證
將訓(xùn)練集分為訓(xùn)練集和驗證集,根據(jù)驗證集上的error選擇模型锈津。

Cross Validation1

N-折交叉驗證
將訓(xùn)練集分為N份呀酸,在每一份上分別訓(xùn)練模型,最后再用全部訓(xùn)練數(shù)據(jù)上訓(xùn)練較好的模型琼梆。

Cross Validation 2

梯度下降

梯度下降法

在回歸問題中需要解決最優(yōu)化問題性誉,使得Loss最小。

gd1.png

這里的parameters是復(fù)數(shù)茎杂,即 \theta错览。需要找一組參數(shù) \theta ,讓損失函數(shù)越小越好蛉顽,可以用梯度下降法解決蝗砾。

  1. \theta 有里面有兩個參數(shù) θ_1,θ_2,隨機(jī)選取初始值携冤;
  2. 分別計算偏微分悼粮,得到梯度,根據(jù)學(xué)習(xí)率更新參數(shù)
gd2.png

學(xué)習(xí)率的調(diào)整

將參數(shù)改變對損失函數(shù)的影響進(jìn)行可視化(右圖)曾棕。

gd3.png

自適應(yīng)學(xué)習(xí)率

隨著次數(shù)的增加扣猫,通過一些因子來減少學(xué)習(xí)率

  • 通常剛開始,初始點會距離最低點比較遠(yuǎn)翘地,使用大一點的學(xué)習(xí)率
  • update好幾次參數(shù)之后申尤,比較靠近最低點了,減少學(xué)習(xí)率

學(xué)習(xí)率不能是一個值通用所有特征衙耕,不同的參數(shù)需要不同的學(xué)習(xí)率

Adagrad

每個參數(shù)的學(xué)習(xí)率都把它除上之前微分的均方根昧穿。

  • 普通的梯度下降
    \mathrm{w}^{\mathrm{t}+1} \leftarrow \mathrm{w}^{\mathrm{t}}-\eta^{\mathrm{t}} \mathrm{g}^{\mathrm{t}}
    \eta^{\mathrm{t}}=\frac{\eta^{\mathrm{t}}}{\sqrt{\mathrm{t}+1}}

  • Adagard
    \mathrm{w}^{\mathrm{t}+1} \leftarrow \mathrm{w}^{\mathrm{t}}-\frac{\eta^{\mathrm{t}}}{\sigma^{\mathrm{t}}} \mathrm{g}^{\mathrm{t}}
    \mathrm{g}^{\mathrm{t}}=\frac{\partial \mathrm{L}\left(\theta^{\mathrm{t}}\right)}{\partial \mathrm{w}}

\sigma ^ t: 之前參數(shù)的所有微分的均方根,對于每個參數(shù)都是不一樣的橙喘。

具體的參數(shù)更新過程

adagard.png

對 Adagard 式子進(jìn)行化簡时鸵,得到
w^{t+1} \leftarrow w^t - \dfrac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}

adagard2.png

Adagard存在的矛盾?

adagard3.png

Gradient越大的時候厅瞎,分母越大饰潜,更新的步伐越小和簸?

Adagard考慮的是Gradient的反差
計算過去Gradient的平方和

不一定gradient越大彭雾,距離loss最低點越遠(yuǎn)

最佳的步伐應(yīng)該是 \dfrac{一次微分}{二次微分}

對于 {\sqrt{\sum_{i=0}^t(g^i)^2}},就是希望再盡可能不增加過多運算的情況下模擬二次微分锁保。

(如果計算二次微分薯酝,在實際情況中可能會增加很多的時間消耗)

隨機(jī)梯度下降SGD

隨機(jī)梯度下降損失函數(shù)不需要用到全部的訓(xùn)練數(shù)據(jù),而是隨機(jī)選取一個例子計算損失函數(shù)吴菠,并且更新梯度。

傳統(tǒng)梯度下降

\mathrm{L}=\sum_{\mathrm{n}}\left(\hat{\mathrm{y}}^{\mathrm{n}}-\left(\mathrm霉赡+\sum \mathrm{w}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{n}}\right)\right)^{2}
\theta^{\mathrm{i}}=\theta^{\mathrm{i}-1}-\eta \nabla \mathrm{L}\left(\theta^{\mathrm{i}-1}\right)

隨機(jī)梯度下降

\mathrm{L}=\left(\hat{\mathrm{y}}^{\mathrm{n}}-\left(\mathrm橄务+\sum \mathrm{w}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{n}}\right)\right)^{2}
\theta^{\mathrm{i}}=\theta^{\mathrm{i}-1}-\eta \nabla \mathrm{L}^{\mathrm{n}}\left(\theta^{\mathrm{i}-1}\right)

不需要對所有數(shù)據(jù)進(jìn)行處理,更新速度更快穴亏。

特征縮放 Feature Scaling

對特征數(shù)量較多的時候蜂挪,將不同的feature范圍縮放到一致,保證這些特征具有相近的尺度(無量綱化)嗓化,可以使梯度下降法更快的收斂棠涮。

Feature Scaling的方法

  1. Min-Max Normalization(min-max標(biāo)準(zhǔn)化)
    x^{*}=\frac{x-\min (x)}{\max (x)-\min (x)}

  2. Mean normalization(mean歸一化)
    x^{*}=\frac{x-\operatorname{mean}(x)}{\max (x)-\min (x)}

  3. Standarddization(z-score標(biāo)準(zhǔn)化)
    x^{*}=\frac{x-x}{\sigma}

  4. max標(biāo)準(zhǔn)化
    x^{*}=\frac{x}{\max (x)}

norm.png

梯度下降的理論基礎(chǔ)

math (1).PNG

如何在小圓圈內(nèi)快速找到最小值?

泰勒展開式

h(x)x=x_0點的某個領(lǐng)域內(nèi)有無限階導(dǎo)數(shù)(即無限可微分刺覆,infinitely differentiable)严肪,有

math (2).PNG

math (3).PNG

多變量泰勒展開式

math (4).PNG

利用泰勒展開式簡化

如果紅色圈圈足夠小,那么損失函數(shù)可以用泰勒展開式進(jìn)行簡化:

math (5).PNG
math (6).PNG
math (7).PNG

梯度下降的限制

微分值為0的地方,可能是局部極值或者不是極值點(可能實際上當(dāng)微分值小于某一個數(shù)值就停下來了驳糯,并不是極值點)

作業(yè)————PM2.5預(yù)測

參考資料

李宏毅機(jī)器學(xué)習(xí)筆記

李宏毅機(jī)器學(xué)習(xí)視頻課

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末篇梭,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子酝枢,更是在濱河造成了極大的恐慌恬偷,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件帘睦,死亡現(xiàn)場離奇詭異袍患,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)竣付,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進(jìn)店門诡延,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人古胆,你說我怎么就攤上這事肆良。” “怎么了赤兴?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵妖滔,是天一觀的道長。 經(jīng)常有香客問我桶良,道長座舍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任陨帆,我火速辦了婚禮曲秉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘疲牵。我一直安慰自己承二,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布纲爸。 她就那樣靜靜地躺著亥鸠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪识啦。 梳的紋絲不亂的頭發(fā)上负蚊,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天,我揣著相機(jī)與錄音颓哮,去河邊找鬼家妆。 笑死,一個胖子當(dāng)著我的面吹牛冕茅,可吹牛的內(nèi)容都是我干的伤极。 我是一名探鬼主播蛹找,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼哨坪!你這毒婦竟也來了庸疾?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤齿税,失蹤者是張志新(化名)和其女友劉穎彼硫,沒想到半個月后炊豪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凌箕,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年词渤,在試婚紗的時候發(fā)現(xiàn)自己被綠了牵舱。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,646評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡缺虐,死狀恐怖芜壁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情高氮,我是刑警寧澤慧妄,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站剪芍,受9級特大地震影響塞淹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜罪裹,卻給世界環(huán)境...
    茶點故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一饱普、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧状共,春花似錦套耕、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至碾牌,卻和暖如春康愤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背小染。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工翘瓮, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人裤翩。 一個月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓资盅,卻偏偏與公主長得像调榄,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子呵扛,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,514評論 2 348

推薦閱讀更多精彩內(nèi)容