CH01 統(tǒng)計學習方法概論

4RcOWibT3oY.jpg

導讀

  • 直接看目錄結(jié)構(gòu)径缅,會感覺有點亂中符,就層級結(jié)構(gòu)來講感覺并不整齊姜胖。可以看本章概要部分淀散,摘錄幾點右莱,希望對理解本章內(nèi)容編排有幫助:

    1. 統(tǒng)計學習三要素對理解統(tǒng)計學習方法起到提綱挈領(lǐng)的作用
    2. 本書主要討論監(jiān)督學習
    3. 分類問題、標注問題和回歸問題都是監(jiān)督學習的重要問題
    4. 本書中介紹的統(tǒng)計學習方法包括...档插。這些方法是主要的分類慢蜓、標注以及回歸方法。他們又可歸類為生成方法與判別方法郭膛。
  • 本章最后的三個部分晨抡,這三個問題可以對比著看,如果暫時沒有概念则剃,略過也可以耘柱,回頭對各個算法有了感覺回頭再看這里。
    這三部分怎么對比棍现,三部分都有個圖來說明调煎,仔細看下差異,本文后面會對此展開轴咱。

  • 關(guān)于損失函數(shù)汛蝙,風險函數(shù)與目標函數(shù)注意體會差異

  • 后面插點從深度學習角度拿到的點

    • 關(guān)于機器學習三要素, 復旦大學邱錫鵬教授也有解讀[^2]: 模型, 學習準則, 優(yōu)化算法. 這個定義比較接近代碼. 以Tensorflow為例. 通常會定義一個網(wǎng)絡(luò)(模型), 定義Loss(學習準則), 定義優(yōu)化算法(Optimizer), 然后開Session, 不停的把數(shù)據(jù)帶入用Opitmizer去最小化Loss.
    • Losses, Metrics, 在Keras里面劃分了兩個模塊, 解釋是Losses是BP過程用到的, 而Metrics實際和損失函數(shù)類似, 用來評價模型的性能, 但是不參與反向傳播. 從源碼也能看到, Metrics里面import了很多Loss算法

實現(xiàn)統(tǒng)計學習方法的步驟

統(tǒng)計學習方法三要素:模型,策略,算法.

  1. 得到一個有限的訓練數(shù)據(jù)集合
  2. 確定包含所有可能的模型的假設(shè)空間, 即學習模型的集合.
  3. 確定模型選擇的準則, 即學習的策略
  4. 實現(xiàn)求解最優(yōu)模型的算法, 即學習的算法
  5. 通過學習方法選擇最優(yōu)的模型
  6. 利用學習的最優(yōu)模型對新數(shù)據(jù)進行預測或分析.

統(tǒng)計學習方法三要素

模型

模型是什么?

在監(jiān)督學習過程中, 模型就是所要學習的條件概率分布或者決策函數(shù).

注意書中的這部分描述,整理了一下到表格里:

假設(shè)空間\cal F 輸入空間\cal X 輸出空間\cal Y 參數(shù)空間
決策函數(shù) $\cal F\it ={f_{\theta} Y=f_{\theta}(x), \theta \in \bf R \it ^n}$ 變量 變量 \bf R\it ^n
條件概率分布 $\cal F\it ={P P_{\theta}(Y X),\theta\in \bf R \it ^n}$ 隨機變量 隨機變量 \bf R\it ^n

書中描述的時候朴肺,有提到條件概率分布族窖剑,這個留一下,后面CH06有提到確認邏輯斯諦分布屬于指數(shù)分布族戈稿。

策略

損失函數(shù)與風險函數(shù)

損失函數(shù)度量模型一次預測的好壞西土,風險函數(shù)度量平均意義下模型預測的好壞。

  1. 損失函數(shù)(loss function)或代價函數(shù)(cost function)
    損失函數(shù)定義為給定輸入X預測值f(X)真實值Y之間的非負實值函數(shù), 記作L(Y,f(X))

  2. 風險函數(shù)(risk function)或期望損失(expected loss)
    這個和模型的泛化誤差的形式是一樣的
    R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y
    模型f(X)關(guān)于聯(lián)合分布P(X,Y)平均意義下的損失(期望損失), 但是因為P(X,Y)是未知的, 所以前面的用詞是期望, 以及平均意義下的.

    這個表示其實就是損失的均值, 反映了對整個數(shù)據(jù)的預測效果的好壞, P(x,y)轉(zhuǎn)換成\frac {\nu(X=x, Y=y)}{N}更容易直觀理解, 可以參考CH09, 6.2.2節(jié)的部分描述來理解, 但是真實的數(shù)據(jù)N是無窮的.

  3. 經(jīng)驗風險(empirical risk)或經(jīng)驗損失(empirical loss)
    R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))
    模型f關(guān)于訓練樣本集的平均損失
    根據(jù)大數(shù)定律, 當樣本容量N趨于無窮大時, 經(jīng)驗風險趨于期望風險

  4. 結(jié)構(gòu)風險(structural risk)
    R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)
    J(f)為模型復雜度, \lambda \geqslant 0是系數(shù), 用以權(quán)衡經(jīng)驗風險和模型復雜度.

常用損失函數(shù)

損失函數(shù)數(shù)值越小鞍盗,模型就越好

L(Y,f(X))

  1. 0-1損失
    L=\begin{cases}1, Y \neq f(X) \\0, Y=f(X) \end{cases}
  2. 平方損失
    L=(Y-f(X))^2
  3. 絕對損失
    L=|Y-f(X)|

L(Y,P(Y|X))

  1. 對數(shù)損失
    這里P(Y|X)\leqslant 1需了,對應的對數(shù)是負值跳昼,所以對數(shù)損失中包含一個負號,為什么不是絕對值肋乍?因為肯定是負的鹅颊。
    L=-\log P(Y|X)

ERM與SRM

經(jīng)驗風險最小化(ERM)與結(jié)構(gòu)風險最小化(SRM)

  1. 極大似然估計是經(jīng)驗風險最小化的一個例子.
    當模型是條件概率分布, 損失函數(shù)是對數(shù)損失函數(shù)時, 經(jīng)驗風險最小化等價于極大似然估計.
  2. 貝葉斯估計中的最大后驗概率估計是結(jié)構(gòu)風險最小化的一個例子.
    當模型是條件概率分布, 損失函數(shù)是對數(shù)損失函數(shù), 模型復雜度由模型的先驗概率表示時, 結(jié)構(gòu)風險最小化等價于最大后驗概率估計.

算法

這章里面簡單提了一下,具體可以參考CH12表格中關(guān)于學習算法的描述墓造。

模型選擇

  1. 正則化
    模型選擇的典型方法是正則化
  2. 交叉驗證
    另一種常用的模型選擇方法是交叉驗證
    • 簡單
    • S折(K折, K-Fold)[^1]
    • 留一法

泛化能力

  • 現(xiàn)實中采用最多的方法是通過測試誤差來評價學習方法的泛化能力

  • 統(tǒng)計學習理論試圖從理論上對學習方法的泛化能力進行分析

  • 學習方法的泛化能力往往是通過研究泛化誤差的概率上界進行的, 簡稱為泛化誤差上界(generalization error bound)

    這本書里面討論的不多堪伍,在CH08里面有討論提升方法的誤差分析, 提到AdaBoost不需要知道下界\gamma。在CH02中討論算法的收斂性的時候有提到誤分類次數(shù)的上界.

注意泛化誤差的定義觅闽,書中有說事實上帝雇,泛化誤差就是所學習到的模型的期望風險

生成模型與判別模型

監(jiān)督學習方法可分為生成方法(generative approach)與判別方法(discriminative approach)

生成方法

generative approach

  • 可以還原出聯(lián)合概率分布P(X,Y)
  • 收斂速度快, 當樣本容量增加時, 學到的模型可以更快收斂到真實模型
  • 當存在隱變量時仍可以用

判別方法

discriminative approach

  • 直接學習條件概率P(Y|X)或者決策函數(shù)f(X)
  • 直接面對預測, 往往學習準確率更高
  • 可以對數(shù)據(jù)進行各種程度的抽象, 定義特征并使用特征, 可以簡化學習問題

分類問題、標注問題蛉拙、回歸問題

Classification, Tagging, Regression

  • 圖1.4和圖1.5除了分類系統(tǒng)和標注系統(tǒng)的差異外尸闸,沒看到其他差異,但實際上這兩幅圖中對應的輸入數(shù)據(jù)有差異孕锄,序列數(shù)據(jù)的x_i = (x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)})^T對應了
  • 圖1.5和圖1.6吮廉,回歸問題的產(chǎn)出為Y=\hat f(X)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市硫惕,隨后出現(xiàn)的幾起案子茧痕,更是在濱河造成了極大的恐慌野来,老刑警劉巖恼除,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異曼氛,居然都是意外死亡豁辉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門舀患,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徽级,“玉大人,你說我怎么就攤上這事聊浅〔颓溃” “怎么了?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵低匙,是天一觀的道長旷痕。 經(jīng)常有香客問我,道長顽冶,這世上最難降的妖魔是什么欺抗? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮强重,結(jié)果婚禮上绞呈,老公的妹妹穿的比我還像新娘贸人。我一直安慰自己,他們只是感情好佃声,可當我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布艺智。 她就那樣靜靜地躺著,像睡著了一般圾亏。 火紅的嫁衣襯著肌膚如雪力惯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天召嘶,我揣著相機與錄音父晶,去河邊找鬼。 笑死弄跌,一個胖子當著我的面吹牛甲喝,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播铛只,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼埠胖,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了淳玩?” 一聲冷哼從身側(cè)響起直撤,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蜕着,沒想到半個月后谋竖,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡承匣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年蓖乘,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片韧骗。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡嘉抒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出袍暴,到底是詐尸還是另有隱情些侍,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布政模,位于F島的核電站岗宣,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏览徒。R本人自食惡果不足惜狈定,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧纽什,春花似錦措嵌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至让蕾,卻和暖如春浪规,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背探孝。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工笋婿, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人顿颅。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓缸濒,卻偏偏與公主長得像,于是被迫代替她去往敵國和親粱腻。 傳聞我的和親對象是個殘疾皇子庇配,可洞房花燭夜當晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容