導讀
-
直接看目錄結(jié)構(gòu)径缅,會感覺有點亂中符,就層級結(jié)構(gòu)來講感覺并不整齊姜胖。可以看本章概要部分淀散,摘錄幾點右莱,希望對理解本章內(nèi)容編排有幫助:
- 統(tǒng)計學習三要素對理解統(tǒng)計學習方法起到提綱挈領(lǐng)的作用
- 本書主要討論監(jiān)督學習
- 分類問題、標注問題和回歸問題都是監(jiān)督學習的重要問題
- 本書中介紹的統(tǒng)計學習方法包括...档插。這些方法是主要的分類慢蜓、標注以及回歸方法。他們又可歸類為生成方法與判別方法郭膛。
本章最后的三個部分晨抡,這三個問題可以對比著看,如果暫時沒有概念则剃,略過也可以耘柱,回頭對各個算法有了感覺回頭再看這里。
這三部分怎么對比棍现,三部分都有個圖來說明调煎,仔細看下差異,本文后面會對此展開轴咱。關(guān)于損失函數(shù)汛蝙,風險函數(shù)與目標函數(shù)注意體會差異
-
后面插點從深度學習角度拿到的點
- 關(guān)于機器學習三要素, 復旦大學邱錫鵬教授也有解讀[^2]: 模型, 學習準則, 優(yōu)化算法. 這個定義比較接近代碼. 以Tensorflow為例. 通常會定義一個網(wǎng)絡(luò)(模型), 定義Loss(學習準則), 定義優(yōu)化算法(Optimizer), 然后開Session, 不停的把數(shù)據(jù)帶入用Opitmizer去最小化Loss.
- Losses, Metrics, 在Keras里面劃分了兩個模塊, 解釋是Losses是BP過程用到的, 而Metrics實際和損失函數(shù)類似, 用來評價模型的性能, 但是不參與反向傳播. 從源碼也能看到, Metrics里面import了很多Loss算法
實現(xiàn)統(tǒng)計學習方法的步驟
統(tǒng)計學習方法三要素:模型,策略,算法.
- 得到一個有限的訓練數(shù)據(jù)集合
- 確定包含所有可能的模型的假設(shè)空間, 即學習模型的集合.
- 確定模型選擇的準則, 即學習的策略
- 實現(xiàn)求解最優(yōu)模型的算法, 即學習的算法
- 通過學習方法選擇最優(yōu)的模型
- 利用學習的最優(yōu)模型對新數(shù)據(jù)進行預測或分析.
統(tǒng)計學習方法三要素
模型
模型是什么?
在監(jiān)督學習過程中, 模型就是所要學習的條件概率分布或者決策函數(shù).
注意書中的這部分描述,整理了一下到表格里:
假設(shè)空間 |
輸入空間 |
輸出空間 |
參數(shù)空間 | |||
---|---|---|---|---|---|---|
決策函數(shù) | $\cal F\it ={f_{\theta} | Y=f_{\theta}(x), \theta \in \bf R \it ^n}$ | 變量 | 變量 | ||
條件概率分布 | $\cal F\it ={P | P_{\theta}(Y | X),\theta\in \bf R \it ^n}$ | 隨機變量 | 隨機變量 |
書中描述的時候朴肺,有提到條件概率分布族窖剑,這個留一下,后面CH06有提到確認邏輯斯諦分布屬于指數(shù)分布族戈稿。
策略
損失函數(shù)與風險函數(shù)
損失函數(shù)度量模型一次預測的好壞西土,風險函數(shù)度量平均意義下模型預測的好壞。
損失函數(shù)(loss function)或代價函數(shù)(cost function)
損失函數(shù)定義為給定輸入的預測值
和真實值
之間的非負實值函數(shù), 記作
-
風險函數(shù)(risk function)或期望損失(expected loss)
這個和模型的泛化誤差的形式是一樣的
模型關(guān)于聯(lián)合分布
的平均意義下的損失(期望損失), 但是因為
是未知的, 所以前面的用詞是期望, 以及平均意義下的.
這個表示其實就是損失的均值, 反映了對整個數(shù)據(jù)的預測效果的好壞,
轉(zhuǎn)換成
更容易直觀理解, 可以參考CH09, 6.2.2節(jié)的部分描述來理解, 但是真實的數(shù)據(jù)N是無窮的.
經(jīng)驗風險(empirical risk)或經(jīng)驗損失(empirical loss)
模型關(guān)于訓練樣本集的平均損失
根據(jù)大數(shù)定律, 當樣本容量N趨于無窮大時, 經(jīng)驗風險趨于期望風險結(jié)構(gòu)風險(structural risk)
為模型復雜度,
是系數(shù), 用以權(quán)衡經(jīng)驗風險和模型復雜度.
常用損失函數(shù)
損失函數(shù)數(shù)值越小鞍盗,模型就越好
- 0-1損失
- 平方損失
- 絕對損失
- 對數(shù)損失
這里需了,對應的對數(shù)是負值跳昼,所以對數(shù)損失中包含一個負號,為什么不是絕對值肋乍?因為肯定是負的鹅颊。
ERM與SRM
經(jīng)驗風險最小化(ERM)與結(jié)構(gòu)風險最小化(SRM)
-
極大似然估計是經(jīng)驗風險最小化的一個例子.
當模型是條件概率分布, 損失函數(shù)是對數(shù)損失函數(shù)時, 經(jīng)驗風險最小化等價于極大似然估計. -
貝葉斯估計中的最大后驗概率估計是結(jié)構(gòu)風險最小化的一個例子.
當模型是條件概率分布, 損失函數(shù)是對數(shù)損失函數(shù), 模型復雜度由模型的先驗概率表示時, 結(jié)構(gòu)風險最小化等價于最大后驗概率估計.
算法
這章里面簡單提了一下,具體可以參考CH12表格中關(guān)于學習算法的描述墓造。
模型選擇
- 正則化
模型選擇的典型方法是正則化 - 交叉驗證
另一種常用的模型選擇方法是交叉驗證- 簡單
- S折(K折, K-Fold)[^1]
- 留一法
泛化能力
現(xiàn)實中采用最多的方法是通過測試誤差來評價學習方法的泛化能力
統(tǒng)計學習理論試圖從理論上對學習方法的泛化能力進行分析
-
學習方法的泛化能力往往是通過研究泛化誤差的概率上界進行的, 簡稱為泛化誤差上界(generalization error bound)
這本書里面討論的不多堪伍,在CH08里面有討論提升方法的誤差分析, 提到
不需要知道下界
。在CH02中討論算法的收斂性的時候有提到誤分類次數(shù)的上界.
注意泛化誤差的定義觅闽,書中有說事實上帝雇,泛化誤差就是所學習到的模型的期望風險
生成模型與判別模型
監(jiān)督學習方法可分為生成方法(generative approach)與判別方法(discriminative approach)
生成方法
generative approach
- 可以還原出聯(lián)合概率分布
- 收斂速度快, 當樣本容量增加時, 學到的模型可以更快收斂到真實模型
- 當存在隱變量時仍可以用
判別方法
discriminative approach
- 直接學習條件概率
或者決策函數(shù)
- 直接面對預測, 往往學習準確率更高
- 可以對數(shù)據(jù)進行各種程度的抽象, 定義特征并使用特征, 可以簡化學習問題
分類問題、標注問題蛉拙、回歸問題
Classification, Tagging, Regression
- 圖1.4和圖1.5除了分類系統(tǒng)和標注系統(tǒng)的差異外尸闸,沒看到其他差異,但實際上這兩幅圖中對應的輸入數(shù)據(jù)有差異孕锄,序列數(shù)據(jù)的
對應了
- 圖1.5和圖1.6吮廉,回歸問題的產(chǎn)出為