CH01 統(tǒng)計學習方法概論

4RcOWibT3oY.jpg

導讀

直接看目錄結(jié)構(gòu)径缅，會感覺有點亂中符，就層級結(jié)構(gòu)來講感覺并不整齊姜胖。可以看本章概要部分淀散，摘錄幾點右莱，希望對理解本章內(nèi)容編排有幫助：
1. 統(tǒng)計學習三要素對理解統(tǒng)計學習方法起到提綱挈領(lǐng)的作用
2. 本書主要討論監(jiān)督學習
3. 分類問題、標注問題和回歸問題都是監(jiān)督學習的重要問題
4. 本書中介紹的統(tǒng)計學習方法包括...档插。這些方法是主要的分類慢蜓、標注以及回歸方法。他們又可歸類為生成方法與判別方法郭膛。
本章最后的三個部分晨抡，這三個問題可以對比著看，如果暫時沒有概念则剃，略過也可以耘柱，回頭對各個算法有了感覺回頭再看這里。
這三部分怎么對比棍现，三部分都有個圖來說明调煎，仔細看下差異，本文后面會對此展開轴咱。
關(guān)于損失函數(shù)汛蝙，風險函數(shù)與目標函數(shù)注意體會差異
后面插點從深度學習角度拿到的點
- 關(guān)于機器學習三要素, 復旦大學邱錫鵬教授也有解讀[^2]: 模型, 學習準則, 優(yōu)化算法. 這個定義比較接近代碼. 以Tensorflow為例. 通常會定義一個網(wǎng)絡(luò)(模型), 定義Loss(學習準則), 定義優(yōu)化算法(Optimizer), 然后開Session, 不停的把數(shù)據(jù)帶入用Opitmizer去最小化Loss.
- Losses, Metrics, 在Keras里面劃分了兩個模塊, 解釋是Losses是BP過程用到的, 而Metrics實際和損失函數(shù)類似, 用來評價模型的性能, 但是不參與反向傳播. 從源碼也能看到, Metrics里面import了很多Loss算法

實現(xiàn)統(tǒng)計學習方法的步驟

統(tǒng)計學習方法三要素:模型,策略,算法.

得到一個有限的訓練數(shù)據(jù)集合

確定包含所有可能的模型的假設(shè)空間, 即學習模型的集合.

確定模型選擇的準則, 即學習的策略

實現(xiàn)求解最優(yōu)模型的算法, 即學習的算法

通過學習方法選擇最優(yōu)的模型

利用學習的最優(yōu)模型對新數(shù)據(jù)進行預測或分析.

統(tǒng)計學習方法三要素

模型

模型是什么?

在監(jiān)督學習過程中, 模型就是所要學習的條件概率分布或者決策函數(shù).

注意書中的這部分描述，整理了一下到表格里：

	假設(shè)空間 $\cal F$	輸入空間 $\cal X$	輸出空間 $\cal Y$	參數(shù)空間
決策函數(shù)	$\cal F\it ={f_{\theta}	Y=f_{\theta}(x), \theta \in \bf R \it ^n}$	變量	變量	$\bf R\it ^n$
條件概率分布	$\cal F\it ={P	P_{\theta}(Y	X),\theta\in \bf R \it ^n}$	隨機變量	隨機變量	$\bf R\it ^n$

書中描述的時候朴肺，有提到條件概率分布族窖剑，這個留一下，后面CH06有提到確認邏輯斯諦分布屬于指數(shù)分布族戈稿。

策略

損失函數(shù)與風險函數(shù)

損失函數(shù)度量模型一次預測的好壞西土，風險函數(shù)度量平均意義下模型預測的好壞。

損失函數(shù)(loss function)或代價函數(shù)(cost function)
損失函數(shù)定義為給定輸入 $X$ 的預測值 $f(X)$ 和真實值 $Y$ 之間的非負實值函數(shù), 記作 $L(Y,f(X))$
風險函數(shù)(risk function)或期望損失(expected loss)
這個和模型的泛化誤差的形式是一樣的
$R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y$
模型 $f(X)$ 關(guān)于聯(lián)合分布 $P(X,Y)$ 的平均意義下的損失(期望損失), 但是因為 $P(X,Y)$ 是未知的, 所以前面的用詞是期望, 以及平均意義下的.

這個表示其實就是損失的均值, 反映了對整個數(shù)據(jù)的預測效果的好壞, $P(x,y)$ 轉(zhuǎn)換成 $\frac {\nu(X=x, Y=y)}{N}$ 更容易直觀理解, 可以參考CH09, 6.2.2節(jié)的部分描述來理解, 但是真實的數(shù)據(jù)N是無窮的.
經(jīng)驗風險(empirical risk)或經(jīng)驗損失(empirical loss)
$R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$
模型 $f$ 關(guān)于訓練樣本集的平均損失
根據(jù)大數(shù)定律, 當樣本容量N趨于無窮大時, 經(jīng)驗風險趨于期望風險
結(jié)構(gòu)風險(structural risk)
$R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$
$J(f)$ 為模型復雜度, $\lambda \geqslant 0$ 是系數(shù), 用以權(quán)衡經(jīng)驗風險和模型復雜度.

常用損失函數(shù)

損失函數(shù)數(shù)值越小鞍盗，模型就越好

$L(Y,f(X))$

0-1損失
$L=\begin{cases}1, Y \neq f(X) \\0, Y=f(X) \end{cases}$
平方損失
$L=(Y-f(X))^2$
絕對損失
$L=|Y-f(X)|$

$L(Y,P(Y|X))$

對數(shù)損失
這里 $P(Y|X)\leqslant 1$ 需了，對應的對數(shù)是負值跳昼，所以對數(shù)損失中包含一個負號，為什么不是絕對值肋乍？因為肯定是負的鹅颊。
$L=-\log P(Y|X)$

ERM與SRM

經(jīng)驗風險最小化(ERM)與結(jié)構(gòu)風險最小化(SRM)

極大似然估計是經(jīng)驗風險最小化的一個例子.
當模型是條件概率分布, 損失函數(shù)是對數(shù)損失函數(shù)時, 經(jīng)驗風險最小化等價于極大似然估計.
貝葉斯估計中的最大后驗概率估計是結(jié)構(gòu)風險最小化的一個例子.
當模型是條件概率分布, 損失函數(shù)是對數(shù)損失函數(shù), 模型復雜度由模型的先驗概率表示時, 結(jié)構(gòu)風險最小化等價于最大后驗概率估計.

算法

這章里面簡單提了一下，具體可以參考CH12表格中關(guān)于學習算法的描述墓造。

模型選擇

正則化
模型選擇的典型方法是正則化
交叉驗證
另一種常用的模型選擇方法是交叉驗證
- 簡單
- S折(K折, K-Fold)[^1]
- 留一法

泛化能力

現(xiàn)實中采用最多的方法是通過測試誤差來評價學習方法的泛化能力
統(tǒng)計學習理論試圖從理論上對學習方法的泛化能力進行分析
學習方法的泛化能力往往是通過研究泛化誤差的概率上界進行的, 簡稱為泛化誤差上界(generalization error bound)

這本書里面討論的不多堪伍，在CH08里面有討論提升方法的誤差分析, 提到 $AdaBoost$ 不需要知道下界 $\gamma$ 。在CH02中討論算法的收斂性的時候有提到誤分類次數(shù)的上界.

注意泛化誤差的定義觅闽，書中有說事實上帝雇，泛化誤差就是所學習到的模型的期望風險

生成模型與判別模型

監(jiān)督學習方法可分為生成方法(generative approach)與判別方法(discriminative approach)

生成方法

generative approach

可以還原出聯(lián)合概率分布 $P(X,Y)$
收斂速度快, 當樣本容量增加時, 學到的模型可以更快收斂到真實模型
當存在隱變量時仍可以用

判別方法

discriminative approach

直接學習條件概率 $P(Y|X)$ 或者決策函數(shù) $f(X)$
直接面對預測, 往往學習準確率更高
可以對數(shù)據(jù)進行各種程度的抽象, 定義特征并使用特征, 可以簡化學習問題

分類問題、標注問題蛉拙、回歸問題

Classification, Tagging, Regression

圖1.4和圖1.5除了分類系統(tǒng)和標注系統(tǒng)的差異外尸闸，沒看到其他差異，但實際上這兩幅圖中對應的輸入數(shù)據(jù)有差異孕锄，序列數(shù)據(jù)的 $x_i = (x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)})^T$ 對應了
圖1.5和圖1.6吮廉，回歸問題的產(chǎn)出為 $Y=\hat f(X)$

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市硫惕，隨后出現(xiàn)的幾起案子茧痕，更是在濱河造成了極大的恐慌野来，老刑警劉巖恼除，帶你破解...
沈念sama閱讀 218,755評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異曼氛，居然都是意外死亡豁辉，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門舀患，熙熙樓的掌柜王于貴愁眉苦臉地迎上來徽级，“玉大人，你說我怎么就攤上這事聊浅〔颓溃” “怎么了？”我有些...
開封第一講書人閱讀 165,138評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵低匙，是天一觀的道長旷痕。經(jīng)常有香客問我，道長顽冶，這世上最難降的妖魔是什么欺抗？我笑而不...
開封第一講書人閱讀 58,791評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮强重，結(jié)果婚禮上绞呈，老公的妹妹穿的比我還像新娘贸人。我一直安慰自己，他們只是感情好佃声，可當我...
茶點故事閱讀 67,794評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布艺智。她就那樣靜靜地躺著，像睡著了一般圾亏。火紅的嫁衣襯著肌膚如雪力惯。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,631評論 1贊 305
城市分裂傳說
那天召嘶，我揣著相機與錄音父晶，去河邊找鬼。笑死弄跌，一個胖子當著我的面吹牛甲喝，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播铛只，決...
沈念sama閱讀 40,362評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼埠胖，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了淳玩？” 一聲冷哼從身側(cè)響起直撤，我...
開封第一講書人閱讀 39,264評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎蜕着，沒想到半個月后谋竖，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,724評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡承匣，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年蓖乘，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片韧骗。...
茶點故事閱讀 40,040評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡嘉抒，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出袍暴，到底是詐尸還是另有隱情些侍，我是刑警寧澤，帶...
沈念sama閱讀 35,742評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布政模，位于F島的核電站岗宣，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏览徒。R本人自食惡果不足惜狈定，卻給世界環(huán)境...
茶點故事閱讀 41,364評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧纽什，春花似錦措嵌、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評論 0贊 22
一樁弒父案企巢，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至让蕾，卻和暖如春浪规，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背探孝。一陣腳步聲響...
開封第一講書人閱讀 33,060評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工笋婿，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人顿颅。一個月前我還...
沈念sama閱讀 48,247評論 3贊 371
代替公主和親
正文我出身青樓缸濒，卻偏偏與公主長得像，于是被迫代替她去往敵國和親粱腻。傳聞我的和親對象是個殘疾皇子庇配，可洞房花燭夜當晚...
茶點故事閱讀 44,979評論 2贊 355