統(tǒng)計(jì)學(xué)習(xí)以及監(jiān)督學(xué)習(xí)的討論
1.1 統(tǒng)計(jì)學(xué)習(xí)
? 學(xué)習(xí)的定義是什么呢恃慧?Herbert A Simon認(rèn)為部服,如果一個(gè)系統(tǒng)能夠通過執(zhí)行某個(gè)過程改善它的性能哟忍,那么這就是學(xué)習(xí)铅搓。統(tǒng)計(jì)學(xué)習(xí)瑟押,就是利用數(shù)據(jù)統(tǒng)計(jì)來提升系統(tǒng)表現(xiàn)性能的一種方法。
? 統(tǒng)計(jì)學(xué)習(xí)利用數(shù)據(jù)星掰,提取它的特征多望,抽象出數(shù)據(jù)的模型,并用于預(yù)測未來的數(shù)據(jù)氢烘。通常便斥,統(tǒng)計(jì)學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)威始、強(qiáng)化學(xué)習(xí)枢纠、自監(jiān)督學(xué)習(xí)(一種無監(jiān)督學(xué)習(xí))疹蛉。實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)的步驟如下所示:
? (1)準(zhǔn)備訓(xùn)練數(shù)據(jù)集合
? (2)確定學(xué)習(xí)模型的集合官地,建立假設(shè)空間铝量。
? (3)確定模型選擇的準(zhǔn)則赏廓,也就是說學(xué)習(xí)的策略
? (4)確定求解最優(yōu)模型的算法思恐,也就是學(xué)習(xí)算法
? (5)通過學(xué)習(xí)方法選擇最優(yōu)模型
? (6)利用學(xué)習(xí)的最優(yōu)模型對新數(shù)據(jù)進(jìn)行預(yù)測或者分析
1.2.1 學(xué)習(xí)方法分類
? 監(jiān)督學(xué)習(xí)利用標(biāo)注的數(shù)據(jù)摊册,學(xué)習(xí)出一組模型乐埠。它最終會學(xué)出條件概率分布P(Y|X) (X為輸入找筝,Y為輸出)随静,或者決策函數(shù)八千。 本質(zhì)是學(xué)習(xí)輸入-》輸出的映射規(guī)律。
? 無監(jiān)督學(xué)習(xí)使用大量的無標(biāo)注數(shù)據(jù)來進(jìn)行學(xué)習(xí)燎猛,并預(yù)測出適合的模型恋捆。與監(jiān)督學(xué)習(xí)的關(guān)鍵不同,是無監(jiān)督學(xué)習(xí)的輸出屬于隱式結(jié)構(gòu)空間重绷。也就是說沸停,輸入 ,輸出z Z隱式結(jié)構(gòu)空間(潛在的結(jié)構(gòu))昭卓。無監(jiān)督學(xué)習(xí)的本質(zhì)是通過學(xué)習(xí)來推斷數(shù)據(jù)中的重要統(tǒng)計(jì)規(guī)律和潛在結(jié)構(gòu)愤钾。
? 半監(jiān)督學(xué)習(xí):利用未標(biāo)注的數(shù)據(jù)輔助標(biāo)注的數(shù)據(jù)。
? 主動(dòng)學(xué)習(xí):不停產(chǎn)生實(shí)例候醒,讓外界互動(dòng)者進(jìn)行標(biāo)注能颁。
1.2.2 模型分類
? 概率模型(probabilistic model):使用條件概率分布形式來作為模型,代表的模型有決策樹倒淫、樸素貝葉斯模型伙菊、隱馬爾可夫模型、條件隨機(jī)場、概率潛在語義分析占业、潛在第利克雷分配绒怨、高斯混合模型等為概率模型纯赎。
? 非概率模型(non-probabilistic model):感知機(jī)谦疾、支持向量機(jī)、k近鄰犬金、adaboost念恍、k均值、潛在語義分析晚顷、以及神經(jīng)網(wǎng)絡(luò)都是非概率模型峰伙,他們實(shí)際就是算一個(gè)函數(shù)分布。
? 另外该默,統(tǒng)計(jì)學(xué)習(xí)模型還可以分為線性模型與非線性模型瞳氓,我們熟知的感知機(jī)、線性支持向量機(jī)栓袖、k近鄰匣摘、k均值、潛在語義分析都屬于線性模型裹刮。核函數(shù)支持向量機(jī)音榜、Adaboost、以及神經(jīng)網(wǎng)絡(luò)都屬于非線性模型捧弃。
? 參數(shù)化模型的參數(shù)固定維度赠叼,反之則為非參數(shù)化模型。
? 最后违霞,模型還可以根據(jù)學(xué)習(xí)的算法嘴办,分為online learning(在線學(xué)習(xí))與batch learning(批量學(xué)習(xí))
1.2.3 兩種重要的學(xué)習(xí)技巧
? 貝葉斯估計(jì)法:公式為
? 其中,D為我們的數(shù)據(jù)买鸽,為我們的模型參數(shù)户辞,那么這就表示“在當(dāng)前給定數(shù)據(jù)下,參數(shù)為的概率癞谒,等價(jià)于參數(shù)為θ的概率(先驗(yàn)概率)乘以(參數(shù)θ情況下取得當(dāng)前數(shù)據(jù)的概率底燎,或者似然函數(shù))除以參數(shù)D本身所知的概率”。
? 我們在預(yù)測貝葉斯模型的概率參數(shù)時(shí)弹砚,計(jì)算期望值:
? 這個(gè)公式的意思是双仍,利用我們計(jì)算出來的后驗(yàn)概率,和P(x)來對期望值進(jìn)行計(jì)算桌吃。由于x與都有關(guān)系朱沃,所以形式如上式。
? 核函數(shù) kernel method:使用核函數(shù)進(jìn)行計(jì)算。核函數(shù)是什么呢逗物?
? 核函數(shù):是映射關(guān)系 的內(nèi)積搬卒,映射函數(shù)本身僅僅是一種映射關(guān)系,并沒有增加維度的特性翎卓,不過可以利用核函數(shù)的特性契邀,構(gòu)造可以增加維度的核函數(shù),這通常是我們希望的失暴。
? 二維映射到三維坯门,區(qū)分就更容易了,這是聚類逗扒、分類常用核函數(shù)的原因古戴。為什么PCA這樣一個(gè)降維算法也用核函數(shù)呢?
? 如上圖所示矩肩。
1.3.1 統(tǒng)計(jì)學(xué)習(xí)方法三要素:模型
? 模型:統(tǒng)計(jì)學(xué)習(xí)方法需要學(xué)習(xí)出什么樣的模型呢现恼?在監(jiān)督學(xué)習(xí)中,模型就是所要學(xué)習(xí)的條件概率分布或者決策函數(shù)黍檩,其假設(shè)空間(hypothesis space)包含所有可能的條件概率分布或者決策函數(shù)叉袍。從這個(gè)角度,可以抽象出假設(shè)空間的定義:
? X,Y分別為定義在輸入空間和輸出空間上的變量建炫。通常畦韭,F(xiàn)也可以表示為:
? 被稱為參數(shù)空間。
? 類似的肛跌,把上面的F替換為條件概率表示形式艺配,也成立,如:
1.3.2 統(tǒng)計(jì)學(xué)習(xí)方法三要素:策略
? 策略:接下來要考慮要用什么樣的策略學(xué)習(xí)這個(gè)模型衍慎。通常我們引入損失函數(shù)和風(fēng)險(xiǎn)函數(shù)转唉,用來評估我們的估計(jì)值與實(shí)際值y之間的差距。下面是一些常用的損失估計(jì)函數(shù):
? 0-1損失函數(shù):
? 平方損失函數(shù):
? 絕對損失函數(shù):
? 對數(shù)損失函數(shù):
? 假設(shè)我們的模型的輸入稳捆、輸出(X,Y)為隨機(jī)變量赠法,它們有著聯(lián)合概率分布P(X,Y),那么損失函數(shù)的期望為:
? 這就是我們的模型在平均意義下的損失乔夯,我們稱其為風(fēng)險(xiǎn)函數(shù)或者期望損失砖织。(expected loss or risk function)。但是末荐,很可惜侧纯,是無法直接計(jì)算的,因?yàn)槲覀儾恢繮(X,Y)的概率分布甲脏。模型根據(jù)期望風(fēng)險(xiǎn)最小的原則進(jìn)行學(xué)習(xí)眶熬,想要知道期望又需要知道P(X,Y)妹笆,而知道了它其實(shí)就已經(jīng)能夠求出來結(jié)果了,所以監(jiān)督學(xué)習(xí)是一種病態(tài)問題(ill-formed problem)娜氏。
? 假設(shè)我們有一個(gè)訓(xùn)練集:
? 我們可以根據(jù)y的標(biāo)簽和x輸入來計(jì)算經(jīng)驗(yàn)損失拳缠,公式為:
? 根據(jù)大數(shù)定律,當(dāng)基數(shù)趨近于∞時(shí)贸弥,便會自然的趨近于窟坐,但現(xiàn)實(shí)的有標(biāo)注數(shù)據(jù)不會有這么多,這就帶來了新的學(xué)習(xí)問題茂腥。
? 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)最小化
? Empirical risk minimization ERM believe the best model have minimum empirical risk. 我們有下式:
? 結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization, SRM) 是為了防止過擬合而提出的一種策略狸涌,它最小等價(jià)于正則化(regularization)切省,它在經(jīng)驗(yàn)風(fēng)險(xiǎn)之上加入了表示模型復(fù)雜度的正則化項(xiàng)和懲罰項(xiàng)目(regularizer and penalty term),
? 這里最岗,代表了模型的復(fù)雜度,它是定義在假設(shè)空間上的泛函朝捆?般渡?(泛函是什么)泛函就是函數(shù)的函數(shù),可以把函數(shù)-》數(shù)芙盘,更科學(xué)一點(diǎn)驯用,泛函就是定義域是一個(gè)函數(shù)集,而值域是實(shí)數(shù)集或者實(shí)數(shù)集的一個(gè)子集儒老。一個(gè)例子是蝴乔,最大后驗(yàn)概率估計(jì)(MAP, maximium posterior probability estimation)。 這樣驮樊,我們只需要對上式做最小化薇正,也就是有
1.3.3 統(tǒng)計(jì)學(xué)習(xí)方法三要素: 算法
? 算法是統(tǒng)計(jì)學(xué)習(xí)模型的具體計(jì)算方法,統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集囚衔,根據(jù)學(xué)習(xí)策略挖腰,從假設(shè)空間中選擇合適的模型,但計(jì)算方法也可能有差異练湿。
**待補(bǔ)充猴仑。
1.4.1 模型評估:訓(xùn)練誤差與測試誤差
? 假設(shè)我們學(xué)習(xí)到的模型為, 定義在經(jīng)驗(yàn)情況下的訓(xùn)練誤差為:
? 其中肥哎,N為樣本的容量辽俗,類似的,測試樣本的誤差為:
1.4.2 模型選擇
? 假設(shè)一M次多項(xiàng)式:
? 我們求解以下等式:
? 加是因?yàn)榍髮?dǎo)更容易計(jì)算篡诽,然后我們把模型與訓(xùn)練數(shù)據(jù)帶入上式崖飘,有:
? 解決這個(gè)方程可用最小二乘法,這在機(jī)器學(xué)習(xí)入門之道(中井悅司)的書中被提及霞捡。這樣我們就可以得到這個(gè)模型的參數(shù)解(傳統(tǒng)機(jī)器學(xué)習(xí))坐漏。
1.5 正則化與交叉驗(yàn)證
? 正則化(regularization)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一種實(shí)現(xiàn),它給經(jīng)驗(yàn)風(fēng)險(xiǎn)加入一個(gè)懲罰(penalty term)或者正則項(xiàng)(regularizer)。根據(jù)Occam's razor理論赊琳,在所有的模型中街夭,符合選擇且十分簡單的模型才是最好的模型□锓ぃ可以用二范數(shù)或者一范數(shù)來表示板丽。
? 交叉驗(yàn)證(cross validation),包括簡單交叉驗(yàn)證,S折交叉驗(yàn)證趁尼,留一交叉驗(yàn)證埃碱。這些方法在傳統(tǒng)學(xué)習(xí)模型中非常常用。
1.6 泛化能力
? 所謂泛化能力酥泞,就是指訓(xùn)練出來的模型對未來的預(yù)測能力砚殿。泛化誤差(generalization error):
? generalization error bound 泛化誤差上界(概率)常用來比較不同學(xué)習(xí)方法的泛化能力,對于一個(gè)問題芝囤,數(shù)據(jù)集越大似炎, 那么泛化上界就越小,模型的假設(shè)空間容量越大悯姊,那么泛化誤差上界就越大羡藐。為了研究泛化誤差上界的計(jì)算,設(shè)為一從聯(lián)合概率分布產(chǎn)生的數(shù)據(jù)集悯许,其中仆嗦,, ,假設(shè)空間是一個(gè)函數(shù)的有限集合(有限的假設(shè)空間)先壕,那么關(guān)于f的期望風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng)險(xiǎn)為:
? 經(jīng)驗(yàn)最小化函數(shù)為:
? 它的泛化能力根據(jù)定義可以推導(dǎo)為:
? 也就是說瘩扼,loss的期望(expectation)。
? 我們從之前的假設(shè)空間中任選一個(gè)函數(shù)启上,至少以概率邢隧,以下的結(jié)論成立:
? 其中:
? d:函數(shù)的個(gè)數(shù),或者假設(shè)空間的容量冈在。 泛化誤差上界倒慧。
? 證明:Hoeffding 不等式:設(shè)為獨(dú)立隨機(jī)變量,且包券,為變量的經(jīng)驗(yàn)(比如根據(jù)數(shù)據(jù)推斷的)均值纫谅,相當(dāng)于,則對任意的t>0溅固,有:
? 也就是說付秕,均值減去均值的方差大于t的概率,將會小于右邊的等式侍郭。那么我們就可以由該不等式證明(1.6-6)式子的正確性询吴。如果損失函數(shù)取值于[0,1]區(qū)間掠河,那么由(1.6-8)可得出,對于任意的猛计,有:
? 我們在(1.6-9)的基礎(chǔ)上考慮唠摹,對于每一個(gè),我們可以推出以下的式子:
特別的奉瘤,d為上面的假設(shè)空間的容量勾拉,我們把上面的概率反選,也就是對任意有:
? 令盗温,則我們可以得到 藕赞,也就是至少有概率,使得卖局。至于(1.6-7)則可以通過之前的代換得到斧蜕,即
? 整理,得:
?
? 于是得證吼驶。
1.7 生成模型與判別模型
? 監(jiān)督學(xué)習(xí)分為生成方法(generative approach)和判別方法(discriminative approach)惩激, 所學(xué)到的模型為生成模型(generative model)與判別模型(discriminative model)店煞。生成方法由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),然后再求出條件概率分布P(Y|X)蟹演。生成方法的學(xué)習(xí)收斂速度快,且可以在存在隱型變量的時(shí)候正常運(yùn)行顷蟀。
? 判別方法則是直接學(xué)習(xí)決策函數(shù)f(X)或者條件概率分布P(Y|X)酒请,它只關(guān)心對于輸入X,應(yīng)該輸出什么樣的Y鸣个。判別方法的學(xué)習(xí)準(zhǔn)確率一般更高羞反,同時(shí)可以簡化問題(無需考慮廣泛的問題,可以進(jìn)行各種程度的抽象)囤萤。
1.8 監(jiān)督學(xué)習(xí)方法的應(yīng)用
? 分類問題:當(dāng)輸出的變量Y為離散取值的時(shí)候昼窗,這個(gè)預(yù)測問題便可以直接的認(rèn)為是分類問題。在這種任務(wù)中涛舍,我們需要學(xué)習(xí)出一個(gè)分類器(classifier)澄惊,它所做的預(yù)測我們稱之為分類(classification)。分類問題包括學(xué)習(xí)與分類兩個(gè)過程富雅,但我認(rèn)為這一節(jié)的重點(diǎn)是幾個(gè)指標(biāo)掸驱,并將在下面介紹。
? 首先没佑,對于二分類問題毕贼,我們作如下假設(shè),TP(True positive)真陽 把正類分類為正類蛤奢, FN (False negative) 假陰 把正類分類為負(fù)類 FP (False positive) 假陽 把負(fù)類分類為正類 TN(True negative) 真陰 把負(fù)類分類為負(fù)類鬼癣。為了體現(xiàn) TP陶贼、TN、FN待秃、FP對正確性的影響骇窍,設(shè)計(jì)指標(biāo)如下:
? 精確率(precision) 就是真正為正類的數(shù)量除以判斷為正類的數(shù)量TP+FP,也就是真正為正類的數(shù)量:
? 召回率(recall)就是正類樣本中假陰性的數(shù)量锥余,顯然更多的正類分錯(cuò)到了負(fù)類會降低召回率腹纳。
? 數(shù)學(xué)上來說,調(diào)和均值十分有用驱犹,值就是準(zhǔn)確率和召回率的調(diào)和均值嘲恍,它的表達(dá)式為:
? 代入之前的公式,我們有:
? 當(dāng)精確率高雄驹,召回率也高的時(shí)候佃牛,便會變高,這樣就可以一定程度衡量模型的質(zhì)量(更加均衡的估計(jì))医舆。
? 標(biāo)注問題:標(biāo)注問題的輸入是一個(gè)觀測序列俘侠,輸出則應(yīng)當(dāng)是一個(gè)標(biāo)記序列,這個(gè)問題可以看作是分類問題的推廣蔬将。對于一個(gè)觀測序列爷速,找到使條件概率最大的標(biāo)記序列。
? 回歸問題:預(yù)測輸入變量與輸出變量之間的關(guān)系霞怀,它分為學(xué)習(xí)和預(yù)測兩個(gè)過程惫东,首先給定一個(gè)訓(xùn)練數(shù)據(jù)集,那么經(jīng)過訓(xùn)練以后對于輸入的它都應(yīng)該能回歸出毙石。
? 作者:Alexander Zhang (zxy)