1.監(jiān)督學(xué)習(xí)基本概念
1.1輸入空間矫付、特征空間與輸出空間
在監(jiān)督學(xué)習(xí)中蹋绽,將輸入與輸出所有可能取值的集合分別稱為輸入空間(input space)與輸出空間(output space)。輸入與輸出空間可以是有限元素的集合躬它,也可以是整個(gè)歐式空間网持。輸入空間與輸出空間可以是同一個(gè)空間,也可以是不同的空間姜贡;但通常輸出空間遠(yuǎn)遠(yuǎn)小于輸入空間。
每個(gè)具體的輸入是一個(gè)實(shí)例(instance)棺棵,通常由特征向量(feature vector)表示楼咳,這時(shí),所有特征向量存在的空間稱為特征空間(feature space)烛恤。特征空間的每一維對(duì)應(yīng)于一個(gè)特征母怜。有時(shí)假設(shè)輸入空間與特征空間為相同的空間,對(duì)它們不予區(qū)分棒动;有時(shí)假設(shè)輸入空間與特征空間為不同的空間,將實(shí)例從輸入空間映射到特征空間宾添。模型實(shí)際上都是定義在特征空間上的船惨。
在監(jiān)督學(xué)習(xí)過(guò)程中柜裸,將輸入與輸出看作是定義在輸入(特征)空間與輸出空間上的隨機(jī)變量的取值。輸入粱锐、輸出變量用大寫(xiě)字母表示疙挺,習(xí)慣上輸入變量寫(xiě)作X,輸出變量寫(xiě)作Y怜浅。輸入铐然、輸出變量所取的值用小寫(xiě)字母表示,輸入變量的取值寫(xiě)作x恶座,輸出變量的取值寫(xiě)作y搀暑,變量可以是標(biāo)量或向量,都用相同類(lèi)型字母表示跨琳。除特別聲明外自点,本書(shū)中向量均為列向量,輸入實(shí)例x的特征向量記作
表示x的第i個(gè)特征脉让,注意桂敛,
與
不同,本書(shū)通常用
表示多個(gè)輸入變量中的第i個(gè)溅潜,即
監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)(training data)集合中學(xué)習(xí)模型术唬,對(duì)測(cè)試數(shù)據(jù)(test data)進(jìn)行預(yù)測(cè),訓(xùn)練數(shù)據(jù)由輸入(或特征向量)與輸出對(duì)組成滚澜,訓(xùn)練集通常表示為:
測(cè)試數(shù)據(jù)也由相應(yīng)的輸入與輸出對(duì)組成粗仓,輸入與輸出對(duì)又稱為樣本(sample)或樣本點(diǎn)。
輸入變量X和輸出變量Y有不同的類(lèi)型博秫,可以是連續(xù)的潦牛,也可以是離散的。人們根據(jù)輸入挡育、輸出變量的不同類(lèi)型巴碗,對(duì)預(yù)測(cè)任務(wù)給予不同的名稱:輸入變量與輸出變量均為連續(xù)變量的預(yù)測(cè)問(wèn)題稱為回歸問(wèn)題;輸出變量為有限個(gè)離散變量的預(yù)測(cè)問(wèn)題稱為分類(lèi)問(wèn)題即寒;輸入變量與輸出變量均為變量序列的預(yù)測(cè)問(wèn)題稱為標(biāo)注問(wèn)題橡淆。
1.2.聯(lián)合概率分布
監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y)。P(X,Y)表示分布函數(shù)母赵,或分布密度函數(shù)逸爵。注意,在學(xué)習(xí)過(guò)程中凹嘲,假定這一聯(lián)合概率分布存在师倔,但對(duì)學(xué)習(xí)系統(tǒng)來(lái)說(shuō),聯(lián)合概率分布的具體定義是未知的周蹭,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率分布P(X,Y)獨(dú)立同分布產(chǎn)生的趋艘。統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律疲恢,X和Y具有聯(lián)合概率分布的假設(shè)就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)。
1.3.假設(shè)空間
監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)由輸入到輸出的映射瓷胧,這一映射由模型來(lái)表示显拳。模型屬于由輸入空間到輸出空間映射的集合,這個(gè)集合就是假設(shè)空間(hypothesis space)搓萧,假設(shè)空間的確定意味著學(xué)習(xí)范圍的確定杂数。
2.統(tǒng)計(jì)學(xué)習(xí)三要素
統(tǒng)計(jì)學(xué)習(xí)方法都是由模型、策略和算法構(gòu)成的瘸洛,即統(tǒng)計(jì)學(xué)習(xí)方法由三要素構(gòu)成揍移,可以簡(jiǎn)單地表示為:
方法 = 模型+策略+算法
2.1模型
模型是統(tǒng)計(jì)學(xué)習(xí)首要考慮的問(wèn)題,在監(jiān)督學(xué)習(xí)過(guò)程中货矮,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)羊精。模型的假設(shè)空間(hypothesis space)包含所有可能的條件概率分布或決策函數(shù)。例如囚玫,假設(shè)決策函數(shù)是輸入變量的線性函數(shù)喧锦,那么模型的假設(shè)空間就是所有這些線性函數(shù)構(gòu)成的函數(shù)集合。
2.2策略
首先引入損失函數(shù)和風(fēng)險(xiǎn)函數(shù)的概念抓督,損失函數(shù)度量模型一次預(yù)測(cè)的好壞燃少,風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測(cè)的好壞。
1.損失函數(shù)和風(fēng)險(xiǎn)函數(shù)
監(jiān)督學(xué)習(xí)問(wèn)題是假設(shè)空間F中選取模型f作為決策函數(shù)铃在,對(duì)于給定的輸入X阵具,由f(X)給出相應(yīng)的輸出Y,這個(gè)輸出的預(yù)測(cè)值f(X)與真實(shí)值Y可能一致也可能不一致定铜,用一個(gè)損失函數(shù)(loss function)或代價(jià)函數(shù)(cost function)來(lái)度量預(yù)測(cè)錯(cuò)誤的程度阳液,損失函數(shù)是f(X)和Y的非負(fù)實(shí)值函數(shù),記作L(Y,f(X)).
統(tǒng)計(jì)學(xué)習(xí)常用的損失函數(shù)有以下幾種:
(1) 0-1損失函數(shù)(0-1 loss function)
(2)平方損失函數(shù)(quadratic loss function)
(3)絕對(duì)損失函數(shù)(absolute loss function)
(4)對(duì)數(shù)損失函數(shù)(logarithmic loss function)或?qū)?shù)似然損失函數(shù)(log likelihood loss function)
損失函數(shù)值越小揣炕,模型就越好帘皿,由于模型的輸入、輸出(X,Y)是隨機(jī)變量畸陡,遵循聯(lián)合分布P(X,Y)鹰溜,所以損失函數(shù)的期望是:
這是理論上模型f(X)關(guān)于聯(lián)合分布P(X,Y)的平均意義下的損失,稱為風(fēng)險(xiǎn)函數(shù)(risk function)或期望損失(expected loss)
學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險(xiǎn)最小的模型丁恭,由于聯(lián)合分布P(X,Y)是未知的曹动,不能直接計(jì)算。實(shí)際上牲览,如果知道聯(lián)合分布P(X,Y)墓陈,可以從聯(lián)合分布直接求出條件概率分布P(Y|X),也就不需要學(xué)習(xí)了。正因?yàn)椴恢缆?lián)合概率分布贡必,所以才需要進(jìn)行學(xué)習(xí)熬的,這樣一來(lái),一方面根據(jù)期望風(fēng)險(xiǎn)最小學(xué)習(xí)模型要用到聯(lián)合分布赊级,另一方面聯(lián)合分布又是未知的,所以監(jiān)督學(xué)習(xí)就稱為一個(gè)病態(tài)問(wèn)題岔绸。
給定一個(gè)訓(xùn)練數(shù)據(jù)集
模型f(X)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為
經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)或經(jīng)驗(yàn)損失(empirical loss)理逊,記作:
期望風(fēng)險(xiǎn)是模型關(guān)于聯(lián)合分布的期望損失,經(jīng)驗(yàn)風(fēng)險(xiǎn)
是模型關(guān)于訓(xùn)練樣本集的平均損失盒揉。根據(jù)大數(shù)定律晋被,當(dāng)樣本容量N趨于無(wú)窮時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)
趨于期望風(fēng)險(xiǎn)
刚盈,所以一個(gè)很自然的想法是用經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)期望風(fēng)險(xiǎn)羡洛。但是,由于現(xiàn)實(shí)中訓(xùn)練樣本數(shù)目有限藕漱,甚至很小欲侮,所以用經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)期望風(fēng)險(xiǎn)常常并不理想,要對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)進(jìn)行一定的矯正肋联,這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個(gè)基本策略:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化和結(jié)構(gòu)風(fēng)險(xiǎn)最小化威蕉。
2.經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)最小化
在假設(shè)空間、損失函數(shù)以及訓(xùn)練數(shù)據(jù)確定的情況下橄仍,經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)式(1.10)就可以確定韧涨,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization,ERM)的策略認(rèn)為,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型侮繁,根據(jù)這一策略虑粥,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型就是求解最優(yōu)化問(wèn)題:
其中F是假設(shè)空間,
當(dāng)樣本容量足夠大時(shí)宪哩,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果娩贷,在現(xiàn)實(shí)中被廣泛采用。比如斋射,極大似然(maximum likelihood estimation)就是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的一個(gè)例子育勺。當(dāng)模型是條件概率分布,損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)罗岖,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于極大似然估計(jì)涧至。
但是,當(dāng)樣本容量很小時(shí)桑包,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化學(xué)習(xí)的效果就未必很好南蓬,會(huì)產(chǎn)生后面將要敘述的“過(guò)擬合”現(xiàn)象。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization,SRM)是為了防止過(guò)擬合而提出來(lái)的策略赘方,結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于正則化(regularization)烧颖。結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng)(regularization)或罰項(xiàng)(penalty term)。在假設(shè)空間窄陡、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下炕淮,
結(jié)構(gòu)風(fēng)險(xiǎn)的定義是:
其中為模型的復(fù)雜度,是定義在假設(shè)空間F上的泛函跳夭,模型f越復(fù)雜涂圆,復(fù)雜度J(f)就越大;反之币叹,模型f越簡(jiǎn)單润歉,復(fù)雜度J(f)就越小。也就是說(shuō)颈抚,復(fù)雜度表示了對(duì)復(fù)雜模型的懲罰踩衩。
是系數(shù),用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度贩汉。結(jié)構(gòu)風(fēng)險(xiǎn)小需要經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時(shí)小驱富。結(jié)構(gòu)風(fēng)險(xiǎn)小的模型往往對(duì)訓(xùn)練數(shù)據(jù)以及未知的測(cè)試數(shù)據(jù)都有較好的預(yù)測(cè)。
比如匹舞,貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)(MAP)就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一個(gè)例子萌朱,當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)策菜、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí)晶疼,結(jié)構(gòu)風(fēng)險(xiǎn)最小化就等價(jià)于最大后驗(yàn)概率估計(jì)。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型又憨,所以求最優(yōu)模型翠霍,就是求解最優(yōu)化問(wèn)題:
這樣,監(jiān)督學(xué)習(xí)問(wèn)題就變成了經(jīng)驗(yàn)風(fēng)險(xiǎn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)的最優(yōu)化問(wèn)題蠢莺,這時(shí)經(jīng)驗(yàn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是最優(yōu)化的目標(biāo)函數(shù)寒匙。
2.3.算法
算法是指學(xué)習(xí)模型的具體計(jì)算方法。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集躏将,根據(jù)學(xué)習(xí)策略锄弱,從假設(shè)空間中選擇最優(yōu)模型,最后需要考慮用什么樣的計(jì)算方法求解最優(yōu)模型祸憋。
這時(shí)会宪,統(tǒng)計(jì)學(xué)習(xí)問(wèn)題歸結(jié)為最優(yōu)化問(wèn)題,統(tǒng)計(jì)學(xué)習(xí)的算法成為求解最優(yōu)化問(wèn)題的算法蚯窥,如果最優(yōu)化問(wèn)題有明顯的解析解掸鹅,這個(gè)最優(yōu)化問(wèn)題就比較簡(jiǎn)單塞帐,但通常解析解不存在,這就需要用數(shù)值計(jì)算的方法求解巍沙,如何保證找到全局最優(yōu)解葵姥,并使求解過(guò)程非常搞笑,就稱為一個(gè)重要問(wèn)題句携,統(tǒng)計(jì)學(xué)可以利用已有的最優(yōu)化算法榔幸,有時(shí)也需要開(kāi)發(fā)獨(dú)自的最優(yōu)化算法。
統(tǒng)計(jì)學(xué)習(xí)方法之間的不同矮嫉,主要來(lái)自其模型牡辽、策略、算法的不同敞临。確定了模型、策略麸澜、算法挺尿,統(tǒng)計(jì)學(xué)習(xí)的方法也就確定了,這也就是將其稱為統(tǒng)計(jì)學(xué)習(xí)三要素的原因炊邦。
3.模型評(píng)估與模型選擇
3.1訓(xùn)練誤差與測(cè)試誤差
假設(shè)學(xué)習(xí)到的模型是,訓(xùn)練誤差是模型
關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失:
其中N是訓(xùn)練樣本容量编矾。
測(cè)試誤差是模型關(guān)于測(cè)試數(shù)據(jù)集的平均損失:
其中N'是測(cè)試樣本容量。
例如馁害,當(dāng)損失函數(shù)是0-1損失時(shí)窄俏,測(cè)試誤差就變成了常見(jiàn)的測(cè)試數(shù)據(jù)集上的誤差率(error rate)
這里I是指示函數(shù)(indicator function),即時(shí)為1碘菜,否則為0.相應(yīng)地凹蜈,常見(jiàn)的測(cè)試數(shù)據(jù)集上的準(zhǔn)確率(accuracy)為
顯然,
訓(xùn)練誤差的大小忍啸,對(duì)判斷給定的問(wèn)題是不是一個(gè)容易學(xué)習(xí)的問(wèn)題是有意義的仰坦,但本質(zhì)上不重要,測(cè)試誤差反映了學(xué)習(xí)方法對(duì)未知的測(cè)試數(shù)據(jù)集的預(yù)測(cè)能力计雌,是學(xué)習(xí)中的重要概念悄晃。顯然,給定兩種學(xué)習(xí)方法凿滤,測(cè)試誤差小的方法具有更好的預(yù)測(cè)能力妈橄,是更有效的方法。通常將學(xué)習(xí)方法對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力稱為泛化能力(generalization ability)翁脆。
3.2過(guò)擬合與模型選擇
下面眷蚓,以多項(xiàng)式函數(shù)擬合問(wèn)題為例,說(shuō)明過(guò)擬合與模型選擇:
這是一個(gè)回歸問(wèn)題反番,假設(shè)給定一個(gè)訓(xùn)練數(shù)據(jù)集:
其中溪椎,是輸入x的觀測(cè)值普舆,
是相應(yīng)的輸出y的觀測(cè)值,i=1,2校读,沼侣。。歉秫。N蛾洛。多項(xiàng)式函數(shù)擬合的任務(wù)時(shí)假設(shè)給定數(shù)據(jù)由M次多項(xiàng)式函數(shù)生成,選擇最有可能產(chǎn)生這些數(shù)據(jù)的M次多項(xiàng)式函數(shù)雁芙,即在M次多項(xiàng)式函數(shù)中選擇一個(gè)對(duì)已知數(shù)據(jù)以及未知數(shù)據(jù)都有很好預(yù)測(cè)能力的函數(shù)轧膘。
假設(shè)給定如下圖所示的10個(gè)數(shù)據(jù)點(diǎn),用0~9次多項(xiàng)式函數(shù)對(duì)數(shù)據(jù)進(jìn)行擬合兔甘,圖中畫(huà)出了需要使用多項(xiàng)式函數(shù)曲線擬合的數(shù)據(jù):
設(shè)M次多項(xiàng)式為:
式中x是單變量輸入谎碍,w0,w1洞焙,蟆淀。。wm是M+1個(gè)參數(shù)
解決這一問(wèn)題的方法可以是這樣的澡匪,首先確定模型復(fù)雜度熔任,即確定多項(xiàng)式的次數(shù);然后在給定的模型復(fù)雜度下唁情,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的策略疑苔,求解參數(shù),即多項(xiàng)式的系數(shù)甸鸟,具體地惦费,求以下經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化:
(1.18)
這時(shí),損失函數(shù)為平方損失抢韭,系數(shù)二分之一是為了計(jì)算方便趁餐,這是一個(gè)簡(jiǎn)單的最優(yōu)化問(wèn)題,將模型與訓(xùn)練數(shù)據(jù)代入式(1.18)中篮绰,有
對(duì)求偏導(dǎo)數(shù)并令其為0后雷,可得:
于是求得擬合多項(xiàng)式系數(shù)
上圖中給出了M=0吠各,M=1臀突,M=3及M=9時(shí)多項(xiàng)式函數(shù)擬合的情況,如果M=0贾漏,多項(xiàng)式曲線是一個(gè)常數(shù)候学,數(shù)據(jù)擬合效果很差。如果M=1纵散,多項(xiàng)式曲線是一條直線梳码,數(shù)據(jù)擬合效果也很差隐圾,相反,如果M=9掰茶,多項(xiàng)式曲線通過(guò)沒(méi)個(gè)數(shù)據(jù)點(diǎn)暇藏,訓(xùn)練誤差為0.從對(duì)給定訓(xùn)練數(shù)據(jù)擬合的角度來(lái)說(shuō),效果是最好的濒蒋。但是盐碱,因?yàn)橛?xùn)練數(shù)據(jù)本身存在噪音,在實(shí)際學(xué)習(xí)中并不可取沪伙,這時(shí)過(guò)擬合現(xiàn)象就會(huì)發(fā)生瓮顽,這就是說(shuō),模型選擇時(shí)围橡,不僅要考慮對(duì)已知數(shù)據(jù)的預(yù)測(cè)能力暖混,而且還要考慮對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力,當(dāng)M=3時(shí)翁授,多項(xiàng)式曲線對(duì)訓(xùn)練數(shù)據(jù)擬合效果足夠好拣播,模型也比較簡(jiǎn)單,是一個(gè)較好的選擇黔漂。
在多項(xiàng)式函數(shù)擬合中可以看到,隨著多項(xiàng)式次數(shù)(模型復(fù)雜度)的增加禀酱,訓(xùn)練誤差會(huì)減小炬守,直至趨向于0,但是測(cè)試誤差卻不如此剂跟,它會(huì)隨著多項(xiàng)式次數(shù)(模型復(fù)雜度)的增加先減小而后增大减途,而最終的目的是使測(cè)試誤差達(dá)到最小,這樣曹洽,在多項(xiàng)式函數(shù)擬合中鳍置,就要選擇合適的多項(xiàng)式次數(shù),以達(dá)到這一目的送淆。這一結(jié)論對(duì)一般的模型選擇也是成立的税产。
下圖描述了訓(xùn)練誤差和測(cè)試誤差與模型的復(fù)雜度之間的關(guān)系:
如上圖,當(dāng)模型的復(fù)雜度增大時(shí)偷崩,訓(xùn)練誤差會(huì)逐漸減小并趨向于0辟拷;而測(cè)試誤差會(huì)先減小,達(dá)到最小值后又增大阐斜。當(dāng)選擇的模型復(fù)雜度過(guò)大時(shí)衫冻,過(guò)擬合現(xiàn)象就會(huì)發(fā)生,這樣谒出,在學(xué)習(xí)時(shí)就要防止過(guò)擬合隅俘,進(jìn)行最優(yōu)的模型選擇邻奠,即選擇復(fù)雜度適當(dāng)?shù)哪P停赃_(dá)到使測(cè)試誤差最小的學(xué)習(xí)目的为居。下面介紹兩種常用的模型選擇方法:正則化與交叉驗(yàn)證碌宴。
4.正則化與交叉驗(yàn)證
4.1正則化
模型選擇的典型方法是正則化(regularization)颜骤。正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn)唧喉,是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term)正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜忍抽,正則化值越大八孝,比如,正則化可以使模型參數(shù)向量的范數(shù)鸠项。
正則化一般具有如下形式:
其中干跛,第一項(xiàng)是經(jīng)驗(yàn)風(fēng)險(xiǎn),第二項(xiàng)是正則化項(xiàng)祟绊,為調(diào)整兩者之間關(guān)系的系數(shù)楼入。
正則化項(xiàng)可以取不同的形式,例如牧抽,回歸問(wèn)題中嘉熊,損失函數(shù)是平方損失,正則化項(xiàng)可以是參數(shù)向量的范數(shù):
這里扬舒,||w||表示參數(shù)向量w的L2范數(shù)阐肤。
正則化項(xiàng)也可以是參數(shù)向量的L1范數(shù):
這里,||w||1表示參數(shù)向量w的L1范數(shù)讲坎。
4.2交叉驗(yàn)證
另一種常用的模型選擇方法是交叉驗(yàn)證法(cross validation)
交叉驗(yàn)證的基本思想:
交叉驗(yàn)證的基本思想是重復(fù)地使用數(shù)據(jù)孕惜,把給定的數(shù)據(jù)進(jìn)行切分,將切分的數(shù)據(jù)集組合為訓(xùn)練集與測(cè)試集晨炕,在此基礎(chǔ)上反復(fù)地進(jìn)行訓(xùn)練衫画、測(cè)試以及模型選擇。
1.簡(jiǎn)單交叉驗(yàn)證:
簡(jiǎn)單交叉驗(yàn)證的方法是:首先隨機(jī)地將已給數(shù)據(jù)分為兩部分瓮栗,一部分作為訓(xùn)練集削罩,另一部分作為測(cè)試集(例如,70%的數(shù)據(jù)為訓(xùn)練集费奸,30%的數(shù)據(jù)為測(cè)試集)鲸郊,然后用訓(xùn)練集在各種條件下(例如,不同的參數(shù)個(gè)數(shù))訓(xùn)練模型货邓,從而得到不同的模型秆撮;在測(cè)試集上評(píng)價(jià)各個(gè)模型的測(cè)試誤差,選出測(cè)試誤差最小的模型换况。
2.S折交叉驗(yàn)證
瑩瑩最多的S著交叉驗(yàn)證(S-fold cross validation)职辨,方法如下:
首先隨機(jī)地將已給數(shù)據(jù)切分為S個(gè)互不相交的大小相同的子集盗蟆;然后利用S-1個(gè)子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測(cè)試模型舒裤;將這一過(guò)程對(duì)可能的S種選擇重復(fù)進(jìn)行喳资;最后選出S次評(píng)測(cè)中平均測(cè)試誤差最小的模型。
3.留一交叉驗(yàn)證
S折交叉驗(yàn)證的特殊情形是S=N腾供,稱為留一交叉驗(yàn)證(leave-one-out cross validation)仆邓,往往在數(shù)據(jù)缺乏的情況下使用。這里N伴鳖,是給定數(shù)據(jù)集的容量节值。
5.泛化能力
5.1泛化誤差
學(xué)習(xí)方法的泛化能力(generalization ability)是指由該方法學(xué)習(xí)到的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力,是學(xué)習(xí)方法本質(zhì)上重要的性質(zhì)“衲簦現(xiàn)實(shí)中采用最多的辦法是通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力搞疗。但這種評(píng)價(jià)是依賴于測(cè)試數(shù)據(jù)集的,因?yàn)闇y(cè)試數(shù)據(jù)集是有限的须肆,很有可能由此得到的評(píng)價(jià)結(jié)果是不可靠的匿乃。統(tǒng)計(jì)學(xué)習(xí)理論試圖從理論上對(duì)學(xué)習(xí)方法的泛化能力進(jìn)行分析。
首先給出泛化誤差的定義豌汇,如果學(xué)到的模型是,那么用這個(gè)模型對(duì)未知數(shù)據(jù)預(yù)測(cè)的誤差即為泛化誤差(generalization error)
(1.20)
泛化誤差反映了學(xué)習(xí)方法的泛化能力浑厚,如果一種方法學(xué)習(xí)的模型比另一種方法學(xué)習(xí)的模型具有更小的泛化誤差职员,那么這種方法就更有效筛峭。事實(shí)上裸准,泛化誤差就是所學(xué)習(xí)到的模型的期望風(fēng)險(xiǎn)。
5.2 泛化誤差上界
學(xué)習(xí)方法的泛化能力分析往往是通過(guò)研究泛化誤差的概率上界進(jìn)行的柜思,簡(jiǎn)稱泛化誤差上界(generalization error bound)岩调,具體來(lái)說(shuō)巷燥,就是通過(guò)比較兩種學(xué)習(xí)方法的泛化誤差上界的大小來(lái)比較它們的優(yōu)劣赡盘,泛化誤差上界通常具有以下性質(zhì):它是樣本容量的函數(shù),當(dāng)樣本容量增加時(shí)缰揪,泛化上界趨于0陨享;它是假設(shè)空間容量(capacity)的函數(shù),假設(shè)空間容量越大钝腺,模型就越難學(xué)抛姑,泛化誤差上界就越大。
下面給出一個(gè)簡(jiǎn)單的泛化誤差上界的例子:二分類(lèi)問(wèn)題的泛化誤差上界艳狐。
考慮二分類(lèi)問(wèn)題定硝,已知訓(xùn)練數(shù)據(jù)集
,它是從聯(lián)合概率分布P(X,Y)獨(dú)立同分布產(chǎn)生的,.假設(shè)空間是函數(shù)的有限集合F={f1,f2,...,fd},d是函數(shù)個(gè)數(shù)蔬啡,設(shè)f是從F中選取的函數(shù)诲侮,損失函數(shù)是0-1損失。關(guān)于f的期望風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)分別是:
(1.21)
(1.22)
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化函數(shù)是
人們更關(guān)心的是的泛化能力
下面討論從有限集合
中任意選出的函數(shù)f的泛化誤差上界箱蟆。
定理1.1(泛化誤差上界):
對(duì)二分類(lèi)問(wèn)題沟绪,當(dāng)假設(shè)空間是有限個(gè)函數(shù)的集合時(shí),對(duì)任意一個(gè)函數(shù)
空猜,至少以概率
,以下不等式成立:
(1.25)
其中绽慈,
(1.26)
不等式(1.25)左端是泛化誤差,右端即為泛化誤差上界辈毯,在泛化誤差上界中坝疼,第1項(xiàng)是訓(xùn)練誤差,訓(xùn)練誤差越小漓摩,泛化誤差也越小裙士。第二項(xiàng)
是N的單調(diào)遞減函數(shù),當(dāng)N趨近于無(wú)窮大時(shí)趨于0管毙;同時(shí)它也是
階的函數(shù)腿椎,假設(shè)空間F包含的函數(shù)越多,其值越大夭咬。
證明
在證明中要用到Hoeffding不等式啃炸,先敘述如下:
設(shè)是獨(dú)立隨機(jī)變量
之和,
卓舵,則對(duì)任意t>0南用,以下不等式成立:
對(duì)任意函數(shù)是N個(gè)獨(dú)立的隨機(jī)變量L(Y,f(X))的樣本均值,是隨機(jī)變量L(Y,f(X))的期望值掏湾,如果損失函數(shù)取值于區(qū)間[0,1],即對(duì)所有那么由Hoeffding不等式(1.28)不難得知裹虫,對(duì)以下不等式成立:
其中,由式(1.26)定義融击,由式(1.23)定義筑公,這就是說(shuō),訓(xùn)練誤差小的模型尊浪,其泛化誤差也會(huì)小匣屡。
以上討論的只是假設(shè)空間包含有限個(gè)函數(shù)情況下的泛化誤差上界,對(duì)一般的假設(shè)空間要找到泛化誤差就沒(méi)有這么簡(jiǎn)單拇涤。
6.生成模型與判別模型
監(jiān)督學(xué)習(xí)的任務(wù)就是學(xué)習(xí)一個(gè)模型捣作,應(yīng)用這一模型,對(duì)給定的輸入預(yù)測(cè)相應(yīng)的輸出鹅士。這個(gè)模型的一般形式為決策函數(shù):
或者條件概率分布:
P(Y|X)
監(jiān)督學(xué)習(xí)方法又可以分為生成方法(generative approach)和判別方法(discriminative approach)所學(xué)到的模型分別稱為生成模型(generative model)和判別模型(discriminative model)
生成方法由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y)券躁,然后求出條件概率分布P(Y|x)作為預(yù)測(cè)的模型,即生成模型:
這樣的方法之所有稱為生成方法,是因?yàn)槟P捅硎玖私o定輸入X產(chǎn)生輸出Y的生成關(guān)系也拜。
典型的生成模型有:
樸素貝葉斯法和隱馬爾可夫模型旭贬,將在后面章節(jié)進(jìn)行相關(guān)講述。
判別方法由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)發(fā)f(X)或者條件概率分布P(Y|X)作為預(yù)測(cè)的模型搪泳,即為判別模型稀轨。判別方法關(guān)心的是對(duì)給定的輸入X,應(yīng)該預(yù)測(cè)什么樣的輸出Y岸军。
典型的判別模型包括:
k近鄰法奋刽、感知機(jī)、決策樹(shù)艰赞、邏輯斯諦回歸模型佣谐、最大熵模型、支持向量機(jī)方妖、提升方法和條件隨機(jī)場(chǎng)等狭魂。
生成方法的特點(diǎn):
生成方法可以還原出聯(lián)合概率分布P(X,Y),而判別方法則不能党觅;生成方法的學(xué)習(xí)收斂速度更快雌澄,即當(dāng)樣本容量增加的時(shí)候,學(xué)到的模型可以更快地收斂于真實(shí)模型杯瞻;當(dāng)存在隱變量時(shí)镐牺,仍可以用生成方法學(xué)習(xí),此時(shí)判別方法就不能用魁莉。
判別方法的特點(diǎn):
判別方法直接學(xué)習(xí)的是條件概率P(Y|X)或決策函數(shù)f(X)睬涧,直接面對(duì)預(yù)測(cè),往往學(xué)習(xí)的準(zhǔn)確率更高旗唁;由于直接學(xué)習(xí)P(Y|X)或f(X)畦浓,可以對(duì)數(shù)據(jù)進(jìn)行各種程度上的抽象、定義特征并使用特征检疫,因此可以簡(jiǎn)化學(xué)習(xí)問(wèn)題讶请。
7.分類(lèi)問(wèn)題
分類(lèi)是監(jiān)督學(xué)習(xí)的一個(gè)核心問(wèn)題,在監(jiān)督學(xué)習(xí)中电谣,當(dāng)輸出變量Y取有限個(gè)離散值時(shí)秽梅,預(yù)測(cè)問(wèn)題便成為分類(lèi)問(wèn)題抹蚀。這時(shí)剿牺,輸入變量X可以是離散的,也可以是連續(xù)的环壤。監(jiān)督學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)一個(gè)分類(lèi)模型或分類(lèi)決策函數(shù)晒来,稱為分類(lèi)器(classifier)。分類(lèi)器對(duì)新的輸入進(jìn)行輸出的預(yù)測(cè)(prediction)郑现,稱為分類(lèi)(classification)湃崩∮担可能的輸出稱為類(lèi)(class)。分類(lèi)的類(lèi)別為多個(gè)時(shí)攒读,稱為多分類(lèi)問(wèn)題朵诫。我們主要討論二分類(lèi)問(wèn)題。
分類(lèi)問(wèn)題包括學(xué)習(xí)和分類(lèi)兩個(gè)過(guò)程薄扁,在學(xué)習(xí)過(guò)程中剪返,根據(jù)已知的訓(xùn)練數(shù)據(jù)集利用有效的學(xué)習(xí)方法學(xué)習(xí)一個(gè)分類(lèi)器;在分類(lèi)過(guò)程中邓梅,利用學(xué)習(xí)的分類(lèi)器對(duì)新的輸入實(shí)例進(jìn)行分類(lèi)脱盲。分類(lèi)問(wèn)題可用下圖描述:
圖中學(xué)習(xí)系統(tǒng)由訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個(gè)分類(lèi)器P(Y|X)或Y=f(X);分類(lèi)系統(tǒng)通過(guò)學(xué)到的分類(lèi)器P(Y|X)或Y=f(X)對(duì)新的輸入實(shí)例進(jìn)行分類(lèi)日缨,即預(yù)測(cè)其輸出的類(lèi)標(biāo)記
評(píng)價(jià)分類(lèi)器性能的指標(biāo)一般是分類(lèi)準(zhǔn)確率(accuracy)钱反,其定義是:對(duì)于給定的測(cè)試數(shù)據(jù)集,分類(lèi)器正確分類(lèi)的樣本數(shù)與總體樣本數(shù)之比匣距,也就是損失函數(shù)是0-1損失時(shí)測(cè)試數(shù)據(jù)集上的準(zhǔn)確率
對(duì)于二類(lèi)分類(lèi)問(wèn)題常用的評(píng)價(jià)指標(biāo)是精確率(precision)與召回率(recall)通常以關(guān)注的類(lèi)為正類(lèi)面哥,其他類(lèi)為負(fù)類(lèi),分類(lèi)器在測(cè)試數(shù)據(jù)集上的預(yù)測(cè)或正確或不正確毅待,4種情況出現(xiàn)的總數(shù)分別記作:
TP——將正類(lèi)預(yù)測(cè)為正類(lèi)數(shù)幢竹;
FN——將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù);
FP——將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù)恩静;
TN——將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù)焕毫。
精確率定義為:
召回率定義為:
此外,還有值驶乾,是精確率和召回率的調(diào)和均值邑飒,即
精確率和召回率都高時(shí),值也會(huì)高级乐。
許多統(tǒng)計(jì)學(xué)習(xí)方法可以用于分類(lèi)疙咸,包括k近鄰法、感知機(jī)风科、樸素貝葉斯法撒轮、決策樹(shù)、決策列表贼穆、邏輯斯諦回歸模型题山、支持向量機(jī)、提神方法故痊、貝葉斯網(wǎng)絡(luò)顶瞳、神經(jīng)網(wǎng)絡(luò)、Winnow等。
分類(lèi)在于根據(jù)其特性將數(shù)據(jù)“分門(mén)別類(lèi)”慨菱,所以在許多領(lǐng)域都有廣泛的應(yīng)用焰络。例如,在銀行業(yè)務(wù)中符喝,可以構(gòu)建一個(gè)客戶分類(lèi)模型闪彼,對(duì)客戶按照貸款風(fēng)險(xiǎn)的大小進(jìn)行分類(lèi);在網(wǎng)絡(luò)安全領(lǐng)域协饲,可以利用日志數(shù)據(jù)的分類(lèi)對(duì)非法入侵進(jìn)行檢測(cè)备蚓;在圖像處理中,分類(lèi)可以用來(lái)檢測(cè)圖像中是否有人臉出現(xiàn)囱稽;在手寫(xiě)識(shí)別中郊尝,分類(lèi)可以用于識(shí)別手寫(xiě)的數(shù)字;在互聯(lián)網(wǎng)搜索中战惊,網(wǎng)頁(yè)的分類(lèi)可以幫助網(wǎng)頁(yè)的抓取流昏、索引與排序。
8.標(biāo)注問(wèn)題
標(biāo)注(tagging)也是一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題吞获,可以認(rèn)為標(biāo)注問(wèn)題是分類(lèi)問(wèn)題的一個(gè)推廣况凉,標(biāo)注問(wèn)題又是更復(fù)雜的結(jié)構(gòu)預(yù)測(cè)(structure prediction)問(wèn)題的簡(jiǎn)單形式。標(biāo)注問(wèn)題的輸入是一個(gè)觀測(cè)序列各拷,輸出是一個(gè)標(biāo)記序列或狀態(tài)序列刁绒。標(biāo)注問(wèn)題的目標(biāo)在于學(xué)習(xí)一個(gè)模型,使它能夠?qū)τ^測(cè)序列給出標(biāo)記序列作為預(yù)測(cè)烤黍。注意知市,可能的標(biāo)記個(gè)數(shù)是有限的,但其組合所成的標(biāo)記序列的個(gè)數(shù)是依序列長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)的速蕊。
標(biāo)注問(wèn)題分為學(xué)習(xí)和標(biāo)注兩個(gè)過(guò)程嫂丙,如下圖所示:
首先給定一個(gè)訓(xùn)練數(shù)據(jù)集,這里是輸入觀測(cè)序列规哲,是相應(yīng)的輸出標(biāo)記序列跟啤,n是序列的長(zhǎng)度,對(duì)不同樣本可以有不同的值唉锌。學(xué)習(xí)系統(tǒng)基于訓(xùn)練數(shù)據(jù)集構(gòu)建一個(gè)模型隅肥,表示為條件概率分布:
這里,每一個(gè)取值為所有可能的觀測(cè)袄简,每一個(gè)取值為所有可能的標(biāo)記腥放,一般。標(biāo)注系統(tǒng)按照學(xué)習(xí)得到的條件概率分布模型痘番,對(duì)新的輸入觀測(cè)序列找到相應(yīng)的輸出標(biāo)記序列捉片。具體地,對(duì)一個(gè)觀測(cè)序列找到條件概率
的最大標(biāo)記序列
評(píng)價(jià)標(biāo)注模型的指標(biāo)與評(píng)價(jià)分類(lèi)模型的指標(biāo)一樣汞舱,常用的有標(biāo)注準(zhǔn)確率伍纫、精確率和召回率。其定義與分類(lèi)模型相同昂芜。
標(biāo)注常用的統(tǒng)計(jì)學(xué)習(xí)方法有:隱馬爾可夫模型莹规、條件隨機(jī)場(chǎng)。
標(biāo)注問(wèn)題在信息抽取泌神、自然語(yǔ)言處理等領(lǐng)域被廣泛應(yīng)用良漱,是這些領(lǐng)域的基本問(wèn)題。例如欢际,自然語(yǔ)言處理中的詞性標(biāo)注(part of speech tagging)就是一個(gè)典型的標(biāo)注問(wèn)題:給定一個(gè)由單詞組成的句子母市,對(duì)這個(gè)句子中的每一個(gè)單詞進(jìn)行詞性標(biāo)注,即對(duì)一個(gè)單詞序列預(yù)測(cè)其對(duì)應(yīng)的詞性標(biāo)記序列损趋。
舉一個(gè)信息抽取的例子患久,從英文文章中抽取基本名詞短語(yǔ)(base nounphrase)為此,要對(duì)文章進(jìn)行標(biāo)注浑槽,英文單詞是一個(gè)觀測(cè)蒋失,英文句子是一個(gè)觀測(cè)序列,標(biāo)記表示名詞短語(yǔ)的“開(kāi)始”桐玻、“結(jié)束”或“其他”(分別以B,E,O表示)篙挽,標(biāo)記序列表示英文句子中基本名詞短語(yǔ)的所在位置。信息抽取時(shí)镊靴,將標(biāo)記“開(kāi)始”到標(biāo)記“結(jié)束”的單詞作為名詞短語(yǔ)铣卡。例如,給出以下的觀測(cè)序列偏竟,即英文句子算行,標(biāo)注系統(tǒng)產(chǎn)生相應(yīng)的標(biāo)記序列,即給出句子中的基本名詞短語(yǔ)苫耸。
9.回歸問(wèn)題
回歸(regression)是監(jiān)督學(xué)習(xí)的另一個(gè)重要問(wèn)題州邢,回歸英語(yǔ)預(yù)測(cè)輸入變量(自變量)和輸出變量(因變量)之間的關(guān)系,特別是輸入變量的值發(fā)生變化時(shí)褪子,輸出變量的值隨之發(fā)生的變化量淌。回歸模型正是表示從輸入變量到輸出變量之間映射的函數(shù)嫌褪⊙绞啵回歸問(wèn)題的學(xué)習(xí)等價(jià)于函數(shù)擬合:
選擇一條函數(shù)曲線使其很好地?cái)M合已知數(shù)據(jù)且很好地預(yù)測(cè)未知數(shù)據(jù)。
回歸問(wèn)題分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過(guò)程笼痛,如下圖:
首先給定一個(gè)訓(xùn)練數(shù)據(jù)集裙秋,學(xué)習(xí)系統(tǒng)基于訓(xùn)練數(shù)據(jù)構(gòu)建一個(gè)模型琅拌,即函數(shù)Y=f(X);對(duì)于新的輸入摘刑,預(yù)測(cè)系統(tǒng)根據(jù)學(xué)習(xí)的模型Y=f(X)確定相應(yīng)的輸出
回歸問(wèn)題按照輸入變量的個(gè)數(shù)进宝,分為一元回歸和多元回歸;按照輸入變量和輸出變量之間關(guān)系的類(lèi)型即模型的類(lèi)型枷恕,分為線性回歸和非線性回歸党晋。
回歸學(xué)習(xí)最常用的損失函數(shù)是平方損失函數(shù),在此情況下徐块,回歸問(wèn)題可以由著名的最小二乘法(least squares)求解未玻。
許多領(lǐng)域的任務(wù)都可以形式化為回歸問(wèn)題,比如胡控,回歸可以用于商務(wù)領(lǐng)域扳剿,作為市場(chǎng)趨勢(shì)預(yù)測(cè)、產(chǎn)品質(zhì)量管理昼激、客戶滿意度調(diào)查舞终、投資風(fēng)險(xiǎn)分析的工具。作為例子癣猾,簡(jiǎn)單介紹股價(jià)預(yù)測(cè)問(wèn)題敛劝。假設(shè)知道某一公司在過(guò)去不同時(shí)間點(diǎn)(比如,每天)的市場(chǎng)上的股票價(jià)格纷宇,可以將這個(gè)問(wèn)題作為回歸問(wèn)題解決夸盟,具體地,將影響股價(jià)的信息視為自變量(輸入的特征)像捶,而將股價(jià)視為因變量(輸出的值)上陕。將過(guò)去的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),就可以學(xué)習(xí)一個(gè)回歸模型拓春,并對(duì)未來(lái)的股價(jià)進(jìn)行預(yù)測(cè)释簿,可以看出這是一個(gè)困難的預(yù)測(cè)問(wèn)題,因?yàn)橛绊懝蓛r(jià)的因素非常多硼莽,我們未必能判斷到哪些信息(輸入特征)有用并能得到這些信息庶溶。
《統(tǒng)計(jì)學(xué)習(xí)方法》第1章 課后題
1.1 說(shuō)明伯努利模型的極大似然估計(jì)以及貝葉斯估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素。伯努利模型是定義在取值為0與1的隨機(jī)變量上的概率分布懂鸵。假設(shè)觀測(cè)到伯努利模型n次獨(dú)立的數(shù)據(jù)生成結(jié)果偏螺,其中k次的結(jié)果為1,這時(shí)可以用極大似然估計(jì)或貝葉斯估計(jì)來(lái)估計(jì)結(jié)果為1的概率匆光。
解:
三要素分別是模型套像、策略、算法终息。
模型:伯努利模型夺巩,即定義在取值為0與1的隨機(jī)變量上的概率分布贞让。
策略:極大似然估計(jì)和貝葉斯估計(jì)的策略都是對(duì)數(shù)損失函數(shù),只不過(guò)貝葉斯估計(jì)使用的是結(jié)構(gòu)風(fēng)險(xiǎn)最小化柳譬。
算法:極大似然估計(jì)所使用的算法是求取經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)的極小值喳张,貝葉斯估計(jì)所使用的算法是求取參數(shù)的后驗(yàn)分布,然后計(jì)算其期望征绎。