統(tǒng)計(jì)學(xué)習(xí)方法第一章:概述

1.監(jiān)督學(xué)習(xí)基本概念

1.1輸入空間矫付、特征空間與輸出空間

在監(jiān)督學(xué)習(xí)中蹋绽,將輸入與輸出所有可能取值的集合分別稱為輸入空間(input space)與輸出空間(output space)。輸入與輸出空間可以是有限元素的集合躬它,也可以是整個(gè)歐式空間网持。輸入空間與輸出空間可以是同一個(gè)空間,也可以是不同的空間姜贡;但通常輸出空間遠(yuǎn)遠(yuǎn)小于輸入空間。
每個(gè)具體的輸入是一個(gè)實(shí)例(instance)棺棵,通常由特征向量(feature vector)表示楼咳,這時(shí),所有特征向量存在的空間稱為特征空間(feature space)烛恤。特征空間的每一維對(duì)應(yīng)于一個(gè)特征母怜。有時(shí)假設(shè)輸入空間與特征空間為相同的空間,對(duì)它們不予區(qū)分棒动;有時(shí)假設(shè)輸入空間與特征空間為不同的空間,將實(shí)例從輸入空間映射到特征空間宾添。模型實(shí)際上都是定義在特征空間上的船惨。
在監(jiān)督學(xué)習(xí)過(guò)程中柜裸,將輸入與輸出看作是定義在輸入(特征)空間與輸出空間上的隨機(jī)變量的取值。輸入粱锐、輸出變量用大寫(xiě)字母表示疙挺,習(xí)慣上輸入變量寫(xiě)作X,輸出變量寫(xiě)作Y怜浅。輸入铐然、輸出變量所取的值用小寫(xiě)字母表示,輸入變量的取值寫(xiě)作x恶座,輸出變量的取值寫(xiě)作y搀暑,變量可以是標(biāo)量或向量,都用相同類(lèi)型字母表示跨琳。除特別聲明外自点,本書(shū)中向量均為列向量,輸入實(shí)例x的特征向量記作
x = (x^{(1)},x^{(2)},x^{(i)},...x^{(n)})^T
x^{(i)}表示x的第i個(gè)特征脉让,注意桂敛,x^{(i)}x_{(i)}不同,本書(shū)通常用x_{(i)}表示多個(gè)輸入變量中的第i個(gè)溅潜,即
x_i = (x_i^{(1)},x_i^{(2)},x_i^{(i)},...x_i^{(n)})^T
監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)(training data)集合中學(xué)習(xí)模型术唬,對(duì)測(cè)試數(shù)據(jù)(test data)進(jìn)行預(yù)測(cè),訓(xùn)練數(shù)據(jù)由輸入(或特征向量)與輸出對(duì)組成滚澜,訓(xùn)練集通常表示為:

image

測(cè)試數(shù)據(jù)也由相應(yīng)的輸入與輸出對(duì)組成粗仓,輸入與輸出對(duì)又稱為樣本(sample)或樣本點(diǎn)。
輸入變量X和輸出變量Y有不同的類(lèi)型博秫,可以是連續(xù)的潦牛,也可以是離散的。人們根據(jù)輸入挡育、輸出變量的不同類(lèi)型巴碗,對(duì)預(yù)測(cè)任務(wù)給予不同的名稱:輸入變量與輸出變量均為連續(xù)變量的預(yù)測(cè)問(wèn)題稱為回歸問(wèn)題;輸出變量為有限個(gè)離散變量的預(yù)測(cè)問(wèn)題稱為分類(lèi)問(wèn)題即寒;輸入變量與輸出變量均為變量序列的預(yù)測(cè)問(wèn)題稱為標(biāo)注問(wèn)題橡淆。

1.2.聯(lián)合概率分布

監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y)。P(X,Y)表示分布函數(shù)母赵,或分布密度函數(shù)逸爵。注意,在學(xué)習(xí)過(guò)程中凹嘲,假定這一聯(lián)合概率分布存在师倔,但對(duì)學(xué)習(xí)系統(tǒng)來(lái)說(shuō),聯(lián)合概率分布的具體定義是未知的周蹭,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率分布P(X,Y)獨(dú)立同分布產(chǎn)生的趋艘。統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律疲恢,X和Y具有聯(lián)合概率分布的假設(shè)就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)。

1.3.假設(shè)空間

監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)由輸入到輸出的映射瓷胧,這一映射由模型來(lái)表示显拳。模型屬于由輸入空間到輸出空間映射的集合,這個(gè)集合就是假設(shè)空間(hypothesis space)搓萧,假設(shè)空間的確定意味著學(xué)習(xí)范圍的確定杂数。

2.統(tǒng)計(jì)學(xué)習(xí)三要素

統(tǒng)計(jì)學(xué)習(xí)方法都是由模型、策略和算法構(gòu)成的瘸洛,即統(tǒng)計(jì)學(xué)習(xí)方法由三要素構(gòu)成揍移,可以簡(jiǎn)單地表示為:
方法 = 模型+策略+算法

2.1模型

模型是統(tǒng)計(jì)學(xué)習(xí)首要考慮的問(wèn)題,在監(jiān)督學(xué)習(xí)過(guò)程中货矮,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)羊精。模型的假設(shè)空間(hypothesis space)包含所有可能的條件概率分布或決策函數(shù)。例如囚玫,假設(shè)決策函數(shù)是輸入變量的線性函數(shù)喧锦,那么模型的假設(shè)空間就是所有這些線性函數(shù)構(gòu)成的函數(shù)集合。

2.2策略

首先引入損失函數(shù)和風(fēng)險(xiǎn)函數(shù)的概念抓督,損失函數(shù)度量模型一次預(yù)測(cè)的好壞燃少,風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測(cè)的好壞。

1.損失函數(shù)和風(fēng)險(xiǎn)函數(shù)

監(jiān)督學(xué)習(xí)問(wèn)題是假設(shè)空間F中選取模型f作為決策函數(shù)铃在,對(duì)于給定的輸入X阵具,由f(X)給出相應(yīng)的輸出Y,這個(gè)輸出的預(yù)測(cè)值f(X)與真實(shí)值Y可能一致也可能不一致定铜,用一個(gè)損失函數(shù)(loss function)或代價(jià)函數(shù)(cost function)來(lái)度量預(yù)測(cè)錯(cuò)誤的程度阳液,損失函數(shù)是f(X)和Y的非負(fù)實(shí)值函數(shù),記作L(Y,f(X)).
統(tǒng)計(jì)學(xué)習(xí)常用的損失函數(shù)有以下幾種:

(1) 0-1損失函數(shù)(0-1 loss function)

L(Y,f(X)) = \begin{cases} 1, Y \neq f(x) \\ 0, Y = f(X) \end{cases}

(2)平方損失函數(shù)(quadratic loss function)

L(Y,f(X)) = (Y-f(X))^2

(3)絕對(duì)損失函數(shù)(absolute loss function)

L(Y,f(X)) = |Y-f(X)|

(4)對(duì)數(shù)損失函數(shù)(logarithmic loss function)或?qū)?shù)似然損失函數(shù)(log likelihood loss function)

L(Y,P(Y|X)) = -logP(Y|X)
損失函數(shù)值越小揣炕,模型就越好帘皿,由于模型的輸入、輸出(X,Y)是隨機(jī)變量畸陡,遵循聯(lián)合分布P(X,Y)鹰溜,所以損失函數(shù)的期望是:

image

這是理論上模型f(X)關(guān)于聯(lián)合分布P(X,Y)的平均意義下的損失,稱為風(fēng)險(xiǎn)函數(shù)(risk function)或期望損失(expected loss)
學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險(xiǎn)最小的模型丁恭,由于聯(lián)合分布P(X,Y)是未知的曹动,不能直接計(jì)算。實(shí)際上牲览,如果知道聯(lián)合分布P(X,Y)墓陈,可以從聯(lián)合分布直接求出條件概率分布P(Y|X),也就不需要學(xué)習(xí)了。正因?yàn)椴恢缆?lián)合概率分布贡必,所以才需要進(jìn)行學(xué)習(xí)熬的,這樣一來(lái),一方面根據(jù)期望風(fēng)險(xiǎn)最小學(xué)習(xí)模型要用到聯(lián)合分布赊级,另一方面聯(lián)合分布又是未知的,所以監(jiān)督學(xué)習(xí)就稱為一個(gè)病態(tài)問(wèn)題岔绸。
給定一個(gè)訓(xùn)練數(shù)據(jù)集

模型f(X)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為

經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)或經(jīng)驗(yàn)損失(empirical loss)理逊,記作:

R_{exp}(f) = \frac{1}{N}\sum^n_{i=1}L(y_i,f(x_i))

期望風(fēng)險(xiǎn)R_{exp}(f)是模型關(guān)于聯(lián)合分布的期望損失,經(jīng)驗(yàn)風(fēng)險(xiǎn)R_{emp}(f)是模型關(guān)于訓(xùn)練樣本集的平均損失盒揉。根據(jù)大數(shù)定律晋被,當(dāng)樣本容量N趨于無(wú)窮時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)R_{emp}(f)趨于期望風(fēng)險(xiǎn)R_{exp}(f)刚盈,所以一個(gè)很自然的想法是用經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)期望風(fēng)險(xiǎn)羡洛。但是,由于現(xiàn)實(shí)中訓(xùn)練樣本數(shù)目有限藕漱,甚至很小欲侮,所以用經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)期望風(fēng)險(xiǎn)常常并不理想,要對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)進(jìn)行一定的矯正肋联,這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個(gè)基本策略:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化和結(jié)構(gòu)風(fēng)險(xiǎn)最小化威蕉。

2.經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)最小化

在假設(shè)空間、損失函數(shù)以及訓(xùn)練數(shù)據(jù)確定的情況下橄仍,經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)式(1.10)就可以確定韧涨,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization,ERM)的策略認(rèn)為,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型侮繁,根據(jù)這一策略虑粥,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型就是求解最優(yōu)化問(wèn)題:


image

其中F是假設(shè)空間,
當(dāng)樣本容量足夠大時(shí)宪哩,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果娩贷,在現(xiàn)實(shí)中被廣泛采用。比如斋射,極大似然(maximum likelihood estimation)就是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的一個(gè)例子育勺。當(dāng)模型是條件概率分布,損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)罗岖,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于極大似然估計(jì)涧至。
但是,當(dāng)樣本容量很小時(shí)桑包,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化學(xué)習(xí)的效果就未必很好南蓬,會(huì)產(chǎn)生后面將要敘述的“過(guò)擬合”現(xiàn)象。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization,SRM)是為了防止過(guò)擬合而提出來(lái)的策略赘方,結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于正則化(regularization)烧颖。結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng)(regularization)或罰項(xiàng)(penalty term)。在假設(shè)空間窄陡、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下炕淮,

結(jié)構(gòu)風(fēng)險(xiǎn)的定義是:

R_{srm}(f) = \frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i)) + \lambda J(f)

其中j(f)為模型的復(fù)雜度,是定義在假設(shè)空間F上的泛函跳夭,模型f越復(fù)雜涂圆,復(fù)雜度J(f)就越大;反之币叹,模型f越簡(jiǎn)單润歉,復(fù)雜度J(f)就越小。也就是說(shuō)颈抚,復(fù)雜度表示了對(duì)復(fù)雜模型的懲罰踩衩。\lambda \geq 0是系數(shù),用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度贩汉。結(jié)構(gòu)風(fēng)險(xiǎn)小需要經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時(shí)小驱富。結(jié)構(gòu)風(fēng)險(xiǎn)小的模型往往對(duì)訓(xùn)練數(shù)據(jù)以及未知的測(cè)試數(shù)據(jù)都有較好的預(yù)測(cè)。
比如匹舞,貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)(MAP)就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的一個(gè)例子萌朱,當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)策菜、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí)晶疼,結(jié)構(gòu)風(fēng)險(xiǎn)最小化就等價(jià)于最大后驗(yàn)概率估計(jì)。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型又憨,所以求最優(yōu)模型翠霍,就是求解最優(yōu)化問(wèn)題:
min_{f\in F} \frac{1}{N}\sum^N_{i=1}L(Y_i,f(x_i))+ \lambda J(f)
這樣,監(jiān)督學(xué)習(xí)問(wèn)題就變成了經(jīng)驗(yàn)風(fēng)險(xiǎn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)的最優(yōu)化問(wèn)題蠢莺,這時(shí)經(jīng)驗(yàn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是最優(yōu)化的目標(biāo)函數(shù)寒匙。

2.3.算法

算法是指學(xué)習(xí)模型的具體計(jì)算方法。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集躏将,根據(jù)學(xué)習(xí)策略锄弱,從假設(shè)空間中選擇最優(yōu)模型,最后需要考慮用什么樣的計(jì)算方法求解最優(yōu)模型祸憋。
這時(shí)会宪,統(tǒng)計(jì)學(xué)習(xí)問(wèn)題歸結(jié)為最優(yōu)化問(wèn)題,統(tǒng)計(jì)學(xué)習(xí)的算法成為求解最優(yōu)化問(wèn)題的算法蚯窥,如果最優(yōu)化問(wèn)題有明顯的解析解掸鹅,這個(gè)最優(yōu)化問(wèn)題就比較簡(jiǎn)單塞帐,但通常解析解不存在,這就需要用數(shù)值計(jì)算的方法求解巍沙,如何保證找到全局最優(yōu)解葵姥,并使求解過(guò)程非常搞笑,就稱為一個(gè)重要問(wèn)題句携,統(tǒng)計(jì)學(xué)可以利用已有的最優(yōu)化算法榔幸,有時(shí)也需要開(kāi)發(fā)獨(dú)自的最優(yōu)化算法。
統(tǒng)計(jì)學(xué)習(xí)方法之間的不同矮嫉,主要來(lái)自其模型牡辽、策略、算法的不同敞临。確定了模型、策略麸澜、算法挺尿,統(tǒng)計(jì)學(xué)習(xí)的方法也就確定了,這也就是將其稱為統(tǒng)計(jì)學(xué)習(xí)三要素的原因炊邦。

3.模型評(píng)估與模型選擇

3.1訓(xùn)練誤差與測(cè)試誤差

假設(shè)學(xué)習(xí)到的模型是Y=\hat f(X),訓(xùn)練誤差是模型Y=\hat f(X)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失:

R_{emp}(\hat f) = \frac{1}{N}\sum^N_{i=1}L(y_i,\hat f(x_i))

其中N是訓(xùn)練樣本容量编矾。
測(cè)試誤差是模型Y=\hat f(X)關(guān)于測(cè)試數(shù)據(jù)集的平均損失:

e_{test} = \frac{1}{N'}\sum^{N'}_{i=1}L(y_i,\hat f(x_i))

其中N'是測(cè)試樣本容量。
例如馁害,當(dāng)損失函數(shù)是0-1損失時(shí)窄俏,測(cè)試誤差就變成了常見(jiàn)的測(cè)試數(shù)據(jù)集上的誤差率(error rate)

e_{test} = \frac{1}{N'}\sum^{N'}_{i=1}I(y_i \not=\hat f(x_i))

這里I是指示函數(shù)(indicator function),即y \not= \hat f(x_i)時(shí)為1碘菜,否則為0.相應(yīng)地凹蜈,常見(jiàn)的測(cè)試數(shù)據(jù)集上的準(zhǔn)確率(accuracy)為

r_{test} = \frac{1}{N'}\sum^{N'}_{i=1}I(y_i =\hat f(x_i))

顯然,r_{test} + e_{test} = 1
訓(xùn)練誤差的大小忍啸,對(duì)判斷給定的問(wèn)題是不是一個(gè)容易學(xué)習(xí)的問(wèn)題是有意義的仰坦,但本質(zhì)上不重要,測(cè)試誤差反映了學(xué)習(xí)方法對(duì)未知的測(cè)試數(shù)據(jù)集的預(yù)測(cè)能力计雌,是學(xué)習(xí)中的重要概念悄晃。顯然,給定兩種學(xué)習(xí)方法凿滤,測(cè)試誤差小的方法具有更好的預(yù)測(cè)能力妈橄,是更有效的方法。通常將學(xué)習(xí)方法對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力稱為泛化能力(generalization ability)翁脆。

3.2過(guò)擬合與模型選擇

下面眷蚓,以多項(xiàng)式函數(shù)擬合問(wèn)題為例,說(shuō)明過(guò)擬合與模型選擇:
這是一個(gè)回歸問(wèn)題反番,假設(shè)給定一個(gè)訓(xùn)練數(shù)據(jù)集:
T = {(x_1,y_1),(x_2,y_2),...(x_n,y_n)}
其中溪椎,x_i \in R是輸入x的觀測(cè)值普舆,y_i \in R是相應(yīng)的輸出y的觀測(cè)值,i=1,2校读,沼侣。。歉秫。N蛾洛。多項(xiàng)式函數(shù)擬合的任務(wù)時(shí)假設(shè)給定數(shù)據(jù)由M次多項(xiàng)式函數(shù)生成,選擇最有可能產(chǎn)生這些數(shù)據(jù)的M次多項(xiàng)式函數(shù)雁芙,即在M次多項(xiàng)式函數(shù)中選擇一個(gè)對(duì)已知數(shù)據(jù)以及未知數(shù)據(jù)都有很好預(yù)測(cè)能力的函數(shù)轧膘。
假設(shè)給定如下圖所示的10個(gè)數(shù)據(jù)點(diǎn),用0~9次多項(xiàng)式函數(shù)對(duì)數(shù)據(jù)進(jìn)行擬合兔甘,圖中畫(huà)出了需要使用多項(xiàng)式函數(shù)曲線擬合的數(shù)據(jù):

M次多項(xiàng)式函數(shù)擬合問(wèn)題的例子

設(shè)M次多項(xiàng)式為:
image

式中x是單變量輸入谎碍,w0,w1洞焙,蟆淀。。wm是M+1個(gè)參數(shù)
解決這一問(wèn)題的方法可以是這樣的澡匪,首先確定模型復(fù)雜度熔任,即確定多項(xiàng)式的次數(shù);然后在給定的模型復(fù)雜度下唁情,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的策略疑苔,求解參數(shù),即多項(xiàng)式的系數(shù)甸鸟,具體地惦费,求以下經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化:

L(w) = \frac{1}{2} \sum{^N_{i=1}}(f(x_i,w)-y_i)^2 (1.18)

這時(shí),損失函數(shù)為平方損失抢韭,系數(shù)二分之一是為了計(jì)算方便趁餐,這是一個(gè)簡(jiǎn)單的最優(yōu)化問(wèn)題,將模型與訓(xùn)練數(shù)據(jù)代入式(1.18)中篮绰,有
L(w) = \frac{1}{2}\sum{^N_{i=1}}(\sum{^M_{j=0}w_jx_i^j -y_i})^2
對(duì)w_j求偏導(dǎo)數(shù)并令其為0后雷,可得:

w_j = \frac{\sum{^N_{i=1}x_iy_i}}{\sum{^N_{i=1}x_i^{(j+1)}}},j=0,1,2,...,M

于是求得擬合多項(xiàng)式系數(shù)w_0^*,w_1^*,...w_M^*
上圖中給出了M=0吠各,M=1臀突,M=3及M=9時(shí)多項(xiàng)式函數(shù)擬合的情況,如果M=0贾漏,多項(xiàng)式曲線是一個(gè)常數(shù)候学,數(shù)據(jù)擬合效果很差。如果M=1纵散,多項(xiàng)式曲線是一條直線梳码,數(shù)據(jù)擬合效果也很差隐圾,相反,如果M=9掰茶,多項(xiàng)式曲線通過(guò)沒(méi)個(gè)數(shù)據(jù)點(diǎn)暇藏,訓(xùn)練誤差為0.從對(duì)給定訓(xùn)練數(shù)據(jù)擬合的角度來(lái)說(shuō),效果是最好的濒蒋。但是盐碱,因?yàn)橛?xùn)練數(shù)據(jù)本身存在噪音,在實(shí)際學(xué)習(xí)中并不可取沪伙,這時(shí)過(guò)擬合現(xiàn)象就會(huì)發(fā)生瓮顽,這就是說(shuō),模型選擇時(shí)围橡,不僅要考慮對(duì)已知數(shù)據(jù)的預(yù)測(cè)能力暖混,而且還要考慮對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力,當(dāng)M=3時(shí)翁授,多項(xiàng)式曲線對(duì)訓(xùn)練數(shù)據(jù)擬合效果足夠好拣播,模型也比較簡(jiǎn)單,是一個(gè)較好的選擇黔漂。
在多項(xiàng)式函數(shù)擬合中可以看到,隨著多項(xiàng)式次數(shù)(模型復(fù)雜度)的增加禀酱,訓(xùn)練誤差會(huì)減小炬守,直至趨向于0,但是測(cè)試誤差卻不如此剂跟,它會(huì)隨著多項(xiàng)式次數(shù)(模型復(fù)雜度)的增加先減小而后增大减途,而最終的目的是使測(cè)試誤差達(dá)到最小,這樣曹洽,在多項(xiàng)式函數(shù)擬合中鳍置,就要選擇合適的多項(xiàng)式次數(shù),以達(dá)到這一目的送淆。這一結(jié)論對(duì)一般的模型選擇也是成立的税产。
下圖描述了訓(xùn)練誤差和測(cè)試誤差與模型的復(fù)雜度之間的關(guān)系:

image

如上圖,當(dāng)模型的復(fù)雜度增大時(shí)偷崩,訓(xùn)練誤差會(huì)逐漸減小并趨向于0辟拷;而測(cè)試誤差會(huì)先減小,達(dá)到最小值后又增大阐斜。當(dāng)選擇的模型復(fù)雜度過(guò)大時(shí)衫冻,過(guò)擬合現(xiàn)象就會(huì)發(fā)生,這樣谒出,在學(xué)習(xí)時(shí)就要防止過(guò)擬合隅俘,進(jìn)行最優(yōu)的模型選擇邻奠,即選擇復(fù)雜度適當(dāng)?shù)哪P停赃_(dá)到使測(cè)試誤差最小的學(xué)習(xí)目的为居。下面介紹兩種常用的模型選擇方法:正則化與交叉驗(yàn)證碌宴。

4.正則化與交叉驗(yàn)證

4.1正則化

模型選擇的典型方法是正則化(regularization)颜骤。正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn)唧喉,是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term)正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜忍抽,正則化值越大八孝,比如,正則化可以使模型參數(shù)向量的范數(shù)鸠项。
正則化一般具有如下形式:

image

其中干跛,第一項(xiàng)是經(jīng)驗(yàn)風(fēng)險(xiǎn),第二項(xiàng)是正則化項(xiàng)祟绊,為調(diào)整兩者之間關(guān)系的系數(shù)楼入。
正則化項(xiàng)可以取不同的形式,例如牧抽,回歸問(wèn)題中嘉熊,損失函數(shù)是平方損失,正則化項(xiàng)可以是參數(shù)向量的范數(shù):

這里扬舒,||w||表示參數(shù)向量w的L2范數(shù)阐肤。
正則化項(xiàng)也可以是參數(shù)向量的L1范數(shù):

這里,||w||1表示參數(shù)向量w的L1范數(shù)讲坎。

4.2交叉驗(yàn)證

另一種常用的模型選擇方法是交叉驗(yàn)證法(cross validation)

交叉驗(yàn)證的基本思想:

交叉驗(yàn)證的基本思想是重復(fù)地使用數(shù)據(jù)孕惜,把給定的數(shù)據(jù)進(jìn)行切分,將切分的數(shù)據(jù)集組合為訓(xùn)練集與測(cè)試集晨炕,在此基礎(chǔ)上反復(fù)地進(jìn)行訓(xùn)練衫画、測(cè)試以及模型選擇。
1.簡(jiǎn)單交叉驗(yàn)證:
簡(jiǎn)單交叉驗(yàn)證的方法是:首先隨機(jī)地將已給數(shù)據(jù)分為兩部分瓮栗,一部分作為訓(xùn)練集削罩,另一部分作為測(cè)試集(例如,70%的數(shù)據(jù)為訓(xùn)練集费奸,30%的數(shù)據(jù)為測(cè)試集)鲸郊,然后用訓(xùn)練集在各種條件下(例如,不同的參數(shù)個(gè)數(shù))訓(xùn)練模型货邓,從而得到不同的模型秆撮;在測(cè)試集上評(píng)價(jià)各個(gè)模型的測(cè)試誤差,選出測(cè)試誤差最小的模型换况。
2.S折交叉驗(yàn)證
瑩瑩最多的S著交叉驗(yàn)證(S-fold cross validation)职辨,方法如下:
首先隨機(jī)地將已給數(shù)據(jù)切分為S個(gè)互不相交的大小相同的子集盗蟆;然后利用S-1個(gè)子集的數(shù)據(jù)訓(xùn)練模型,利用余下的子集測(cè)試模型舒裤;將這一過(guò)程對(duì)可能的S種選擇重復(fù)進(jìn)行喳资;最后選出S次評(píng)測(cè)中平均測(cè)試誤差最小的模型。
3.留一交叉驗(yàn)證
S折交叉驗(yàn)證的特殊情形是S=N腾供,稱為留一交叉驗(yàn)證(leave-one-out cross validation)仆邓,往往在數(shù)據(jù)缺乏的情況下使用。這里N伴鳖,是給定數(shù)據(jù)集的容量节值。

5.泛化能力

5.1泛化誤差

學(xué)習(xí)方法的泛化能力(generalization ability)是指由該方法學(xué)習(xí)到的模型對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力,是學(xué)習(xí)方法本質(zhì)上重要的性質(zhì)“衲簦現(xiàn)實(shí)中采用最多的辦法是通過(guò)測(cè)試誤差來(lái)評(píng)價(jià)學(xué)習(xí)方法的泛化能力搞疗。但這種評(píng)價(jià)是依賴于測(cè)試數(shù)據(jù)集的,因?yàn)闇y(cè)試數(shù)據(jù)集是有限的须肆,很有可能由此得到的評(píng)價(jià)結(jié)果是不可靠的匿乃。統(tǒng)計(jì)學(xué)習(xí)理論試圖從理論上對(duì)學(xué)習(xí)方法的泛化能力進(jìn)行分析。
首先給出泛化誤差的定義豌汇,如果學(xué)到的模型是\hat f,那么用這個(gè)模型對(duì)未知數(shù)據(jù)預(yù)測(cè)的誤差即為泛化誤差(generalization error)

R_{exp}(\hat f) = E_p[L(Y,\hat f(X))] = \int _{x*y}L(y,\hat f(x))P(x,y)dxdy (1.20)

泛化誤差反映了學(xué)習(xí)方法的泛化能力浑厚,如果一種方法學(xué)習(xí)的模型比另一種方法學(xué)習(xí)的模型具有更小的泛化誤差职员,那么這種方法就更有效筛峭。事實(shí)上裸准,泛化誤差就是所學(xué)習(xí)到的模型的期望風(fēng)險(xiǎn)。

5.2 泛化誤差上界

學(xué)習(xí)方法的泛化能力分析往往是通過(guò)研究泛化誤差的概率上界進(jìn)行的柜思,簡(jiǎn)稱泛化誤差上界(generalization error bound)岩调,具體來(lái)說(shuō)巷燥,就是通過(guò)比較兩種學(xué)習(xí)方法的泛化誤差上界的大小來(lái)比較它們的優(yōu)劣赡盘,泛化誤差上界通常具有以下性質(zhì):它是樣本容量的函數(shù),當(dāng)樣本容量增加時(shí)缰揪,泛化上界趨于0陨享;它是假設(shè)空間容量(capacity)的函數(shù),假設(shè)空間容量越大钝腺,模型就越難學(xué)抛姑,泛化誤差上界就越大。
下面給出一個(gè)簡(jiǎn)單的泛化誤差上界的例子:二分類(lèi)問(wèn)題的泛化誤差上界艳狐。
考慮二分類(lèi)問(wèn)題定硝,已知訓(xùn)練數(shù)據(jù)集T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}
,它是從聯(lián)合概率分布P(X,Y)獨(dú)立同分布產(chǎn)生的,X \in R^n毫目,Y \in {-1,+1}.假設(shè)空間是函數(shù)的有限集合F={f1,f2,...,fd},d是函數(shù)個(gè)數(shù)蔬啡,設(shè)f是從F中選取的函數(shù)诲侮,損失函數(shù)是0-1損失。關(guān)于f的期望風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)分別是:

R(f) = E[L(Y,f(X))] (1.21)
\hat R(f) = \frac{1}{N} \sum{^N_{i=1}}L(y_i,f(x_i))] (1.22)

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化函數(shù)是

f_n=\mathop{argmin}\limits_{f\in F} \hat R(f)

人們更關(guān)心的是f_N的泛化能力
R(f_N) = E[L(Y,f_n(X))]
下面討論從有限集合
F = {f_1,f_2,...,f_d}中任意選出的函數(shù)f的泛化誤差上界箱蟆。

定理1.1(泛化誤差上界):

對(duì)二分類(lèi)問(wèn)題沟绪,當(dāng)假設(shè)空間是有限個(gè)函數(shù)的集合F = {f_1,f_2,...,f_d}時(shí),對(duì)任意一個(gè)函數(shù)f \in F空猜,至少以概率1-\delta,以下不等式成立:

R(f) \le \hat R(f)+ \varepsilon(d,N,\delta) (1.25)

其中绽慈,

\varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N}(log d+log\frac{1}{\delta})} (1.26)

不等式(1.25)左端R(f)是泛化誤差,右端即為泛化誤差上界辈毯,在泛化誤差上界中坝疼,第1項(xiàng)是訓(xùn)練誤差,訓(xùn)練誤差越小漓摩,泛化誤差也越小裙士。第二項(xiàng)\varepsilon(d,N,\delta)是N的單調(diào)遞減函數(shù),當(dāng)N趨近于無(wú)窮大時(shí)趨于0管毙;同時(shí)它也是\sqrt{logd}階的函數(shù)腿椎,假設(shè)空間F包含的函數(shù)越多,其值越大夭咬。

證明

在證明中要用到Hoeffding不等式啃炸,先敘述如下:
設(shè)S_n=\sum{^n_{i=1}}X_i是獨(dú)立隨機(jī)變量X_1,X_2,...X_n之和,X_i \in[a_i,b_i]卓舵,則對(duì)任意t>0南用,以下不等式成立:

(描述)

對(duì)任意函數(shù)是N個(gè)獨(dú)立的隨機(jī)變量L(Y,f(X))的樣本均值,是隨機(jī)變量L(Y,f(X))的期望值掏湾,如果損失函數(shù)取值于區(qū)間[0,1],即對(duì)所有那么由Hoeffding不等式(1.28)不難得知裹虫,對(duì)以下不等式成立:
image

其中,由式(1.26)定義融击,由式(1.23)定義筑公,這就是說(shuō),訓(xùn)練誤差小的模型尊浪,其泛化誤差也會(huì)小匣屡。
以上討論的只是假設(shè)空間包含有限個(gè)函數(shù)情況下的泛化誤差上界,對(duì)一般的假設(shè)空間要找到泛化誤差就沒(méi)有這么簡(jiǎn)單拇涤。

6.生成模型與判別模型

監(jiān)督學(xué)習(xí)的任務(wù)就是學(xué)習(xí)一個(gè)模型捣作,應(yīng)用這一模型,對(duì)給定的輸入預(yù)測(cè)相應(yīng)的輸出鹅士。這個(gè)模型的一般形式為決策函數(shù):

Y=f(X)

或者條件概率分布:

P(Y|X)

監(jiān)督學(xué)習(xí)方法又可以分為生成方法(generative approach)和判別方法(discriminative approach)所學(xué)到的模型分別稱為生成模型(generative model)和判別模型(discriminative model)
生成方法由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y)券躁,然后求出條件概率分布P(Y|x)作為預(yù)測(cè)的模型,即生成模型:
P(y|X) = \frac{P(X,Y)}{P(X)}
這樣的方法之所有稱為生成方法,是因?yàn)槟P捅硎玖私o定輸入X產(chǎn)生輸出Y的生成關(guān)系也拜。

典型的生成模型有:

樸素貝葉斯法和隱馬爾可夫模型旭贬,將在后面章節(jié)進(jìn)行相關(guān)講述。
判別方法由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)發(fā)f(X)或者條件概率分布P(Y|X)作為預(yù)測(cè)的模型搪泳,即為判別模型稀轨。判別方法關(guān)心的是對(duì)給定的輸入X,應(yīng)該預(yù)測(cè)什么樣的輸出Y岸军。

典型的判別模型包括:

k近鄰法奋刽、感知機(jī)、決策樹(shù)艰赞、邏輯斯諦回歸模型佣谐、最大熵模型、支持向量機(jī)方妖、提升方法和條件隨機(jī)場(chǎng)等狭魂。

生成方法的特點(diǎn):

生成方法可以還原出聯(lián)合概率分布P(X,Y),而判別方法則不能党觅;生成方法的學(xué)習(xí)收斂速度更快雌澄,即當(dāng)樣本容量增加的時(shí)候,學(xué)到的模型可以更快地收斂于真實(shí)模型杯瞻;當(dāng)存在隱變量時(shí)镐牺,仍可以用生成方法學(xué)習(xí),此時(shí)判別方法就不能用魁莉。

判別方法的特點(diǎn):

判別方法直接學(xué)習(xí)的是條件概率P(Y|X)或決策函數(shù)f(X)睬涧,直接面對(duì)預(yù)測(cè),往往學(xué)習(xí)的準(zhǔn)確率更高旗唁;由于直接學(xué)習(xí)P(Y|X)或f(X)畦浓,可以對(duì)數(shù)據(jù)進(jìn)行各種程度上的抽象、定義特征并使用特征检疫,因此可以簡(jiǎn)化學(xué)習(xí)問(wèn)題讶请。

7.分類(lèi)問(wèn)題

分類(lèi)是監(jiān)督學(xué)習(xí)的一個(gè)核心問(wèn)題,在監(jiān)督學(xué)習(xí)中电谣,當(dāng)輸出變量Y取有限個(gè)離散值時(shí)秽梅,預(yù)測(cè)問(wèn)題便成為分類(lèi)問(wèn)題抹蚀。這時(shí)剿牺,輸入變量X可以是離散的,也可以是連續(xù)的环壤。監(jiān)督學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)一個(gè)分類(lèi)模型或分類(lèi)決策函數(shù)晒来,稱為分類(lèi)器(classifier)。分類(lèi)器對(duì)新的輸入進(jìn)行輸出的預(yù)測(cè)(prediction)郑现,稱為分類(lèi)(classification)湃崩∮担可能的輸出稱為類(lèi)(class)。分類(lèi)的類(lèi)別為多個(gè)時(shí)攒读,稱為多分類(lèi)問(wèn)題朵诫。我們主要討論二分類(lèi)問(wèn)題。
分類(lèi)問(wèn)題包括學(xué)習(xí)和分類(lèi)兩個(gè)過(guò)程薄扁,在學(xué)習(xí)過(guò)程中剪返,根據(jù)已知的訓(xùn)練數(shù)據(jù)集利用有效的學(xué)習(xí)方法學(xué)習(xí)一個(gè)分類(lèi)器;在分類(lèi)過(guò)程中邓梅,利用學(xué)習(xí)的分類(lèi)器對(duì)新的輸入實(shí)例進(jìn)行分類(lèi)脱盲。分類(lèi)問(wèn)題可用下圖描述:

image

圖中學(xué)習(xí)系統(tǒng)由訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個(gè)分類(lèi)器P(Y|X)或Y=f(X);分類(lèi)系統(tǒng)通過(guò)學(xué)到的分類(lèi)器P(Y|X)或Y=f(X)對(duì)新的輸入實(shí)例進(jìn)行分類(lèi)日缨,即預(yù)測(cè)其輸出的類(lèi)標(biāo)記
評(píng)價(jià)分類(lèi)器性能的指標(biāo)一般是分類(lèi)準(zhǔn)確率(accuracy)钱反,其定義是:對(duì)于給定的測(cè)試數(shù)據(jù)集,分類(lèi)器正確分類(lèi)的樣本數(shù)與總體樣本數(shù)之比匣距,也就是損失函數(shù)是0-1損失時(shí)測(cè)試數(shù)據(jù)集上的準(zhǔn)確率
對(duì)于二類(lèi)分類(lèi)問(wèn)題常用的評(píng)價(jià)指標(biāo)是精確率(precision)與召回率(recall)通常以關(guān)注的類(lèi)為正類(lèi)面哥,其他類(lèi)為負(fù)類(lèi),分類(lèi)器在測(cè)試數(shù)據(jù)集上的預(yù)測(cè)或正確或不正確毅待,4種情況出現(xiàn)的總數(shù)分別記作:
TP——將正類(lèi)預(yù)測(cè)為正類(lèi)數(shù)幢竹;
FN——將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù);
FP——將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù)恩静;
TN——將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù)焕毫。

精確率定義為:P = \frac{TP}{TP+FP}
召回率定義為:R = \frac{TP}{TP+FN}

此外,還有F_1值驶乾,是精確率和召回率的調(diào)和均值邑飒,即

\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}
F_1=\frac{2TP}{2TP+FP+FN}

精確率和召回率都高時(shí),F_1值也會(huì)高级乐。
許多統(tǒng)計(jì)學(xué)習(xí)方法可以用于分類(lèi)疙咸,包括k近鄰法、感知機(jī)风科、樸素貝葉斯法撒轮、決策樹(shù)、決策列表贼穆、邏輯斯諦回歸模型题山、支持向量機(jī)、提神方法故痊、貝葉斯網(wǎng)絡(luò)顶瞳、神經(jīng)網(wǎng)絡(luò)、Winnow等。
分類(lèi)在于根據(jù)其特性將數(shù)據(jù)“分門(mén)別類(lèi)”慨菱,所以在許多領(lǐng)域都有廣泛的應(yīng)用焰络。例如,在銀行業(yè)務(wù)中符喝,可以構(gòu)建一個(gè)客戶分類(lèi)模型闪彼,對(duì)客戶按照貸款風(fēng)險(xiǎn)的大小進(jìn)行分類(lèi);在網(wǎng)絡(luò)安全領(lǐng)域协饲,可以利用日志數(shù)據(jù)的分類(lèi)對(duì)非法入侵進(jìn)行檢測(cè)备蚓;在圖像處理中,分類(lèi)可以用來(lái)檢測(cè)圖像中是否有人臉出現(xiàn)囱稽;在手寫(xiě)識(shí)別中郊尝,分類(lèi)可以用于識(shí)別手寫(xiě)的數(shù)字;在互聯(lián)網(wǎng)搜索中战惊,網(wǎng)頁(yè)的分類(lèi)可以幫助網(wǎng)頁(yè)的抓取流昏、索引與排序。

8.標(biāo)注問(wèn)題

標(biāo)注(tagging)也是一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題吞获,可以認(rèn)為標(biāo)注問(wèn)題是分類(lèi)問(wèn)題的一個(gè)推廣况凉,標(biāo)注問(wèn)題又是更復(fù)雜的結(jié)構(gòu)預(yù)測(cè)(structure prediction)問(wèn)題的簡(jiǎn)單形式。標(biāo)注問(wèn)題的輸入是一個(gè)觀測(cè)序列各拷,輸出是一個(gè)標(biāo)記序列或狀態(tài)序列刁绒。標(biāo)注問(wèn)題的目標(biāo)在于學(xué)習(xí)一個(gè)模型,使它能夠?qū)τ^測(cè)序列給出標(biāo)記序列作為預(yù)測(cè)烤黍。注意知市,可能的標(biāo)記個(gè)數(shù)是有限的,但其組合所成的標(biāo)記序列的個(gè)數(shù)是依序列長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)的速蕊。
標(biāo)注問(wèn)題分為學(xué)習(xí)和標(biāo)注兩個(gè)過(guò)程嫂丙,如下圖所示:

image

首先給定一個(gè)訓(xùn)練數(shù)據(jù)集,這里是輸入觀測(cè)序列规哲,是相應(yīng)的輸出標(biāo)記序列跟啤,n是序列的長(zhǎng)度,對(duì)不同樣本可以有不同的值唉锌。學(xué)習(xí)系統(tǒng)基于訓(xùn)練數(shù)據(jù)集構(gòu)建一個(gè)模型隅肥,表示為條件概率分布:

這里,每一個(gè)取值為所有可能的觀測(cè)袄简,每一個(gè)取值為所有可能的標(biāo)記腥放,一般。標(biāo)注系統(tǒng)按照學(xué)習(xí)得到的條件概率分布模型痘番,對(duì)新的輸入觀測(cè)序列找到相應(yīng)的輸出標(biāo)記序列捉片。具體地,對(duì)一個(gè)觀測(cè)序列找到條件概率
的最大標(biāo)記序列
評(píng)價(jià)標(biāo)注模型的指標(biāo)與評(píng)價(jià)分類(lèi)模型的指標(biāo)一樣汞舱,常用的有標(biāo)注準(zhǔn)確率伍纫、精確率和召回率。其定義與分類(lèi)模型相同昂芜。
標(biāo)注常用的統(tǒng)計(jì)學(xué)習(xí)方法有:隱馬爾可夫模型莹规、條件隨機(jī)場(chǎng)。
標(biāo)注問(wèn)題在信息抽取泌神、自然語(yǔ)言處理等領(lǐng)域被廣泛應(yīng)用良漱,是這些領(lǐng)域的基本問(wèn)題。例如欢际,自然語(yǔ)言處理中的詞性標(biāo)注(part of speech tagging)就是一個(gè)典型的標(biāo)注問(wèn)題:給定一個(gè)由單詞組成的句子母市,對(duì)這個(gè)句子中的每一個(gè)單詞進(jìn)行詞性標(biāo)注,即對(duì)一個(gè)單詞序列預(yù)測(cè)其對(duì)應(yīng)的詞性標(biāo)記序列损趋。
舉一個(gè)信息抽取的例子患久,從英文文章中抽取基本名詞短語(yǔ)(base nounphrase)為此,要對(duì)文章進(jìn)行標(biāo)注浑槽,英文單詞是一個(gè)觀測(cè)蒋失,英文句子是一個(gè)觀測(cè)序列,標(biāo)記表示名詞短語(yǔ)的“開(kāi)始”桐玻、“結(jié)束”或“其他”(分別以B,E,O表示)篙挽,標(biāo)記序列表示英文句子中基本名詞短語(yǔ)的所在位置。信息抽取時(shí)镊靴,將標(biāo)記“開(kāi)始”到標(biāo)記“結(jié)束”的單詞作為名詞短語(yǔ)铣卡。例如,給出以下的觀測(cè)序列偏竟,即英文句子算行,標(biāo)注系統(tǒng)產(chǎn)生相應(yīng)的標(biāo)記序列,即給出句子中的基本名詞短語(yǔ)苫耸。
image

9.回歸問(wèn)題

回歸(regression)是監(jiān)督學(xué)習(xí)的另一個(gè)重要問(wèn)題州邢,回歸英語(yǔ)預(yù)測(cè)輸入變量(自變量)和輸出變量(因變量)之間的關(guān)系,特別是輸入變量的值發(fā)生變化時(shí)褪子,輸出變量的值隨之發(fā)生的變化量淌。回歸模型正是表示從輸入變量到輸出變量之間映射的函數(shù)嫌褪⊙绞啵回歸問(wèn)題的學(xué)習(xí)等價(jià)于函數(shù)擬合:
選擇一條函數(shù)曲線使其很好地?cái)M合已知數(shù)據(jù)且很好地預(yù)測(cè)未知數(shù)據(jù)。
回歸問(wèn)題分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過(guò)程笼痛,如下圖:

image

首先給定一個(gè)訓(xùn)練數(shù)據(jù)集裙秋,學(xué)習(xí)系統(tǒng)基于訓(xùn)練數(shù)據(jù)構(gòu)建一個(gè)模型琅拌,即函數(shù)Y=f(X);對(duì)于新的輸入摘刑,預(yù)測(cè)系統(tǒng)根據(jù)學(xué)習(xí)的模型Y=f(X)確定相應(yīng)的輸出
回歸問(wèn)題按照輸入變量的個(gè)數(shù)进宝,分為一元回歸和多元回歸;按照輸入變量和輸出變量之間關(guān)系的類(lèi)型即模型的類(lèi)型枷恕,分為線性回歸和非線性回歸党晋。
回歸學(xué)習(xí)最常用的損失函數(shù)是平方損失函數(shù),在此情況下徐块,回歸問(wèn)題可以由著名的最小二乘法(least squares)求解未玻。
許多領(lǐng)域的任務(wù)都可以形式化為回歸問(wèn)題,比如胡控,回歸可以用于商務(wù)領(lǐng)域扳剿,作為市場(chǎng)趨勢(shì)預(yù)測(cè)、產(chǎn)品質(zhì)量管理昼激、客戶滿意度調(diào)查舞终、投資風(fēng)險(xiǎn)分析的工具。作為例子癣猾,簡(jiǎn)單介紹股價(jià)預(yù)測(cè)問(wèn)題敛劝。假設(shè)知道某一公司在過(guò)去不同時(shí)間點(diǎn)(比如,每天)的市場(chǎng)上的股票價(jià)格纷宇,可以將這個(gè)問(wèn)題作為回歸問(wèn)題解決夸盟,具體地,將影響股價(jià)的信息視為自變量(輸入的特征)像捶,而將股價(jià)視為因變量(輸出的值)上陕。將過(guò)去的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),就可以學(xué)習(xí)一個(gè)回歸模型拓春,并對(duì)未來(lái)的股價(jià)進(jìn)行預(yù)測(cè)释簿,可以看出這是一個(gè)困難的預(yù)測(cè)問(wèn)題,因?yàn)橛绊懝蓛r(jià)的因素非常多硼莽,我們未必能判斷到哪些信息(輸入特征)有用并能得到這些信息庶溶。

《統(tǒng)計(jì)學(xué)習(xí)方法》第1章 課后題
1.1 說(shuō)明伯努利模型的極大似然估計(jì)以及貝葉斯估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素。伯努利模型是定義在取值為0與1的隨機(jī)變量上的概率分布懂鸵。假設(shè)觀測(cè)到伯努利模型n次獨(dú)立的數(shù)據(jù)生成結(jié)果偏螺,其中k次的結(jié)果為1,這時(shí)可以用極大似然估計(jì)或貝葉斯估計(jì)來(lái)估計(jì)結(jié)果為1的概率匆光。

解:
三要素分別是模型套像、策略、算法终息。
模型:伯努利模型夺巩,即定義在取值為0與1的隨機(jī)變量上的概率分布贞让。
策略:極大似然估計(jì)和貝葉斯估計(jì)的策略都是對(duì)數(shù)損失函數(shù),只不過(guò)貝葉斯估計(jì)使用的是結(jié)構(gòu)風(fēng)險(xiǎn)最小化柳譬。
算法:極大似然估計(jì)所使用的算法是求取經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)的極小值喳张,貝葉斯估計(jì)所使用的算法是求取參數(shù)的后驗(yàn)分布,然后計(jì)算其期望征绎。

1.2 原題:通過(guò)經(jīng)驗(yàn)最小化推導(dǎo)極大似然估計(jì)蹲姐,證明模型是條件概率分布磨取,當(dāng)損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)人柿,經(jīng)驗(yàn)最小化等價(jià)于極大似然估計(jì)。
image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末忙厌,一起剝皮案震驚了整個(gè)濱河市凫岖,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌逢净,老刑警劉巖哥放,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異爹土,居然都是意外死亡甥雕,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)胀茵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)社露,“玉大人,你說(shuō)我怎么就攤上這事琼娘∏偷埽” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵脱拼,是天一觀的道長(zhǎng)瞒瘸。 經(jīng)常有香客問(wèn)我,道長(zhǎng)熄浓,這世上最難降的妖魔是什么情臭? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮赌蔑,結(jié)果婚禮上谎柄,老公的妹妹穿的比我還像新娘。我一直安慰自己惯雳,他們只是感情好朝巫,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著石景,像睡著了一般劈猿。 火紅的嫁衣襯著肌膚如雪拙吉。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,754評(píng)論 1 307
  • 那天揪荣,我揣著相機(jī)與錄音筷黔,去河邊找鬼。 笑死仗颈,一個(gè)胖子當(dāng)著我的面吹牛佛舱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播挨决,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼请祖,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了脖祈?” 一聲冷哼從身側(cè)響起肆捕,我...
    開(kāi)封第一講書(shū)人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎盖高,沒(méi)想到半個(gè)月后慎陵,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡喻奥,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年席纽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撞蚕。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡润梯,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出诈豌,到底是詐尸還是另有隱情仆救,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布矫渔,位于F島的核電站彤蔽,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏庙洼。R本人自食惡果不足惜顿痪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望油够。 院中可真熱鬧蚁袭,春花似錦、人聲如沸石咬。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)鬼悠。三九已至删性,卻和暖如春亏娜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蹬挺。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工维贺, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人巴帮。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓溯泣,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親榕茧。 傳聞我的和親對(duì)象是個(gè)殘疾皇子垃沦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容