- 統(tǒng)計(jì)學(xué)習(xí)的定義啊掏、研究對(duì)象與方法
- 監(jiān)督學(xué)習(xí)浊闪,這是本書(shū)的主要內(nèi)容
- 統(tǒng)計(jì)學(xué)習(xí)方法的三要素
- 模型
- 策略
- 算法
- 模型選擇
- 正則化
- 交叉驗(yàn)證
- 學(xué)習(xí)的泛化能力
- 生成模型與判別模型
- 監(jiān)督學(xué)習(xí)方法的應(yīng)用
- 分類(lèi)問(wèn)題
- 標(biāo)注問(wèn)題
- 回歸問(wèn)題双炕。
1.1 統(tǒng)計(jì)學(xué)習(xí)
1.統(tǒng)計(jì)學(xué)習(xí)的特點(diǎn)
統(tǒng)計(jì)學(xué)習(xí)(statistical learning)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析的一門(mén)學(xué)科。
統(tǒng)計(jì)學(xué)習(xí)也稱(chēng)為統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statistical machine learning)。
統(tǒng)計(jì)學(xué)習(xí)的主要特點(diǎn)是
- 統(tǒng)計(jì)學(xué)習(xí)以計(jì)算機(jī)及網(wǎng)絡(luò)為平臺(tái)伙判,是建立在計(jì)算機(jī)及網(wǎng)絡(luò)之上的
- 統(tǒng)計(jì)學(xué)習(xí)以數(shù)據(jù)為研究對(duì)象尽狠,是數(shù)據(jù)驅(qū)動(dòng)的學(xué)科
- 統(tǒng)計(jì)學(xué)習(xí)的目的是對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析
- 統(tǒng)計(jì)學(xué)習(xí)以方法為中心衔憨,統(tǒng)計(jì)學(xué)習(xí)方法構(gòu)建模型并應(yīng)用模型進(jìn)行預(yù)測(cè)與分析
- 統(tǒng)計(jì)學(xué)習(xí)是概率論、統(tǒng)計(jì)學(xué)袄膏、信息論践图、計(jì)算理論、最優(yōu)化理論及計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域的交叉學(xué)科沉馆,并且在發(fā)展中逐步形成獨(dú)自的理論體系與方法論码党。
赫爾伯特·西蒙(Herbert A. Simon)曾對(duì)“學(xué)習(xí)”給出以下定義
“如果一個(gè)系統(tǒng)能夠通過(guò)執(zhí)行某個(gè)過(guò)程改進(jìn)它的性能德崭,這就是學(xué)習(xí)∫九蹋”
按照這一觀點(diǎn)眉厨,統(tǒng)計(jì)學(xué)習(xí)就是計(jì)算機(jī)系統(tǒng)通過(guò)運(yùn)用數(shù)據(jù)及統(tǒng)計(jì)方法提高系統(tǒng)性能的機(jī)器學(xué)習(xí)。現(xiàn)在扣讼,當(dāng)人們提及機(jī)器學(xué)習(xí)時(shí)缺猛,往往是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)。
2.統(tǒng)計(jì)學(xué)習(xí)的對(duì)象
統(tǒng)計(jì)學(xué)習(xí)的對(duì)象是數(shù)據(jù)(data)椭符。
它從數(shù)據(jù)出發(fā)荔燎,提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型销钝,發(fā)現(xiàn)數(shù)據(jù)中的知識(shí)有咨,又回到對(duì)數(shù)據(jù)的分析與預(yù)測(cè)中去。作為統(tǒng)計(jì)學(xué)習(xí)的對(duì)象蒸健,數(shù)據(jù)是多樣的座享,包括存在于計(jì)算機(jī)及網(wǎng)絡(luò)上的各種數(shù)字、文字似忧、圖像渣叛、視頻、音頻數(shù)據(jù)以及它們的組合盯捌。
統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類(lèi)數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性淳衙,這是統(tǒng)計(jì)學(xué)習(xí)的前提。這里的同類(lèi)數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù)饺著,例如英文文章箫攀、互聯(lián)網(wǎng)網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)中的數(shù)據(jù)等幼衰。由于它們具有統(tǒng)計(jì)規(guī)律性靴跛,所以可以用概率統(tǒng)計(jì)方法來(lái)加以處理。比如渡嚣,可以用隨機(jī)變量描述數(shù)據(jù)中的特征梢睛,用概率分布描述數(shù)據(jù)的統(tǒng)計(jì)規(guī)律。
在統(tǒng)計(jì)學(xué)習(xí)過(guò)程中识椰,以變量或變量組表示數(shù)據(jù)扬绪。數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類(lèi)型。
離散變量的方法為主裤唠。另外挤牛,本書(shū)只涉及利用數(shù)據(jù)構(gòu)建模型及利用模型對(duì)數(shù)據(jù)進(jìn)行 分析與預(yù)測(cè),對(duì)數(shù)據(jù)的 **觀測(cè)和收集 **等問(wèn)題 不作討論种蘸。
3.統(tǒng)計(jì)學(xué)習(xí)的目的
統(tǒng)計(jì)學(xué)習(xí)用于對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析墓赴,特別是對(duì)未知新數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析竞膳。
- 對(duì)數(shù)據(jù)的預(yù)測(cè)可以使計(jì)算機(jī)更加智能化,或者說(shuō)使計(jì)算機(jī)的某些性能得到提高
- 對(duì)數(shù)據(jù)的分析可以讓人們獲取新的知識(shí)诫硕,給人們帶來(lái)新的發(fā)現(xiàn)坦辟。
4.統(tǒng)計(jì)學(xué)習(xí)的方法
統(tǒng)計(jì)學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計(jì)模型從而對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析。
統(tǒng)計(jì)學(xué)習(xí)由
- 監(jiān)督學(xué)習(xí)(supervised learning)
- 非監(jiān)督學(xué)習(xí)(unsupervised learning)
- 半監(jiān)督學(xué)習(xí)(semi-supervised learning)
- 強(qiáng)化學(xué)習(xí)(reinforcement learning)
本書(shū)主要討論 監(jiān)督學(xué)習(xí)章办,這種情況下統(tǒng)計(jì)學(xué)習(xí)的方法可以概括如下:
- 從給定的锉走、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(training data)集合出發(fā)藕届,假設(shè)數(shù)據(jù)是獨(dú)立同分布產(chǎn)生的
- 并且假設(shè)要學(xué)習(xí)的模型屬于某個(gè)函數(shù)的集合挪蹭,稱(chēng)為假設(shè)空間(hypothesis space)
- 應(yīng)用某個(gè)評(píng)價(jià)準(zhǔn)則(evaluation criterion),從假設(shè)空間中選取一個(gè)最優(yōu)的模型休偶,使它對(duì)已知訓(xùn)練數(shù)據(jù)及未知測(cè)試數(shù)據(jù)(test data)在給定的評(píng)價(jià)準(zhǔn)則下有最優(yōu)的預(yù)測(cè)
最優(yōu)模型的選取由算法實(shí)現(xiàn)
統(tǒng)計(jì)學(xué)習(xí)方法的三要素:模型(model)梁厉、策略(strategy)和算法(algorithm)
- 模型: 模型的假設(shè)空間
- 策略: 模型選擇的準(zhǔn)則
- 算法: 模型學(xué)習(xí)的算法
實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)方法的步驟如下:
得到一個(gè)有限的訓(xùn)練數(shù)據(jù)集合
確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合
- 確定模型選擇的準(zhǔn)則踏兜,即學(xué)習(xí)的策略
- 實(shí)現(xiàn)求解最優(yōu)模型的算法词顾,即學(xué)習(xí)的算法
- 通過(guò)學(xué)習(xí)方法選擇最優(yōu)模型
- 利用學(xué)習(xí)的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)或分析
本書(shū)以介紹 統(tǒng)計(jì)學(xué)習(xí)方法為主,特別是 監(jiān)督學(xué)習(xí)方法碱妆,主要包括用于分類(lèi)笼裳、標(biāo)注與回歸問(wèn)題的方法抵屿。這些方法在自然語(yǔ)言處理考廉、信息檢索听系、文本數(shù)據(jù)挖掘等領(lǐng)域中有著極其廣泛的應(yīng)用。
5.統(tǒng)計(jì)學(xué)習(xí)的研究
- 統(tǒng)計(jì)學(xué)習(xí)方法(statistical learning method)
- 開(kāi)發(fā)新的學(xué)習(xí)方法
- 統(tǒng)計(jì)學(xué)習(xí)理論(statistical learning theory)
- 探求統(tǒng)計(jì)學(xué)習(xí)方法的有效性與效率
- 統(tǒng)計(jì)學(xué)習(xí)的基本理論問(wèn)題
- 統(tǒng)計(jì)學(xué)習(xí)應(yīng)用(application of statistical learning)
- 將統(tǒng)計(jì)學(xué)習(xí)方法應(yīng)用到實(shí)際問(wèn)題中去航棱,解決實(shí)際問(wèn)題
6.統(tǒng)計(jì)學(xué)習(xí)的重要性
統(tǒng)計(jì)學(xué)習(xí)是處理海量數(shù)據(jù)的有效方法
統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)智能化的有效手段
統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)科學(xué)發(fā)展的一個(gè)重要組成部分
1.2 監(jiān)督學(xué)習(xí)
- 監(jiān)督學(xué)習(xí)
- 非監(jiān)督學(xué)習(xí)
- 半監(jiān)督學(xué)習(xí)
- 強(qiáng)化學(xué)習(xí)
本書(shū)主要討論 監(jiān)督學(xué)習(xí) 問(wèn)題。
監(jiān)督學(xué)習(xí)(supervised learning)的 任務(wù) 是學(xué)習(xí)一個(gè)模型萌衬,使模型能夠?qū)θ我饨o定的輸入饮醇,對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè)。
1.2.1 基本概念
輸入空間秕豫、**特征空間 **與 輸出空間
在監(jiān)督學(xué)習(xí)中朴艰,將輸入與輸出所有可能取值的集合分別稱(chēng)為 輸入空間(input space)與輸出空間(output space)。
輸入與輸出空間可以是有限元素的集合混移,也可以是整個(gè)歐氏空間
輸入空間與輸出空間可以是同一個(gè)空間祠墅,也可以是不同的空間
但通常輸出空間遠(yuǎn)遠(yuǎn)小于輸入空間
每個(gè)具體的輸入是一個(gè)實(shí)例(instance),通常由 特征向量(feature vector) 表示歌径。這時(shí)毁嗦,所有特征向量存在的空間稱(chēng)為 特征空間(feature space)。
模型實(shí)際上都是定義在特征空間上的
輸入回铛、輸出變量用大寫(xiě)字母表示狗准,習(xí)慣上輸入變量寫(xiě)作 克锣,輸出變量寫(xiě)作
。
輸入腔长、輸出變量所取的值用小寫(xiě)字母表示袭祟,輸入變量的取值寫(xiě)作 ,輸出變量的取值寫(xiě)作
捞附。變量可以是標(biāo)量或向量巾乳,都用相同類(lèi)型字母表示。
本書(shū)中向量均為 列向量鸟召,輸入實(shí)例 的特征向量記作
表示
的第
個(gè)特征胆绊。注意,
與
不同药版,本書(shū)通常用
表示多個(gè)輸入變量中的第
個(gè)辑舷,即
監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)(training data)集合中學(xué)習(xí)模型,對(duì)測(cè)試數(shù)據(jù)(test data)進(jìn)行預(yù)測(cè)槽片。訓(xùn)練數(shù)據(jù)由輸入(或特征向量)與輸出對(duì)組成何缓,訓(xùn)練集通常表示為
測(cè)試數(shù)據(jù)也由相應(yīng)的輸入與輸出對(duì)組成。輸入與輸出對(duì)又稱(chēng)為 樣本(sample) 或 樣本點(diǎn)还栓。
輸入變量 X 和輸出變量 有不同的類(lèi)型碌廓,可以是 連續(xù) 的,也可以是 離散 的剩盒。
人們根據(jù)輸入谷婆、輸出變量的不同類(lèi)型,對(duì)預(yù)測(cè)任務(wù)給予不同的名稱(chēng)
- 回歸問(wèn)題: 輸入變量與輸出變量均為連續(xù)變量的預(yù)測(cè)問(wèn)題
- 分類(lèi)問(wèn)題: 輸出變量為有限個(gè)離散變量的預(yù)測(cè)問(wèn)題
- 標(biāo)注問(wèn)題: 輸入變量與輸出變量均為變量序列的預(yù)測(cè)問(wèn)題
聯(lián)合概率分布
監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布 辽聊。
表示 分布函數(shù)纪挎,或 分布密度函數(shù)。注意跟匆,在學(xué)習(xí)過(guò)程中异袄,假定這一聯(lián)合概率分布存在,但對(duì)學(xué)習(xí)系統(tǒng)來(lái)說(shuō)玛臂,聯(lián)合概率分布的具體定義是未知的烤蜕。訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率分布
獨(dú)立同分布產(chǎn)生的。統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律迹冤,
和
具有聯(lián)合概率分布的假設(shè)就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)讽营。
假設(shè)空間
監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)由輸入到輸出的映射,這一映射由模型來(lái)表示泡徙。換句話(huà)說(shuō)橱鹏,學(xué)習(xí)的目的就在于找到最好的這樣的模型。模型屬于由輸入空間到輸出空間的映射的集合,這個(gè)集合就是假設(shè)空間(hypothesis space)蚀瘸。假設(shè)空間的確定意味著學(xué)習(xí)范圍的確定狡蝶。
監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型,由 條件概率分布 或 決策函數(shù)(decision function)
表示贮勃,隨具體學(xué)習(xí)方法而定贪惹。對(duì)具體的輸入進(jìn)行相應(yīng)的輸出預(yù)測(cè)時(shí),寫(xiě)作
或
寂嘉。
1.2.2 問(wèn)題的形式化
監(jiān)督學(xué)習(xí)利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個(gè)模型奏瞬,再用模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè)(prediction)。
由于在這個(gè)過(guò)程中需要訓(xùn)練數(shù)據(jù)集泉孩,而訓(xùn)練數(shù)據(jù)集往往是人工給出的硼端,所以稱(chēng)為 監(jiān)督學(xué)習(xí)。
監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過(guò)程
- 學(xué)習(xí)系統(tǒng)
- 預(yù)測(cè)系統(tǒng)
圖1.1 監(jiān)督學(xué)習(xí)問(wèn)題
首先給定一個(gè)訓(xùn)練數(shù)據(jù)集
其中 寓搬,稱(chēng)為樣本或樣本點(diǎn)珍昨。
輸入的觀測(cè)值,也稱(chēng)為輸入或?qū)嵗?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cmathrm%7By%7D_%7B%5Cmathrm%7Bi%7D%7D%20%5Cin%20%5Cmathcal%7BY%7D" alt="\mathrm{y}_{\mathrm{i}} \in \mathcal{Y}" mathimg="1"> 是輸出的觀測(cè)值句喷,也稱(chēng)為輸出镣典。
監(jiān)督學(xué)習(xí)中,假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)是依聯(lián)合概率分布 獨(dú)立同分布產(chǎn)生的唾琼。
在學(xué)習(xí)過(guò)程中兄春,學(xué)習(xí)系統(tǒng)利用給定的訓(xùn)練數(shù)據(jù)集,通過(guò)學(xué)習(xí)(或訓(xùn)練)得到一個(gè)模型锡溯,表示為條件概率分布 或決策函數(shù)
赶舆。條件概率分布
或決策函數(shù)
描述輸入與輸出隨機(jī)變量之間的映射關(guān)系。
在預(yù)測(cè)過(guò)程中祭饭,預(yù)測(cè)系統(tǒng)對(duì)于給定的測(cè)試樣本集中的輸入 芜茵,由模型
或
給出相應(yīng)的輸出
。
在學(xué)習(xí)過(guò)程中倡蝙,學(xué)習(xí)系統(tǒng)(也就是 學(xué)習(xí)算法)試圖通過(guò)訓(xùn)練數(shù)據(jù)集中的樣本 帶來(lái)的信息學(xué)習(xí)模型九串。
具體地說(shuō),
- 對(duì)輸入
悠咱,一個(gè)具體的模型
可以產(chǎn)生一個(gè)輸出
- 訓(xùn)練數(shù)據(jù)集中對(duì)應(yīng)的輸出是
- 如果這個(gè)模型有很好的預(yù)測(cè)能力蒸辆,訓(xùn)練樣本輸出
和模型輸出
之間的差就應(yīng)該足夠小
學(xué)習(xí)系統(tǒng)通過(guò)不斷的嘗試征炼,選取最好的模型析既,以便對(duì)訓(xùn)練數(shù)據(jù)集有足夠好的預(yù)測(cè),同時(shí)對(duì)未知的測(cè)試數(shù)據(jù)集的預(yù)測(cè)也有盡可能好的推廣谆奥。
1.3 統(tǒng)計(jì)學(xué)習(xí)三要素
統(tǒng)計(jì)學(xué)習(xí)方法都是由模型眼坏、策略和算法構(gòu)成的,即統(tǒng)計(jì)學(xué)習(xí)方法由 三要素 構(gòu)成,可以簡(jiǎn)單地表示為
方法=模型+策略+算法
下面論述監(jiān)督學(xué)習(xí)中的統(tǒng)計(jì)學(xué)習(xí)三要素宰译。非監(jiān)督學(xué)習(xí)檐蚜、強(qiáng)化學(xué)習(xí)也同樣擁有這三要素⊙爻蓿可以說(shuō)構(gòu)建一種統(tǒng)計(jì)學(xué)習(xí)方法就是確定具體的統(tǒng)計(jì)學(xué)習(xí)三要素闯第。
1.3.1 模型
統(tǒng)計(jì)學(xué)習(xí)首要考慮的問(wèn)題是學(xué)習(xí)什么樣的模型。在監(jiān)督學(xué)習(xí)過(guò)程中缀拭,模型就是所要學(xué)習(xí)的 條件概率分布 或 決策函數(shù)咳短。模型的假設(shè)空間(hypothesis space)包含所有可能的條件概率分布或決策函數(shù)。
例如蛛淋,假設(shè)決策函數(shù)是輸入變量的線(xiàn)性函數(shù)咙好,那么模型的假設(shè)空間就是所有這些線(xiàn)性函數(shù)構(gòu)成的函數(shù)集合。假設(shè)空間中的模型一般有無(wú)窮多個(gè)褐荷。
假設(shè)空間用 表示勾效。假設(shè)空間可以定義為決策函數(shù)的集合
其中, 和
是定義在輸入空間
和輸出空間
上的變量叛甫。這時(shí)
通常是由一個(gè)參數(shù)向量決定的函數(shù)族:
參數(shù)向量 取值于
維歐氏空間
层宫,稱(chēng)為參數(shù)空間(parameter space)。假設(shè)空間也可以定義為條件概率的集合
其中合溺, 和
是定義在輸入空間
和輸出空間上的隨
機(jī)變量卒密。這時(shí)
通常是由一個(gè)參數(shù)向量決定的條件概率分布族:
參數(shù)向量 取值于
維歐氏空間
,也稱(chēng)為參數(shù)空間棠赛。
本書(shū)中稱(chēng)由決策函數(shù)表示的模型為 非概率模型哮奇,由條件概率表示的模型為 概率模型。
1.3.2 策略
有了模型的假設(shè)空間睛约,統(tǒng)計(jì)學(xué)習(xí)接著需要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型鼎俘。
統(tǒng)計(jì)學(xué)習(xí)的目標(biāo): 從假設(shè)空間中選取最優(yōu)模型。
首先引入損失函數(shù)與風(fēng)險(xiǎn)函數(shù)的概念辩涝。
- 損失函數(shù)度量模型一次預(yù)測(cè)的好壞
- 風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測(cè)的好壞
1.損失函數(shù)和風(fēng)險(xiǎn)函數(shù)
監(jiān)督學(xué)習(xí)問(wèn)題是在假設(shè)空間 m中選取模型
作為決策函數(shù)贸伐,對(duì)于給定的輸入
,由
給出相應(yīng)的輸出
怔揩,這個(gè)輸出的預(yù)測(cè)值
與真實(shí)值
可能一致也可能不一致捉邢,用一個(gè) **損失函數(shù)(loss function) **或 **代價(jià)函數(shù)(cost function) **來(lái)度量預(yù)測(cè)錯(cuò)誤的程度。損失函數(shù)是
和
的非負(fù)實(shí)值函數(shù)商膊,記作
伏伐。
統(tǒng)計(jì)學(xué)習(xí)常用的損失函數(shù)有以下幾種:
- 0-1 損失函數(shù)(0-1 loss function)
- 平方損失函數(shù)(quadratic loss function)
- 絕對(duì)損失函數(shù)(absolute loss function)
- 對(duì)數(shù)損失函數(shù)(logarithmic loss function)或 對(duì)數(shù)似然損失函數(shù)(loglikelihood loss function)
損失函數(shù)值越小,模型就越好晕拆。由于模型的輸入藐翎、輸出 是隨機(jī)變量,遵循聯(lián)合分布
,所以損失函數(shù)的期望是
這是理論上模型 關(guān)于聯(lián)合分布
的平均意義下的損失吝镣,稱(chēng)為 風(fēng)險(xiǎn)函數(shù)(risk function) 或 期望損失(expected loss)堤器。
學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險(xiǎn)最小的模型。由于聯(lián)合分布 是未知的末贾,
不能直接計(jì)算闸溃。實(shí)際上,如果知道聯(lián)合分布
拱撵,可以從聯(lián)合分布直接求出條件概率分布
圈暗,也就不需要學(xué)習(xí)了。正因?yàn)椴恢缆?lián)合概率分布裕膀,所以才需要進(jìn)行學(xué)習(xí)员串。
這樣一來(lái),一方面根據(jù)期望風(fēng)險(xiǎn)最小學(xué)習(xí)模型要用到聯(lián)合分布昼扛,另一方面聯(lián)合分布又是未知的寸齐,所以監(jiān)督學(xué)習(xí)就成為一個(gè) 病態(tài)問(wèn)題(ill-formed problem)。
給定一個(gè)訓(xùn)練數(shù)據(jù)集
模型 關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱(chēng)為 經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)或 經(jīng)驗(yàn)損失(empirical loss)抄谐,記作
:
期望風(fēng)險(xiǎn) 是模型關(guān)于聯(lián)合分布的期望損失渺鹦,經(jīng)驗(yàn)風(fēng)險(xiǎn)
是模型關(guān)于訓(xùn)練樣本集的平均損失。根據(jù)大數(shù)定律蛹含,當(dāng)樣本容量N趨于無(wú)窮時(shí)毅厚,經(jīng)驗(yàn)風(fēng)險(xiǎn)
趨于期望風(fēng)險(xiǎn)
。
這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個(gè)基本策略:
- 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
- 結(jié)構(gòu)風(fēng)險(xiǎn)最小化
2.經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)最小化
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization浦箱,ERM)的策略認(rèn)為:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型吸耿。
根據(jù)這一策略,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型就是求解最優(yōu)化問(wèn)題:
其中酷窥, 是假設(shè)空間咽安。
當(dāng)樣本容量足夠大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果蓬推,在現(xiàn)實(shí)中被廣泛采用妆棒。比如,極大似然估計(jì)(maximum likelihood estimation)就是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的一個(gè)例子沸伏。
當(dāng)模型是 條件概率 分布糕珊,損失函數(shù)是 對(duì)數(shù)損失函數(shù) 時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于 極大似然估計(jì)毅糟。
但是红选,當(dāng)樣本容量很小時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化學(xué)習(xí)的效果就未必很好留特,會(huì)產(chǎn)生后面將要敘述的 “過(guò)擬合(over-fitting)” 現(xiàn)象纠脾。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization,SRM)是為了防止過(guò)擬合而提出來(lái)的策略蜕青。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化 等價(jià)于 正則化(regularization)苟蹈。
結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term)。在假設(shè)空間右核、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下慧脱,結(jié)構(gòu)風(fēng)險(xiǎn)的定義是
結(jié)構(gòu)風(fēng)險(xiǎn)最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型。所以求最優(yōu)模型贺喝,就是求解最優(yōu)化問(wèn)題:
這樣菱鸥,監(jiān)督學(xué)習(xí)問(wèn)題就變成了 經(jīng)驗(yàn)風(fēng)險(xiǎn) 或 結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù) 的最優(yōu)化問(wèn)題。
經(jīng)驗(yàn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是 最優(yōu)化的目標(biāo)函數(shù)躏鱼。
1.3.3 算法
算法是指學(xué)習(xí)模型的具體計(jì)算方法氮采。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略染苛,從假設(shè)空間中選擇最優(yōu)模型鹊漠,最后需要考慮用什么樣的計(jì)算方法求解最優(yōu)模型。
這時(shí)茶行,統(tǒng)計(jì)學(xué)習(xí)問(wèn)題歸結(jié)為最優(yōu)化問(wèn)題躯概,統(tǒng)計(jì)學(xué)習(xí)的算法成為求解最優(yōu)化問(wèn)題的算法。如果最優(yōu)化問(wèn)題有顯式的解析解畔师,這個(gè)最優(yōu)化問(wèn)題就比較簡(jiǎn)單娶靡。但通常解析解不存在,這就需要用數(shù)值計(jì)算的方法求解看锉。如何保證找到全局最優(yōu)解姿锭,并使求解的過(guò)程非常高效,就成為一個(gè)重要問(wèn)題伯铣。統(tǒng)計(jì)學(xué)習(xí)可以利用已有的最優(yōu)化算法艾凯,有時(shí)也需要開(kāi)發(fā)獨(dú)自的最優(yōu)化算法。
統(tǒng)計(jì)學(xué)習(xí)方法之間的不同懂傀,主要來(lái)自其模型趾诗、策略、算法的不同蹬蚁。確定了模型恃泪、策略、算法犀斋,統(tǒng)計(jì)學(xué)習(xí)的方法也就確定了贝乎。這也就是將其稱(chēng)為統(tǒng)計(jì)學(xué)習(xí)三要素的原因。