《統(tǒng)計(jì)學(xué)習(xí)方法》筆記-統(tǒng)計(jì)學(xué)習(xí)方法概論-1

  • 統(tǒng)計(jì)學(xué)習(xí)的定義啊掏、研究對(duì)象與方法
  • 監(jiān)督學(xué)習(xí)浊闪,這是本書(shū)的主要內(nèi)容
  • 統(tǒng)計(jì)學(xué)習(xí)方法的三要素
    • 模型
    • 策略
    • 算法
  • 模型選擇
    • 正則化
    • 交叉驗(yàn)證
    • 學(xué)習(xí)的泛化能力
  • 生成模型與判別模型
  • 監(jiān)督學(xué)習(xí)方法的應(yīng)用
    • 分類(lèi)問(wèn)題
    • 標(biāo)注問(wèn)題
    • 回歸問(wèn)題双炕。

1.1 統(tǒng)計(jì)學(xué)習(xí)

1.統(tǒng)計(jì)學(xué)習(xí)的特點(diǎn)

統(tǒng)計(jì)學(xué)習(xí)(statistical learning)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析的一門(mén)學(xué)科。

統(tǒng)計(jì)學(xué)習(xí)也稱(chēng)為統(tǒng)計(jì)機(jī)器學(xué)習(xí)(statistical machine learning)

統(tǒng)計(jì)學(xué)習(xí)的主要特點(diǎn)是

  1. 統(tǒng)計(jì)學(xué)習(xí)以計(jì)算機(jī)及網(wǎng)絡(luò)為平臺(tái)伙判,是建立在計(jì)算機(jī)及網(wǎng)絡(luò)之上的
  2. 統(tǒng)計(jì)學(xué)習(xí)以數(shù)據(jù)為研究對(duì)象尽狠,是數(shù)據(jù)驅(qū)動(dòng)的學(xué)科
  3. 統(tǒng)計(jì)學(xué)習(xí)的目的是對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析
  4. 統(tǒng)計(jì)學(xué)習(xí)以方法為中心衔憨,統(tǒng)計(jì)學(xué)習(xí)方法構(gòu)建模型并應(yīng)用模型進(jìn)行預(yù)測(cè)與分析
  5. 統(tǒng)計(jì)學(xué)習(xí)是概率論、統(tǒng)計(jì)學(xué)袄膏、信息論践图、計(jì)算理論、最優(yōu)化理論及計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域的交叉學(xué)科沉馆,并且在發(fā)展中逐步形成獨(dú)自的理論體系與方法論码党。

赫爾伯特·西蒙(Herbert A. Simon)曾對(duì)“學(xué)習(xí)”給出以下定義

“如果一個(gè)系統(tǒng)能夠通過(guò)執(zhí)行某個(gè)過(guò)程改進(jìn)它的性能德崭,這就是學(xué)習(xí)∫九蹋”

按照這一觀點(diǎn)眉厨,統(tǒng)計(jì)學(xué)習(xí)就是計(jì)算機(jī)系統(tǒng)通過(guò)運(yùn)用數(shù)據(jù)及統(tǒng)計(jì)方法提高系統(tǒng)性能的機(jī)器學(xué)習(xí)。現(xiàn)在扣讼,當(dāng)人們提及機(jī)器學(xué)習(xí)時(shí)缺猛,往往是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)。

2.統(tǒng)計(jì)學(xué)習(xí)的對(duì)象

統(tǒng)計(jì)學(xué)習(xí)的對(duì)象是數(shù)據(jù)(data)椭符。

它從數(shù)據(jù)出發(fā)荔燎,提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型销钝,發(fā)現(xiàn)數(shù)據(jù)中的知識(shí)有咨,又回到對(duì)數(shù)據(jù)的分析與預(yù)測(cè)中去。作為統(tǒng)計(jì)學(xué)習(xí)的對(duì)象蒸健,數(shù)據(jù)是多樣的座享,包括存在于計(jì)算機(jī)及網(wǎng)絡(luò)上的各種數(shù)字、文字似忧、圖像渣叛、視頻、音頻數(shù)據(jù)以及它們的組合盯捌。

統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類(lèi)數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性淳衙,這是統(tǒng)計(jì)學(xué)習(xí)的前提。這里的同類(lèi)數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù)饺著,例如英文文章箫攀、互聯(lián)網(wǎng)網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)中的數(shù)據(jù)等幼衰。由于它們具有統(tǒng)計(jì)規(guī)律性靴跛,所以可以用概率統(tǒng)計(jì)方法來(lái)加以處理。比如渡嚣,可以用隨機(jī)變量描述數(shù)據(jù)中的特征梢睛,用概率分布描述數(shù)據(jù)的統(tǒng)計(jì)規(guī)律。

在統(tǒng)計(jì)學(xué)習(xí)過(guò)程中识椰,以變量或變量組表示數(shù)據(jù)扬绪。數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類(lèi)型。

離散變量的方法為主裤唠。另外挤牛,本書(shū)只涉及利用數(shù)據(jù)構(gòu)建模型及利用模型對(duì)數(shù)據(jù)進(jìn)行 分析與預(yù)測(cè),對(duì)數(shù)據(jù)的 **觀測(cè)和收集 **等問(wèn)題 不作討論种蘸。

3.統(tǒng)計(jì)學(xué)習(xí)的目的

統(tǒng)計(jì)學(xué)習(xí)用于對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析墓赴,特別是對(duì)未知新數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析竞膳。

  • 對(duì)數(shù)據(jù)的預(yù)測(cè)可以使計(jì)算機(jī)更加智能化,或者說(shuō)使計(jì)算機(jī)的某些性能得到提高
  • 對(duì)數(shù)據(jù)的分析可以讓人們獲取新的知識(shí)诫硕,給人們帶來(lái)新的發(fā)現(xiàn)坦辟。

4.統(tǒng)計(jì)學(xué)習(xí)的方法

統(tǒng)計(jì)學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計(jì)模型從而對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析。

統(tǒng)計(jì)學(xué)習(xí)由

  • 監(jiān)督學(xué)習(xí)(supervised learning)
  • 非監(jiān)督學(xué)習(xí)(unsupervised learning)
  • 半監(jiān)督學(xué)習(xí)(semi-supervised learning)
  • 強(qiáng)化學(xué)習(xí)(reinforcement learning)

本書(shū)主要討論 監(jiān)督學(xué)習(xí)章办,這種情況下統(tǒng)計(jì)學(xué)習(xí)的方法可以概括如下:

  • 從給定的锉走、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(training data)集合出發(fā)藕届,假設(shè)數(shù)據(jù)是獨(dú)立同分布產(chǎn)生的
  • 并且假設(shè)要學(xué)習(xí)的模型屬于某個(gè)函數(shù)的集合挪蹭,稱(chēng)為假設(shè)空間(hypothesis space)
  • 應(yīng)用某個(gè)評(píng)價(jià)準(zhǔn)則(evaluation criterion),從假設(shè)空間中選取一個(gè)最優(yōu)的模型休偶,使它對(duì)已知訓(xùn)練數(shù)據(jù)及未知測(cè)試數(shù)據(jù)(test data)在給定的評(píng)價(jià)準(zhǔn)則下有最優(yōu)的預(yù)測(cè)

最優(yōu)模型的選取由算法實(shí)現(xiàn)

統(tǒng)計(jì)學(xué)習(xí)方法的三要素:模型(model)梁厉、策略(strategy)和算法(algorithm)

  • 模型: 模型的假設(shè)空間
  • 策略: 模型選擇的準(zhǔn)則
  • 算法: 模型學(xué)習(xí)的算法

實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)方法的步驟如下:

  1. 得到一個(gè)有限的訓(xùn)練數(shù)據(jù)集合

  2. 確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合

  1. 確定模型選擇的準(zhǔn)則踏兜,即學(xué)習(xí)的策略
  1. 實(shí)現(xiàn)求解最優(yōu)模型的算法词顾,即學(xué)習(xí)的算法
  1. 通過(guò)學(xué)習(xí)方法選擇最優(yōu)模型
  1. 利用學(xué)習(xí)的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)或分析

本書(shū)以介紹 統(tǒng)計(jì)學(xué)習(xí)方法為主,特別是 監(jiān)督學(xué)習(xí)方法碱妆,主要包括用于分類(lèi)笼裳、標(biāo)注與回歸問(wèn)題的方法抵屿。這些方法在自然語(yǔ)言處理考廉、信息檢索听系、文本數(shù)據(jù)挖掘等領(lǐng)域中有著極其廣泛的應(yīng)用。

5.統(tǒng)計(jì)學(xué)習(xí)的研究

  • 統(tǒng)計(jì)學(xué)習(xí)方法(statistical learning method)
    • 開(kāi)發(fā)新的學(xué)習(xí)方法
  • 統(tǒng)計(jì)學(xué)習(xí)理論(statistical learning theory)
    • 探求統(tǒng)計(jì)學(xué)習(xí)方法的有效性與效率
    • 統(tǒng)計(jì)學(xué)習(xí)的基本理論問(wèn)題
  • 統(tǒng)計(jì)學(xué)習(xí)應(yīng)用(application of statistical learning)
    • 將統(tǒng)計(jì)學(xué)習(xí)方法應(yīng)用到實(shí)際問(wèn)題中去航棱,解決實(shí)際問(wèn)題

6.統(tǒng)計(jì)學(xué)習(xí)的重要性

  • 統(tǒng)計(jì)學(xué)習(xí)是處理海量數(shù)據(jù)的有效方法

  • 統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)智能化的有效手段

  • 統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)科學(xué)發(fā)展的一個(gè)重要組成部分

1.2 監(jiān)督學(xué)習(xí)

  • 監(jiān)督學(xué)習(xí)
  • 非監(jiān)督學(xué)習(xí)
  • 半監(jiān)督學(xué)習(xí)
  • 強(qiáng)化學(xué)習(xí)

本書(shū)主要討論 監(jiān)督學(xué)習(xí) 問(wèn)題。

監(jiān)督學(xué)習(xí)(supervised learning)的 任務(wù) 是學(xué)習(xí)一個(gè)模型萌衬,使模型能夠?qū)θ我饨o定的輸入饮醇,對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè)。

1.2.1 基本概念

輸入空間秕豫、**特征空間 **與 輸出空間

在監(jiān)督學(xué)習(xí)中朴艰,將輸入與輸出所有可能取值的集合分別稱(chēng)為 輸入空間(input space)與輸出空間(output space)

  • 輸入與輸出空間可以是有限元素的集合混移,也可以是整個(gè)歐氏空間

  • 輸入空間與輸出空間可以是同一個(gè)空間祠墅,也可以是不同的空間

  • 但通常輸出空間遠(yuǎn)遠(yuǎn)小于輸入空間

每個(gè)具體的輸入是一個(gè)實(shí)例(instance),通常由 特征向量(feature vector) 表示歌径。這時(shí)毁嗦,所有特征向量存在的空間稱(chēng)為 特征空間(feature space)

模型實(shí)際上都是定義在特征空間上的

輸入回铛、輸出變量用大寫(xiě)字母表示狗准,習(xí)慣上輸入變量寫(xiě)作 X克锣,輸出變量寫(xiě)作 Y

輸入腔长、輸出變量所取的值用小寫(xiě)字母表示袭祟,輸入變量的取值寫(xiě)作 x,輸出變量的取值寫(xiě)作 y捞附。變量可以是標(biāo)量或向量巾乳,都用相同類(lèi)型字母表示。

本書(shū)中向量均為 列向量鸟召,輸入實(shí)例 x 的特征向量記作
x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(i)}, \cdots, x^{(n)}\right)^{\mathrm{T}}
\mathbf{x}^{(\mathrm{i})} 表示 x 的第 i 個(gè)特征胆绊。注意,\mathbf{x}^{(\mathrm{i})}\mathbf{x}_{\mathbf{i}} 不同药版,本書(shū)通常用 \mathbf{x}_{\mathbf{i}} 表示多個(gè)輸入變量中的第 i 個(gè)辑舷,即

x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}

監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)(training data)集合中學(xué)習(xí)模型,對(duì)測(cè)試數(shù)據(jù)(test data)進(jìn)行預(yù)測(cè)槽片。訓(xùn)練數(shù)據(jù)由輸入(或特征向量)與輸出對(duì)組成何缓,訓(xùn)練集通常表示為

T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}

測(cè)試數(shù)據(jù)也由相應(yīng)的輸入與輸出對(duì)組成。輸入與輸出對(duì)又稱(chēng)為 樣本(sample)樣本點(diǎn)还栓。

輸入變量 X 和輸出變量 Y 有不同的類(lèi)型碌廓,可以是 連續(xù) 的,也可以是 離散 的剩盒。

人們根據(jù)輸入谷婆、輸出變量的不同類(lèi)型,對(duì)預(yù)測(cè)任務(wù)給予不同的名稱(chēng)

  • 回歸問(wèn)題: 輸入變量與輸出變量均為連續(xù)變量的預(yù)測(cè)問(wèn)題
  • 分類(lèi)問(wèn)題: 輸出變量為有限個(gè)離散變量的預(yù)測(cè)問(wèn)題
  • 標(biāo)注問(wèn)題: 輸入變量與輸出變量均為變量序列的預(yù)測(cè)問(wèn)題

聯(lián)合概率分布

監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布 \mathrm{P}(\mathrm{X}, \mathrm{Y})辽聊。

\mathrm{P}(\mathrm{X}, \mathrm{Y}) 表示 分布函數(shù)纪挎,或 分布密度函數(shù)。注意跟匆,在學(xué)習(xí)過(guò)程中异袄,假定這一聯(lián)合概率分布存在,但對(duì)學(xué)習(xí)系統(tǒng)來(lái)說(shuō)玛臂,聯(lián)合概率分布的具體定義是未知的烤蜕。訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率分布 \mathrm{P}(\mathrm{X}, \mathrm{Y}) 獨(dú)立同分布產(chǎn)生的。統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律迹冤,XY 具有聯(lián)合概率分布的假設(shè)就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)讽营。

假設(shè)空間

監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)由輸入到輸出的映射,這一映射由模型來(lái)表示泡徙。換句話(huà)說(shuō)橱鹏,學(xué)習(xí)的目的就在于找到最好的這樣的模型。模型屬于由輸入空間到輸出空間的映射的集合,這個(gè)集合就是假設(shè)空間(hypothesis space)蚀瘸。假設(shè)空間的確定意味著學(xué)習(xí)范圍的確定狡蝶。

監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型,由 條件概率分布 \mathrm{P}(\mathrm{Y} | \mathrm{X}) 或 決策函數(shù)(decision function)Y=f(X) 表示贮勃,隨具體學(xué)習(xí)方法而定贪惹。對(duì)具體的輸入進(jìn)行相應(yīng)的輸出預(yù)測(cè)時(shí),寫(xiě)作 \mathrm{P}(\mathrm{y} | \mathrm{x})Y=f(x)寂嘉。

1.2.2 問(wèn)題的形式化

監(jiān)督學(xué)習(xí)利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個(gè)模型奏瞬,再用模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè)(prediction)。

由于在這個(gè)過(guò)程中需要訓(xùn)練數(shù)據(jù)集泉孩,而訓(xùn)練數(shù)據(jù)集往往是人工給出的硼端,所以稱(chēng)為 監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過(guò)程

  • 學(xué)習(xí)系統(tǒng)
  • 預(yù)測(cè)系統(tǒng)
image

圖1.1 監(jiān)督學(xué)習(xí)問(wèn)題

首先給定一個(gè)訓(xùn)練數(shù)據(jù)集

T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}

其中 \left(\mathrm{x}_{\mathrm{i}}, \mathrm{y}_{\mathrm{i}}\right), \quad \mathrm{i}=1,2, \ldots, \mathrm{N}寓搬,稱(chēng)為樣本或樣本點(diǎn)珍昨。\mathbf{x}_{\mathbf{i}} \in \mathbf{X} \subseteq \mathbf{R}_{\mathbf{n}} 輸入的觀測(cè)值,也稱(chēng)為輸入或?qū)嵗?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cmathrm%7By%7D_%7B%5Cmathrm%7Bi%7D%7D%20%5Cin%20%5Cmathcal%7BY%7D" alt="\mathrm{y}_{\mathrm{i}} \in \mathcal{Y}" mathimg="1"> 是輸出的觀測(cè)值句喷,也稱(chēng)為輸出镣典。

監(jiān)督學(xué)習(xí)中,假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)是依聯(lián)合概率分布 \mathrm{P}(\mathrm{X}, \mathrm{Y}) 獨(dú)立同分布產(chǎn)生的唾琼。

在學(xué)習(xí)過(guò)程中兄春,學(xué)習(xí)系統(tǒng)利用給定的訓(xùn)練數(shù)據(jù)集,通過(guò)學(xué)習(xí)(或訓(xùn)練)得到一個(gè)模型锡溯,表示為條件概率分布 \hat{P}(\mathrm{Y} | \mathrm{X}) 或決策函數(shù) \mathrm{Y}=\hat{f}(\mathrm{X})赶舆。條件概率分布 \hat{P}(\mathrm{Y} | \mathrm{X}) 或決策函數(shù) \mathrm{Y}=\hat{f}(\mathrm{X}) 描述輸入與輸出隨機(jī)變量之間的映射關(guān)系。

在預(yù)測(cè)過(guò)程中祭饭,預(yù)測(cè)系統(tǒng)對(duì)于給定的測(cè)試樣本集中的輸入 \mathbf{X}_{\mathbf{N}+1}芜茵,由模型 y_{N+1}=\arg \max _{y_{N+1}} \hat{P}\left(y_{N+1} | x_{N+1}\right)\mathrm{y}_{\mathrm{N}+1}=\hat{\jmath}\left(\mathrm{x}_{\mathrm{N}+1}\right) 給出相應(yīng)的輸出 \mathbf{y}_{\mathrm{N}+1}

在學(xué)習(xí)過(guò)程中倡蝙,學(xué)習(xí)系統(tǒng)(也就是 學(xué)習(xí)算法)試圖通過(guò)訓(xùn)練數(shù)據(jù)集中的樣本 \left(\mathbf{x}_{i}, \quad \mathbf{y}_{i}\right) 帶來(lái)的信息學(xué)習(xí)模型九串。

具體地說(shuō),

  • 對(duì)輸入 \mathbf{X}_{\mathbf{i}}悠咱,一個(gè)具體的模型 y=f(x) 可以產(chǎn)生一個(gè)輸出 \mathrm{f}\left(\mathrm{x}_{\mathrm{i}}\right)
  • 訓(xùn)練數(shù)據(jù)集中對(duì)應(yīng)的輸出是 \mathbf{y}_{\mathrm{i}}
  • 如果這個(gè)模型有很好的預(yù)測(cè)能力蒸辆,訓(xùn)練樣本輸出 \mathbf{y}_{\mathrm{i}} 和模型輸出 \mathrm{f}\left(\mathrm{x}_{\mathrm{i}}\right) 之間的差就應(yīng)該足夠小

學(xué)習(xí)系統(tǒng)通過(guò)不斷的嘗試征炼,選取最好的模型析既,以便對(duì)訓(xùn)練數(shù)據(jù)集有足夠好的預(yù)測(cè),同時(shí)對(duì)未知的測(cè)試數(shù)據(jù)集的預(yù)測(cè)也有盡可能好的推廣谆奥。

1.3 統(tǒng)計(jì)學(xué)習(xí)三要素

統(tǒng)計(jì)學(xué)習(xí)方法都是由模型眼坏、策略和算法構(gòu)成的,即統(tǒng)計(jì)學(xué)習(xí)方法由 三要素 構(gòu)成,可以簡(jiǎn)單地表示為

方法=模型+策略+算法

下面論述監(jiān)督學(xué)習(xí)中的統(tǒng)計(jì)學(xué)習(xí)三要素宰译。非監(jiān)督學(xué)習(xí)檐蚜、強(qiáng)化學(xué)習(xí)也同樣擁有這三要素⊙爻蓿可以說(shuō)構(gòu)建一種統(tǒng)計(jì)學(xué)習(xí)方法就是確定具體的統(tǒng)計(jì)學(xué)習(xí)三要素闯第。

1.3.1 模型

統(tǒng)計(jì)學(xué)習(xí)首要考慮的問(wèn)題是學(xué)習(xí)什么樣的模型。在監(jiān)督學(xué)習(xí)過(guò)程中缀拭,模型就是所要學(xué)習(xí)的 條件概率分布決策函數(shù)咳短。模型的假設(shè)空間(hypothesis space)包含所有可能的條件概率分布或決策函數(shù)。

例如蛛淋,假設(shè)決策函數(shù)是輸入變量的線(xiàn)性函數(shù)咙好,那么模型的假設(shè)空間就是所有這些線(xiàn)性函數(shù)構(gòu)成的函數(shù)集合。假設(shè)空間中的模型一般有無(wú)窮多個(gè)褐荷。

假設(shè)空間用 \mathcal{F} 表示勾效。假設(shè)空間可以定義為決策函數(shù)的集合

\mathcal{F}=\{f | Y=f(X)\}

其中,XY 是定義在輸入空間 x 和輸出空間 \mathcal{Y} 上的變量叛甫。這時(shí) \mathcal{F} 通常是由一個(gè)參數(shù)向量決定的函數(shù)族:

\mathcal{F}=\left\{f | Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}

參數(shù)向量 \theta 取值于 n 維歐氏空間 \mathbf{R}_{\mathrm{n}}层宫,稱(chēng)為參數(shù)空間(parameter space)。假設(shè)空間也可以定義為條件概率的集合

\mathcal{F}=\{P|P(Y | X)\}

其中合溺,XY 是定義在輸入空間 x 和輸出空間上的隨 \mathcal{Y} 機(jī)變量卒密。這時(shí) \mathcal{Y} 通常是由一個(gè)參數(shù)向量決定的條件概率分布族:

\mathcal{F}=\left\{P\left|P_{\theta}(Y | X), \theta \in \mathbf{R}^{n}\right\}\right.

參數(shù)向量 \theta 取值于 n 維歐氏空間 \mathbf{R}_{\mathrm{n}},也稱(chēng)為參數(shù)空間棠赛。

本書(shū)中稱(chēng)由決策函數(shù)表示的模型為 非概率模型哮奇,由條件概率表示的模型為 概率模型

1.3.2 策略

有了模型的假設(shè)空間睛约,統(tǒng)計(jì)學(xué)習(xí)接著需要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型鼎俘。

統(tǒng)計(jì)學(xué)習(xí)的目標(biāo): 從假設(shè)空間中選取最優(yōu)模型

首先引入損失函數(shù)與風(fēng)險(xiǎn)函數(shù)的概念辩涝。

  • 損失函數(shù)度量模型一次預(yù)測(cè)的好壞
  • 風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測(cè)的好壞

1.損失函數(shù)和風(fēng)險(xiǎn)函數(shù)

監(jiān)督學(xué)習(xí)問(wèn)題是在假設(shè)空間 \mathcal{F}m中選取模型 f 作為決策函數(shù)贸伐,對(duì)于給定的輸入 X,由 f(X) 給出相應(yīng)的輸出 Y怔揩,這個(gè)輸出的預(yù)測(cè)值 f(X) 與真實(shí)值 Y 可能一致也可能不一致捉邢,用一個(gè) **損失函數(shù)(loss function) **或 **代價(jià)函數(shù)(cost function) **來(lái)度量預(yù)測(cè)錯(cuò)誤的程度。損失函數(shù)是 f(X)Y 的非負(fù)實(shí)值函數(shù)商膊,記作 \mathbf{L}(\mathbf{Y}, \mathrm{f}(\mathbf{X}))伏伐。

統(tǒng)計(jì)學(xué)習(xí)常用的損失函數(shù)有以下幾種:

  • 0-1 損失函數(shù)(0-1 loss function)

L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right.

  • 平方損失函數(shù)(quadratic loss function)

L(Y, f(X))=(Y-f(X))^{2}

  • 絕對(duì)損失函數(shù)(absolute loss function)

L(Y, f(X))=|Y-f(X)|

  • 對(duì)數(shù)損失函數(shù)(logarithmic loss function)對(duì)數(shù)似然損失函數(shù)(loglikelihood loss function)

L(Y, P(Y | X))=-\log P(Y | X)

損失函數(shù)值越小,模型就越好晕拆。由于模型的輸入藐翎、輸出 (\mathrm{X}, \mathrm{Y}) 是隨機(jī)變量,遵循聯(lián)合分布 \mathrm{P}(\mathrm{X}, \mathrm{Y}),所以損失函數(shù)的期望是
R_{\mathrm{exp}}(f)=E_{p}[L(Y, f(X))]=\int_{X \times y} L(y, f(x)) P(x, y) \mathrmoigmu0u x \mathrmau2c22k y

這是理論上模型 \mathrm{f}(\mathrm{X}) 關(guān)于聯(lián)合分布 \mathrm{P}(\mathrm{X}, \mathrm{Y}) 的平均意義下的損失吝镣,稱(chēng)為 風(fēng)險(xiǎn)函數(shù)(risk function)期望損失(expected loss)堤器。

學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險(xiǎn)最小的模型。由于聯(lián)合分布 \mathrm{P}(\mathrm{X}, \mathrm{Y}) 是未知的末贾,\mathrm{R}_{\mathrm{exp}}(\mathrm{f}) 不能直接計(jì)算闸溃。實(shí)際上,如果知道聯(lián)合分布 \mathrm{P}(\mathrm{X}, \mathrm{Y})拱撵,可以從聯(lián)合分布直接求出條件概率分布 \mathrm{P}(\mathrm{Y} | \mathrm{X})圈暗,也就不需要學(xué)習(xí)了。正因?yàn)椴恢缆?lián)合概率分布裕膀,所以才需要進(jìn)行學(xué)習(xí)员串。

這樣一來(lái),一方面根據(jù)期望風(fēng)險(xiǎn)最小學(xué)習(xí)模型要用到聯(lián)合分布昼扛,另一方面聯(lián)合分布又是未知的寸齐,所以監(jiān)督學(xué)習(xí)就成為一個(gè) 病態(tài)問(wèn)題(ill-formed problem)

給定一個(gè)訓(xùn)練數(shù)據(jù)集

T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}

模型 \mathrm{f}(\mathrm{X}) 關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱(chēng)為 經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)經(jīng)驗(yàn)損失(empirical loss)抄谐,記作 \mathbf{R}_{\mathrm{emp}}

R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)

期望風(fēng)險(xiǎn) \mathrm{R}_{\mathrm{exp}}(\mathrm{f}) 是模型關(guān)于聯(lián)合分布的期望損失渺鹦,經(jīng)驗(yàn)風(fēng)險(xiǎn) \mathrm{R}_{\mathrm{emp}}(\mathrm{f}) 是模型關(guān)于訓(xùn)練樣本集的平均損失。根據(jù)大數(shù)定律蛹含,當(dāng)樣本容量N趨于無(wú)窮時(shí)毅厚,經(jīng)驗(yàn)風(fēng)險(xiǎn) \mathrm{R}_{\mathrm{emp}}(\mathrm{f}) 趨于期望風(fēng)險(xiǎn) \mathrm{R}_{\mathrm{exp}}(\mathrm{f})

這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個(gè)基本策略:

  • 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
  • 結(jié)構(gòu)風(fēng)險(xiǎn)最小化

2.經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)最小化

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization浦箱,ERM)的策略認(rèn)為:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型吸耿。

根據(jù)這一策略,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型就是求解最優(yōu)化問(wèn)題:
\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
其中酷窥,\mathcal{F} 是假設(shè)空間咽安。

當(dāng)樣本容量足夠大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果蓬推,在現(xiàn)實(shí)中被廣泛采用妆棒。比如,極大似然估計(jì)(maximum likelihood estimation)就是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的一個(gè)例子沸伏。

當(dāng)模型是 條件概率 分布糕珊,損失函數(shù)是 對(duì)數(shù)損失函數(shù) 時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于 極大似然估計(jì)毅糟。

但是红选,當(dāng)樣本容量很小時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化學(xué)習(xí)的效果就未必很好留特,會(huì)產(chǎn)生后面將要敘述的 “過(guò)擬合(over-fitting)” 現(xiàn)象纠脾。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization,SRM)是為了防止過(guò)擬合而提出來(lái)的策略蜕青。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化 等價(jià)于 正則化(regularization)苟蹈。

結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng)(regularizer)或罰項(xiàng)(penalty term)。在假設(shè)空間右核、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下慧脱,結(jié)構(gòu)風(fēng)險(xiǎn)的定義是
R_{\mathrm{smn}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
結(jié)構(gòu)風(fēng)險(xiǎn)最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型。所以求最優(yōu)模型贺喝,就是求解最優(yōu)化問(wèn)題:

\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
這樣菱鸥,監(jiān)督學(xué)習(xí)問(wèn)題就變成了 經(jīng)驗(yàn)風(fēng)險(xiǎn)結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù) 的最優(yōu)化問(wèn)題。

經(jīng)驗(yàn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是 最優(yōu)化的目標(biāo)函數(shù)躏鱼。

1.3.3 算法

算法是指學(xué)習(xí)模型的具體計(jì)算方法氮采。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略染苛,從假設(shè)空間中選擇最優(yōu)模型鹊漠,最后需要考慮用什么樣的計(jì)算方法求解最優(yōu)模型。

這時(shí)茶行,統(tǒng)計(jì)學(xué)習(xí)問(wèn)題歸結(jié)為最優(yōu)化問(wèn)題躯概,統(tǒng)計(jì)學(xué)習(xí)的算法成為求解最優(yōu)化問(wèn)題的算法。如果最優(yōu)化問(wèn)題有顯式的解析解畔师,這個(gè)最優(yōu)化問(wèn)題就比較簡(jiǎn)單娶靡。但通常解析解不存在,這就需要用數(shù)值計(jì)算的方法求解看锉。如何保證找到全局最優(yōu)解姿锭,并使求解的過(guò)程非常高效,就成為一個(gè)重要問(wèn)題伯铣。統(tǒng)計(jì)學(xué)習(xí)可以利用已有的最優(yōu)化算法艾凯,有時(shí)也需要開(kāi)發(fā)獨(dú)自的最優(yōu)化算法。

統(tǒng)計(jì)學(xué)習(xí)方法之間的不同懂傀,主要來(lái)自其模型趾诗、策略、算法的不同蹬蚁。確定了模型恃泪、策略、算法犀斋,統(tǒng)計(jì)學(xué)習(xí)的方法也就確定了贝乎。這也就是將其稱(chēng)為統(tǒng)計(jì)學(xué)習(xí)三要素的原因。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末叽粹,一起剝皮案震驚了整個(gè)濱河市览效,隨后出現(xiàn)的幾起案子却舀,更是在濱河造成了極大的恐慌,老刑警劉巖锤灿,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件挽拔,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡但校,警方通過(guò)查閱死者的電腦和手機(jī)螃诅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)状囱,“玉大人术裸,你說(shuō)我怎么就攤上這事⊥ぜ希” “怎么了袭艺?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)叨粘。 經(jīng)常有香客問(wèn)我匹表,道長(zhǎng),這世上最難降的妖魔是什么宣鄙? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任袍镀,我火速辦了婚禮,結(jié)果婚禮上冻晤,老公的妹妹穿的比我還像新娘苇羡。我一直安慰自己,他們只是感情好鼻弧,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布设江。 她就那樣靜靜地躺著,像睡著了一般攘轩。 火紅的嫁衣襯著肌膚如雪叉存。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,258評(píng)論 1 300
  • 那天度帮,我揣著相機(jī)與錄音歼捏,去河邊找鬼。 笑死笨篷,一個(gè)胖子當(dāng)著我的面吹牛瞳秽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播率翅,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼练俐,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了冕臭?” 一聲冷哼從身側(cè)響起腺晾,我...
    開(kāi)封第一講書(shū)人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤燕锥,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后悯蝉,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體归形,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年泉粉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片榴芳。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡嗡靡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出窟感,到底是詐尸還是另有隱情讨彼,我是刑警寧澤,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布柿祈,位于F島的核電站哈误,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏躏嚎。R本人自食惡果不足惜蜜自,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望卢佣。 院中可真熱鬧重荠,春花似錦、人聲如沸虚茶。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)嘹叫。三九已至婆殿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間罩扇,已是汗流浹背婆芦。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留喂饥,地道東北人寞缝。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像仰泻,于是被迫代替她去往敵國(guó)和親荆陆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容