《統(tǒng)計(jì)學(xué)習(xí)方法》筆記-統(tǒng)計(jì)學(xué)習(xí)方法概論-1

統(tǒng)計(jì)學(xué)習(xí)的定義啊掏、研究對(duì)象與方法
監(jiān)督學(xué)習(xí)浊闪，這是本書(shū)的主要內(nèi)容
統(tǒng)計(jì)學(xué)習(xí)方法的三要素
- 模型
- 策略
- 算法
模型選擇
- 正則化
- 交叉驗(yàn)證
- 學(xué)習(xí)的泛化能力
生成模型與判別模型
監(jiān)督學(xué)習(xí)方法的應(yīng)用
- 分類(lèi)問(wèn)題
- 標(biāo)注問(wèn)題
- 回歸問(wèn)題双炕。

1.1　統(tǒng)計(jì)學(xué)習(xí)

1．統(tǒng)計(jì)學(xué)習(xí)的特點(diǎn)

統(tǒng)計(jì)學(xué)習(xí)（statistical learning）是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析的一門(mén)學(xué)科。

統(tǒng)計(jì)學(xué)習(xí)也稱(chēng)為統(tǒng)計(jì)機(jī)器學(xué)習(xí)（statistical machine learning）。

統(tǒng)計(jì)學(xué)習(xí)的主要特點(diǎn)是

統(tǒng)計(jì)學(xué)習(xí)以計(jì)算機(jī)及網(wǎng)絡(luò)為平臺(tái)伙判，是建立在計(jì)算機(jī)及網(wǎng)絡(luò)之上的
統(tǒng)計(jì)學(xué)習(xí)以數(shù)據(jù)為研究對(duì)象尽狠，是數(shù)據(jù)驅(qū)動(dòng)的學(xué)科
統(tǒng)計(jì)學(xué)習(xí)的目的是對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析
統(tǒng)計(jì)學(xué)習(xí)以方法為中心衔憨，統(tǒng)計(jì)學(xué)習(xí)方法構(gòu)建模型并應(yīng)用模型進(jìn)行預(yù)測(cè)與分析
統(tǒng)計(jì)學(xué)習(xí)是概率論、統(tǒng)計(jì)學(xué)袄膏、信息論践图、計(jì)算理論、最優(yōu)化理論及計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域的交叉學(xué)科沉馆，并且在發(fā)展中逐步形成獨(dú)自的理論體系與方法論码党。

赫爾伯特·西蒙（Herbert A. Simon）曾對(duì)“學(xué)習(xí)”給出以下定義

“如果一個(gè)系統(tǒng)能夠通過(guò)執(zhí)行某個(gè)過(guò)程改進(jìn)它的性能德崭，這就是學(xué)習(xí)∫九蹋”

按照這一觀點(diǎn)眉厨，統(tǒng)計(jì)學(xué)習(xí)就是計(jì)算機(jī)系統(tǒng)通過(guò)運(yùn)用數(shù)據(jù)及統(tǒng)計(jì)方法提高系統(tǒng)性能的機(jī)器學(xué)習(xí)。現(xiàn)在扣讼，當(dāng)人們提及機(jī)器學(xué)習(xí)時(shí)缺猛，往往是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)。

2．統(tǒng)計(jì)學(xué)習(xí)的對(duì)象

統(tǒng)計(jì)學(xué)習(xí)的對(duì)象是數(shù)據(jù)（data）椭符。

它從數(shù)據(jù)出發(fā)荔燎，提取數(shù)據(jù)的特征，抽象出數(shù)據(jù)的模型销钝，發(fā)現(xiàn)數(shù)據(jù)中的知識(shí)有咨，又回到對(duì)數(shù)據(jù)的分析與預(yù)測(cè)中去。作為統(tǒng)計(jì)學(xué)習(xí)的對(duì)象蒸健，數(shù)據(jù)是多樣的座享，包括存在于計(jì)算機(jī)及網(wǎng)絡(luò)上的各種數(shù)字、文字似忧、圖像渣叛、視頻、音頻數(shù)據(jù)以及它們的組合盯捌。

統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類(lèi)數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性淳衙，這是統(tǒng)計(jì)學(xué)習(xí)的前提。這里的同類(lèi)數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù)饺著，例如英文文章箫攀、互聯(lián)網(wǎng)網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)中的數(shù)據(jù)等幼衰。由于它們具有統(tǒng)計(jì)規(guī)律性靴跛，所以可以用概率統(tǒng)計(jì)方法來(lái)加以處理。比如渡嚣，可以用隨機(jī)變量描述數(shù)據(jù)中的特征梢睛，用概率分布描述數(shù)據(jù)的統(tǒng)計(jì)規(guī)律。

在統(tǒng)計(jì)學(xué)習(xí)過(guò)程中识椰，以變量或變量組表示數(shù)據(jù)扬绪。數(shù)據(jù)分為由連續(xù)變量和離散變量表示的類(lèi)型。

離散變量的方法為主裤唠。另外挤牛，本書(shū)只涉及利用數(shù)據(jù)構(gòu)建模型及利用模型對(duì)數(shù)據(jù)進(jìn)行 分析與預(yù)測(cè)，對(duì)數(shù)據(jù)的 **觀測(cè)和收集 **等問(wèn)題 不作討論种蘸。

3．統(tǒng)計(jì)學(xué)習(xí)的目的

統(tǒng)計(jì)學(xué)習(xí)用于對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析墓赴，特別是對(duì)未知新數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析竞膳。

對(duì)數(shù)據(jù)的預(yù)測(cè)可以使計(jì)算機(jī)更加智能化，或者說(shuō)使計(jì)算機(jī)的某些性能得到提高
對(duì)數(shù)據(jù)的分析可以讓人們獲取新的知識(shí)诫硕，給人們帶來(lái)新的發(fā)現(xiàn)坦辟。

4．統(tǒng)計(jì)學(xué)習(xí)的方法

統(tǒng)計(jì)學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計(jì)模型從而對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析。

統(tǒng)計(jì)學(xué)習(xí)由

監(jiān)督學(xué)習(xí)（supervised learning）
非監(jiān)督學(xué)習(xí)（unsupervised learning）
半監(jiān)督學(xué)習(xí)（semi-supervised learning）
強(qiáng)化學(xué)習(xí)（reinforcement learning）

本書(shū)主要討論 監(jiān)督學(xué)習(xí)章办，這種情況下統(tǒng)計(jì)學(xué)習(xí)的方法可以概括如下：

從給定的锉走、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)（training data）集合出發(fā)藕届，假設(shè)數(shù)據(jù)是獨(dú)立同分布產(chǎn)生的
并且假設(shè)要學(xué)習(xí)的模型屬于某個(gè)函數(shù)的集合挪蹭，稱(chēng)為假設(shè)空間（hypothesis space）
應(yīng)用某個(gè)評(píng)價(jià)準(zhǔn)則（evaluation criterion），從假設(shè)空間中選取一個(gè)最優(yōu)的模型休偶，使它對(duì)已知訓(xùn)練數(shù)據(jù)及未知測(cè)試數(shù)據(jù)（test data）在給定的評(píng)價(jià)準(zhǔn)則下有最優(yōu)的預(yù)測(cè)

最優(yōu)模型的選取由算法實(shí)現(xiàn)

統(tǒng)計(jì)學(xué)習(xí)方法的三要素：模型（model）梁厉、策略（strategy）和算法（algorithm）

模型：模型的假設(shè)空間
策略：模型選擇的準(zhǔn)則
算法：模型學(xué)習(xí)的算法

實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)方法的步驟如下：

得到一個(gè)有限的訓(xùn)練數(shù)據(jù)集合
確定包含所有可能的模型的假設(shè)空間，即學(xué)習(xí)模型的集合

確定模型選擇的準(zhǔn)則踏兜，即學(xué)習(xí)的策略

實(shí)現(xiàn)求解最優(yōu)模型的算法词顾，即學(xué)習(xí)的算法

通過(guò)學(xué)習(xí)方法選擇最優(yōu)模型

利用學(xué)習(xí)的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)或分析

本書(shū)以介紹 統(tǒng)計(jì)學(xué)習(xí)方法為主，特別是 監(jiān)督學(xué)習(xí)方法碱妆，主要包括用于分類(lèi)笼裳、標(biāo)注與回歸問(wèn)題的方法抵屿。這些方法在自然語(yǔ)言處理考廉、信息檢索听系、文本數(shù)據(jù)挖掘等領(lǐng)域中有著極其廣泛的應(yīng)用。

5．統(tǒng)計(jì)學(xué)習(xí)的研究

統(tǒng)計(jì)學(xué)習(xí)方法（statistical learning method）
- 開(kāi)發(fā)新的學(xué)習(xí)方法
統(tǒng)計(jì)學(xué)習(xí)理論（statistical learning theory）
- 探求統(tǒng)計(jì)學(xué)習(xí)方法的有效性與效率
- 統(tǒng)計(jì)學(xué)習(xí)的基本理論問(wèn)題
統(tǒng)計(jì)學(xué)習(xí)應(yīng)用（application of statistical learning）
- 將統(tǒng)計(jì)學(xué)習(xí)方法應(yīng)用到實(shí)際問(wèn)題中去航棱，解決實(shí)際問(wèn)題

6．統(tǒng)計(jì)學(xué)習(xí)的重要性

統(tǒng)計(jì)學(xué)習(xí)是處理海量數(shù)據(jù)的有效方法
統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)智能化的有效手段
統(tǒng)計(jì)學(xué)習(xí)是計(jì)算機(jī)科學(xué)發(fā)展的一個(gè)重要組成部分

1.2　監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)
非監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)
強(qiáng)化學(xué)習(xí)

本書(shū)主要討論 監(jiān)督學(xué)習(xí) 問(wèn)題。

監(jiān)督學(xué)習(xí)（supervised learning）的 任務(wù) 是學(xué)習(xí)一個(gè)模型萌衬，使模型能夠?qū)θ我饨o定的輸入饮醇，對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè)。

1.2.1　基本概念

輸入空間秕豫、特征空間與輸出空間

在監(jiān)督學(xué)習(xí)中朴艰，將輸入與輸出所有可能取值的集合分別稱(chēng)為 輸入空間（input space）與輸出空間（output space）。

輸入與輸出空間可以是有限元素的集合混移，也可以是整個(gè)歐氏空間
輸入空間與輸出空間可以是同一個(gè)空間祠墅，也可以是不同的空間
但通常輸出空間遠(yuǎn)遠(yuǎn)小于輸入空間

每個(gè)具體的輸入是一個(gè)實(shí)例（instance），通常由 特征向量（feature vector） 表示歌径。這時(shí)毁嗦，所有特征向量存在的空間稱(chēng)為 特征空間（feature space）。

模型實(shí)際上都是定義在特征空間上的

輸入回铛、輸出變量用大寫(xiě)字母表示狗准，習(xí)慣上輸入變量寫(xiě)作 $X$ 克锣，輸出變量寫(xiě)作 $Y$ 。

輸入腔长、輸出變量所取的值用小寫(xiě)字母表示袭祟，輸入變量的取值寫(xiě)作 $x$ ，輸出變量的取值寫(xiě)作 $y$ 捞附。變量可以是標(biāo)量或向量巾乳，都用相同類(lèi)型字母表示。

本書(shū)中向量均為 列向量鸟召，輸入實(shí)例 $x$ 的特征向量記作
$x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(i)}, \cdots, x^{(n)}\right)^{\mathrm{T}}$
$\mathbf{x}^{(\mathrm{i})}$ 表示 $x$ 的第 $i$ 個(gè)特征胆绊。注意， $\mathbf{x}^{(\mathrm{i})}$ 與 $\mathbf{x}_{\mathbf{i}}$ 不同药版，本書(shū)通常用 $\mathbf{x}_{\mathbf{i}}$ 表示多個(gè)輸入變量中的第 $i$ 個(gè)辑舷，即

$x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$

監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)（training data）集合中學(xué)習(xí)模型，對(duì)測(cè)試數(shù)據(jù)（test data）進(jìn)行預(yù)測(cè)槽片。訓(xùn)練數(shù)據(jù)由輸入（或特征向量）與輸出對(duì)組成何缓，訓(xùn)練集通常表示為

$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$

測(cè)試數(shù)據(jù)也由相應(yīng)的輸入與輸出對(duì)組成。輸入與輸出對(duì)又稱(chēng)為 樣本（sample） 或 樣本點(diǎn)还栓。

輸入變量 X 和輸出變量 $Y$ 有不同的類(lèi)型碌廓，可以是 連續(xù) 的，也可以是離散的剩盒。

人們根據(jù)輸入谷婆、輸出變量的不同類(lèi)型，對(duì)預(yù)測(cè)任務(wù)給予不同的名稱(chēng)

回歸問(wèn)題: 輸入變量與輸出變量均為連續(xù)變量的預(yù)測(cè)問(wèn)題
分類(lèi)問(wèn)題: 輸出變量為有限個(gè)離散變量的預(yù)測(cè)問(wèn)題
標(biāo)注問(wèn)題: 輸入變量與輸出變量均為變量序列的預(yù)測(cè)問(wèn)題

聯(lián)合概率分布

監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布 $\mathrm{P}(\mathrm{X}, \mathrm{Y})$ 辽聊。

$\mathrm{P}(\mathrm{X}, \mathrm{Y})$ 表示 分布函數(shù)纪挎，或 分布密度函數(shù)。注意跟匆，在學(xué)習(xí)過(guò)程中异袄，假定這一聯(lián)合概率分布存在，但對(duì)學(xué)習(xí)系統(tǒng)來(lái)說(shuō)玛臂，聯(lián)合概率分布的具體定義是未知的烤蜕。訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率分布 $\mathrm{P}(\mathrm{X}, \mathrm{Y})$ 獨(dú)立同分布產(chǎn)生的。統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律迹冤， $X$ 和 $Y$ 具有聯(lián)合概率分布的假設(shè)就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)讽营。

假設(shè)空間

監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)由輸入到輸出的映射，這一映射由模型來(lái)表示泡徙。換句話(huà)說(shuō)橱鹏，學(xué)習(xí)的目的就在于找到最好的這樣的模型。模型屬于由輸入空間到輸出空間的映射的集合，這個(gè)集合就是假設(shè)空間（hypothesis space）蚀瘸。假設(shè)空間的確定意味著學(xué)習(xí)范圍的確定狡蝶。

監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型，由 條件概率分布 $\mathrm{P}(\mathrm{Y} | \mathrm{X})$ 或決策函數(shù)（decision function） $Y=f(X)$ 表示贮勃，隨具體學(xué)習(xí)方法而定贪惹。對(duì)具體的輸入進(jìn)行相應(yīng)的輸出預(yù)測(cè)時(shí)，寫(xiě)作 $\mathrm{P}(\mathrm{y} | \mathrm{x})$ 或 $Y=f(x)$ 寂嘉。

1.2.2　問(wèn)題的形式化

監(jiān)督學(xué)習(xí)利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個(gè)模型奏瞬，再用模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè)（prediction）。

由于在這個(gè)過(guò)程中需要訓(xùn)練數(shù)據(jù)集泉孩，而訓(xùn)練數(shù)據(jù)集往往是人工給出的硼端，所以稱(chēng)為 監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過(guò)程

學(xué)習(xí)系統(tǒng)
預(yù)測(cè)系統(tǒng)

image

圖1.1　監(jiān)督學(xué)習(xí)問(wèn)題

首先給定一個(gè)訓(xùn)練數(shù)據(jù)集

$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$

其中 $\left(\mathrm{x}_{\mathrm{i}}, \mathrm{y}_{\mathrm{i}}\right), \quad \mathrm{i}=1,2, \ldots, \mathrm{N}$ 寓搬，稱(chēng)為樣本或樣本點(diǎn)珍昨。 $\mathbf{x}_{\mathbf{i}} \in \mathbf{X} \subseteq \mathbf{R}_{\mathbf{n}}$ 輸入的觀測(cè)值，也稱(chēng)為輸入或?qū)嵗?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cmathrm%7By%7D_%7B%5Cmathrm%7Bi%7D%7D%20%5Cin%20%5Cmathcal%7BY%7D" alt="\mathrm{y}_{\mathrm{i}} \in \mathcal{Y}" mathimg="1"> 是輸出的觀測(cè)值句喷，也稱(chēng)為輸出镣典。

監(jiān)督學(xué)習(xí)中，假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)是依聯(lián)合概率分布 $\mathrm{P}(\mathrm{X}, \mathrm{Y})$ 獨(dú)立同分布產(chǎn)生的唾琼。

在學(xué)習(xí)過(guò)程中兄春，學(xué)習(xí)系統(tǒng)利用給定的訓(xùn)練數(shù)據(jù)集，通過(guò)學(xué)習(xí)（或訓(xùn)練）得到一個(gè)模型锡溯，表示為條件概率分布 $\hat{P}(\mathrm{Y} | \mathrm{X})$ 或決策函數(shù) $\mathrm{Y}=\hat{f}(\mathrm{X})$ 赶舆。條件概率分布 $\hat{P}(\mathrm{Y} | \mathrm{X})$ 或決策函數(shù) $\mathrm{Y}=\hat{f}(\mathrm{X})$ 描述輸入與輸出隨機(jī)變量之間的映射關(guān)系。

在預(yù)測(cè)過(guò)程中祭饭，預(yù)測(cè)系統(tǒng)對(duì)于給定的測(cè)試樣本集中的輸入 $\mathbf{X}_{\mathbf{N}+1}$ 芜茵，由模型 $y_{N+1}=\arg \max _{y_{N+1}} \hat{P}\left(y_{N+1} | x_{N+1}\right)$ 或 $\mathrm{y}_{\mathrm{N}+1}=\hat{\jmath}\left(\mathrm{x}_{\mathrm{N}+1}\right)$ 給出相應(yīng)的輸出 $\mathbf{y}_{\mathrm{N}+1}$ 。

在學(xué)習(xí)過(guò)程中倡蝙，學(xué)習(xí)系統(tǒng)（也就是 學(xué)習(xí)算法）試圖通過(guò)訓(xùn)練數(shù)據(jù)集中的樣本 $\left(\mathbf{x}_{i}, \quad \mathbf{y}_{i}\right)$ 帶來(lái)的信息學(xué)習(xí)模型九串。

具體地說(shuō)，

對(duì)輸入 $\mathbf{X}_{\mathbf{i}}$ 悠咱，一個(gè)具體的模型 $y=f(x)$ 可以產(chǎn)生一個(gè)輸出 $\mathrm{f}\left(\mathrm{x}_{\mathrm{i}}\right)$
訓(xùn)練數(shù)據(jù)集中對(duì)應(yīng)的輸出是 $\mathbf{y}_{\mathrm{i}}$
如果這個(gè)模型有很好的預(yù)測(cè)能力蒸辆，訓(xùn)練樣本輸出 $\mathbf{y}_{\mathrm{i}}$ 和模型輸出 $\mathrm{f}\left(\mathrm{x}_{\mathrm{i}}\right)$ 之間的差就應(yīng)該足夠小

學(xué)習(xí)系統(tǒng)通過(guò)不斷的嘗試征炼，選取最好的模型析既，以便對(duì)訓(xùn)練數(shù)據(jù)集有足夠好的預(yù)測(cè)，同時(shí)對(duì)未知的測(cè)試數(shù)據(jù)集的預(yù)測(cè)也有盡可能好的推廣谆奥。

1.3　統(tǒng)計(jì)學(xué)習(xí)三要素

統(tǒng)計(jì)學(xué)習(xí)方法都是由模型眼坏、策略和算法構(gòu)成的，即統(tǒng)計(jì)學(xué)習(xí)方法由 三要素 構(gòu)成，可以簡(jiǎn)單地表示為

方法＝模型＋策略＋算法

下面論述監(jiān)督學(xué)習(xí)中的統(tǒng)計(jì)學(xué)習(xí)三要素宰译。非監(jiān)督學(xué)習(xí)檐蚜、強(qiáng)化學(xué)習(xí)也同樣擁有這三要素⊙爻蓿可以說(shuō)構(gòu)建一種統(tǒng)計(jì)學(xué)習(xí)方法就是確定具體的統(tǒng)計(jì)學(xué)習(xí)三要素闯第。

1.3.1　模型

統(tǒng)計(jì)學(xué)習(xí)首要考慮的問(wèn)題是學(xué)習(xí)什么樣的模型。在監(jiān)督學(xué)習(xí)過(guò)程中缀拭，模型就是所要學(xué)習(xí)的 條件概率分布 或 決策函數(shù)咳短。模型的假設(shè)空間（hypothesis space）包含所有可能的條件概率分布或決策函數(shù)。

例如蛛淋，假設(shè)決策函數(shù)是輸入變量的線(xiàn)性函數(shù)咙好，那么模型的假設(shè)空間就是所有這些線(xiàn)性函數(shù)構(gòu)成的函數(shù)集合。假設(shè)空間中的模型一般有無(wú)窮多個(gè)褐荷。

假設(shè)空間用 $\mathcal{F}$ 表示勾效。假設(shè)空間可以定義為決策函數(shù)的集合

$\mathcal{F}=\{f | Y=f(X)\}$

其中， $X$ 和 $Y$ 是定義在輸入空間 $x$ 和輸出空間 $\mathcal{Y}$ 上的變量叛甫。這時(shí) $\mathcal{F}$ 通常是由一個(gè)參數(shù)向量決定的函數(shù)族：

$\mathcal{F}=\left\{f | Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}$

參數(shù)向量 $\theta$ 取值于 $n$ 維歐氏空間 $\mathbf{R}_{\mathrm{n}}$ 层宫，稱(chēng)為參數(shù)空間（parameter space）。假設(shè)空間也可以定義為條件概率的集合

$\mathcal{F}=\{P|P(Y | X)\}$

其中合溺， $X$ 和 $Y$ 是定義在輸入空間 $x$ 和輸出空間上的隨 $\mathcal{Y}$ 機(jī)變量卒密。這時(shí) $\mathcal{Y}$ 通常是由一個(gè)參數(shù)向量決定的條件概率分布族：

$\mathcal{F}=\left\{P\left|P_{\theta}(Y | X), \theta \in \mathbf{R}^{n}\right\}\right.$

參數(shù)向量 $\theta$ 取值于 $n$ 維歐氏空間 $\mathbf{R}_{\mathrm{n}}$ ，也稱(chēng)為參數(shù)空間棠赛。

本書(shū)中稱(chēng)由決策函數(shù)表示的模型為 非概率模型哮奇，由條件概率表示的模型為 概率模型。

1.3.2　策略

有了模型的假設(shè)空間睛约，統(tǒng)計(jì)學(xué)習(xí)接著需要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型鼎俘。

統(tǒng)計(jì)學(xué)習(xí)的目標(biāo): 從假設(shè)空間中選取最優(yōu)模型。

首先引入損失函數(shù)與風(fēng)險(xiǎn)函數(shù)的概念辩涝。

損失函數(shù)度量模型一次預(yù)測(cè)的好壞
風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測(cè)的好壞

1．損失函數(shù)和風(fēng)險(xiǎn)函數(shù)

監(jiān)督學(xué)習(xí)問(wèn)題是在假設(shè)空間 $\mathcal{F}$ m中選取模型 $f$ 作為決策函數(shù)贸伐，對(duì)于給定的輸入 $X$ ，由 $f(X)$ 給出相應(yīng)的輸出 $Y$ 怔揩，這個(gè)輸出的預(yù)測(cè)值 $f(X)$ 與真實(shí)值 $Y$ 可能一致也可能不一致捉邢，用一個(gè) **損失函數(shù)（loss function） **或 **代價(jià)函數(shù)（cost function） **來(lái)度量預(yù)測(cè)錯(cuò)誤的程度。損失函數(shù)是 $f(X)$ 和 $Y$ 的非負(fù)實(shí)值函數(shù)商膊，記作 $\mathbf{L}(\mathbf{Y}, \mathrm{f}(\mathbf{X}))$ 伏伐。

統(tǒng)計(jì)學(xué)習(xí)常用的損失函數(shù)有以下幾種：

0-1 損失函數(shù)（0-1 loss function）

$L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right.$

平方損失函數(shù)（quadratic loss function）

$L(Y, f(X))=(Y-f(X))^{2}$

絕對(duì)損失函數(shù)（absolute loss function）

$L(Y, f(X))=|Y-f(X)|$

對(duì)數(shù)損失函數(shù)（logarithmic loss function）或 對(duì)數(shù)似然損失函數(shù)（loglikelihood loss function）

$L(Y, P(Y | X))=-\log P(Y | X)$

損失函數(shù)值越小，模型就越好晕拆。由于模型的輸入藐翎、輸出 $(\mathrm{X}, \mathrm{Y})$ 是隨機(jī)變量，遵循聯(lián)合分布 $\mathrm{P}(\mathrm{X}, \mathrm{Y})$ ，所以損失函數(shù)的期望是
$R_{\mathrm{exp}}(f)=E_{p}[L(Y, f(X))]=\int_{X \times y} L(y, f(x)) P(x, y) \mathrmoigmu0u x \mathrmau2c22k y$

這是理論上模型 $\mathrm{f}(\mathrm{X})$ 關(guān)于聯(lián)合分布 $\mathrm{P}(\mathrm{X}, \mathrm{Y})$ 的平均意義下的損失吝镣，稱(chēng)為 風(fēng)險(xiǎn)函數(shù)（risk function） 或 期望損失（expected loss）堤器。

學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險(xiǎn)最小的模型。由于聯(lián)合分布 $\mathrm{P}(\mathrm{X}, \mathrm{Y})$ 是未知的末贾， $\mathrm{R}_{\mathrm{exp}}(\mathrm{f})$ 不能直接計(jì)算闸溃。實(shí)際上，如果知道聯(lián)合分布 $\mathrm{P}(\mathrm{X}, \mathrm{Y})$ 拱撵，可以從聯(lián)合分布直接求出條件概率分布 $\mathrm{P}(\mathrm{Y} | \mathrm{X})$ 圈暗，也就不需要學(xué)習(xí)了。正因?yàn)椴恢缆?lián)合概率分布裕膀，所以才需要進(jìn)行學(xué)習(xí)员串。

這樣一來(lái)，一方面根據(jù)期望風(fēng)險(xiǎn)最小學(xué)習(xí)模型要用到聯(lián)合分布昼扛，另一方面聯(lián)合分布又是未知的寸齐，所以監(jiān)督學(xué)習(xí)就成為一個(gè) 病態(tài)問(wèn)題（ill-formed problem）。

給定一個(gè)訓(xùn)練數(shù)據(jù)集

$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$

模型 $\mathrm{f}(\mathrm{X})$ 關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱(chēng)為 經(jīng)驗(yàn)風(fēng)險(xiǎn)（empirical risk）或 經(jīng)驗(yàn)損失（empirical loss）抄谐，記作 $\mathbf{R}_{\mathrm{emp}}$ ：

$R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$

期望風(fēng)險(xiǎn) $\mathrm{R}_{\mathrm{exp}}(\mathrm{f})$ 是模型關(guān)于聯(lián)合分布的期望損失渺鹦，經(jīng)驗(yàn)風(fēng)險(xiǎn) $\mathrm{R}_{\mathrm{emp}}(\mathrm{f})$ 是模型關(guān)于訓(xùn)練樣本集的平均損失。根據(jù)大數(shù)定律蛹含，當(dāng)樣本容量N趨于無(wú)窮時(shí)毅厚，經(jīng)驗(yàn)風(fēng)險(xiǎn) $\mathrm{R}_{\mathrm{emp}}(\mathrm{f})$ 趨于期望風(fēng)險(xiǎn) $\mathrm{R}_{\mathrm{exp}}(\mathrm{f})$ 。

這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個(gè)基本策略：

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
結(jié)構(gòu)風(fēng)險(xiǎn)最小化

2．經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)最小化

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化（empirical risk minimization浦箱，ERM）的策略認(rèn)為：經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型吸耿。

根據(jù)這一策略，按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型就是求解最優(yōu)化問(wèn)題：
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
其中酷窥， $\mathcal{F}$ 是假設(shè)空間咽安。

當(dāng)樣本容量足夠大時(shí)，經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果蓬推，在現(xiàn)實(shí)中被廣泛采用妆棒。比如，極大似然估計(jì)（maximum likelihood estimation）就是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的一個(gè)例子沸伏。

當(dāng)模型是 條件概率 分布糕珊，損失函數(shù)是 對(duì)數(shù)損失函數(shù) 時(shí)，經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于 極大似然估計(jì)毅糟。

但是红选，當(dāng)樣本容量很小時(shí)，經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化學(xué)習(xí)的效果就未必很好留特，會(huì)產(chǎn)生后面將要敘述的 “過(guò)擬合(over-fitting)” 現(xiàn)象纠脾。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化（structural risk minimization，SRM）是為了防止過(guò)擬合而提出來(lái)的策略蜕青。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化 等價(jià)于 正則化（regularization）苟蹈。

結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加上表示模型復(fù)雜度的正則化項(xiàng)（regularizer）或罰項(xiàng)（penalty term）。在假設(shè)空間右核、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下慧脱，結(jié)構(gòu)風(fēng)險(xiǎn)的定義是
$R_{\mathrm{smn}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
結(jié)構(gòu)風(fēng)險(xiǎn)最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小的模型是最優(yōu)的模型。所以求最優(yōu)模型贺喝，就是求解最優(yōu)化問(wèn)題：

$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
這樣菱鸥，監(jiān)督學(xué)習(xí)問(wèn)題就變成了 經(jīng)驗(yàn)風(fēng)險(xiǎn) 或 結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù) 的最優(yōu)化問(wèn)題。

經(jīng)驗(yàn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是 最優(yōu)化的目標(biāo)函數(shù)躏鱼。

1.3.3　算法

算法是指學(xué)習(xí)模型的具體計(jì)算方法氮采。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集，根據(jù)學(xué)習(xí)策略染苛，從假設(shè)空間中選擇最優(yōu)模型鹊漠，最后需要考慮用什么樣的計(jì)算方法求解最優(yōu)模型。

這時(shí)茶行，統(tǒng)計(jì)學(xué)習(xí)問(wèn)題歸結(jié)為最優(yōu)化問(wèn)題躯概，統(tǒng)計(jì)學(xué)習(xí)的算法成為求解最優(yōu)化問(wèn)題的算法。如果最優(yōu)化問(wèn)題有顯式的解析解畔师，這個(gè)最優(yōu)化問(wèn)題就比較簡(jiǎn)單娶靡。但通常解析解不存在，這就需要用數(shù)值計(jì)算的方法求解看锉。如何保證找到全局最優(yōu)解姿锭，并使求解的過(guò)程非常高效，就成為一個(gè)重要問(wèn)題伯铣。統(tǒng)計(jì)學(xué)習(xí)可以利用已有的最優(yōu)化算法艾凯，有時(shí)也需要開(kāi)發(fā)獨(dú)自的最優(yōu)化算法。

統(tǒng)計(jì)學(xué)習(xí)方法之間的不同懂傀，主要來(lái)自其模型趾诗、策略、算法的不同蹬蚁。確定了模型恃泪、策略、算法犀斋，統(tǒng)計(jì)學(xué)習(xí)的方法也就確定了贝乎。這也就是將其稱(chēng)為統(tǒng)計(jì)學(xué)習(xí)三要素的原因。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末叽粹，一起剝皮案震驚了整個(gè)濱河市览效，隨后出現(xiàn)的幾起案子却舀，更是在濱河造成了極大的恐慌，老刑警劉巖锤灿，帶你破解...
沈念sama閱讀 216,997評(píng)論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件挽拔，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡但校，警方通過(guò)查閱死者的電腦和手機(jī)螃诅，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,603評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)状囱，“玉大人术裸，你說(shuō)我怎么就攤上這事⊥ぜ希” “怎么了袭艺？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,359評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)叨粘。經(jīng)常有香客問(wèn)我匹表，道長(zhǎng)，這世上最難降的妖魔是什么宣鄙？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,309評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任袍镀，我火速辦了婚禮，結(jié)果婚禮上冻晤，老公的妹妹穿的比我還像新娘苇羡。我一直安慰自己，他們只是感情好鼻弧，可當(dāng)我...
茶點(diǎn)故事閱讀 67,346評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布设江。她就那樣靜靜地躺著，像睡著了一般攘轩。火紅的嫁衣襯著肌膚如雪叉存。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,258評(píng)論 1贊 300
城市分裂傳說(shuō)
那天度帮，我揣著相機(jī)與錄音歼捏，去河邊找鬼。笑死笨篷，一個(gè)胖子當(dāng)著我的面吹牛瞳秽，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播率翅，決...
沈念sama閱讀 40,122評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼练俐，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了冕臭？” 一聲冷哼從身側(cè)響起腺晾，我...
開(kāi)封第一講書(shū)人閱讀 38,970評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤燕锥，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后悯蝉，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體归形，經(jīng)...
沈念sama閱讀 45,403評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,596評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年泉粉，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片榴芳。...
茶點(diǎn)故事閱讀 39,769評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡嗡靡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出窟感，到底是詐尸還是另有隱情讨彼，我是刑警寧澤，帶...
沈念sama閱讀 35,464評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布柿祈，位于F島的核電站哈误，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏躏嚎。R本人自食惡果不足惜蜜自，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,075評(píng)論 3贊 327
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望卢佣。院中可真熱鬧重荠，春花似錦、人聲如沸虚茶。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,705評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)嘹叫。三九已至婆殿，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間罩扇，已是汗流浹背婆芦。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,848評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留喂饥，地道東北人寞缝。一個(gè)月前我還...
沈念sama閱讀 47,831評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像仰泻，于是被迫代替她去往敵國(guó)和親荆陆。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,678評(píng)論 2贊 354

《統(tǒng)計(jì)學(xué)習(xí)方法》筆記-統(tǒng)計(jì)學(xué)習(xí)方法概論-1

1.1 統(tǒng)計(jì)學(xué)習(xí)

1．統(tǒng)計(jì)學(xué)習(xí)的特點(diǎn)

2．統(tǒng)計(jì)學(xué)習(xí)的對(duì)象

3．統(tǒng)計(jì)學(xué)習(xí)的目的

4．統(tǒng)計(jì)學(xué)習(xí)的方法

5．統(tǒng)計(jì)學(xué)習(xí)的研究

6．統(tǒng)計(jì)學(xué)習(xí)的重要性

1.2 監(jiān)督學(xué)習(xí)

1.2.1 基本概念

輸入空間秕豫、**特征空間 **與 輸出空間

聯(lián)合概率分布

假設(shè)空間

1.2.2 問(wèn)題的形式化

1.3 統(tǒng)計(jì)學(xué)習(xí)三要素

1.3.1 模型

1.3.2 策略

1．損失函數(shù)和風(fēng)險(xiǎn)函數(shù)

2．經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化與結(jié)構(gòu)風(fēng)險(xiǎn)最小化

1.3.3 算法

推薦閱讀更多精彩內(nèi)容

1.1　統(tǒng)計(jì)學(xué)習(xí)

1.2　監(jiān)督學(xué)習(xí)

1.2.1　基本概念

輸入空間秕豫、特征空間與輸出空間

1.2.2　問(wèn)題的形式化

1.3　統(tǒng)計(jì)學(xué)習(xí)三要素

1.3.1　模型

1.3.2　策略

1.3.3　算法