預(yù)備知識(shí)
令 表示輸入數(shù)據(jù)
的數(shù)據(jù)空間, 被稱為輸入空間 (input space).
是一個(gè)映射, 令
表示特征空間 (feature space).
- 數(shù)據(jù)實(shí)例
可以任意對(duì)象, 如文本, 序列, 圖像, 字符串等;
- 對(duì)于給定的數(shù)據(jù)實(shí)例
,
是一個(gè)向量, 被稱為特征向量.
內(nèi)積運(yùn)算 定義為
上的核函數(shù) 為 , 即
令 為輸入空間中包含
個(gè)對(duì)象的數(shù)據(jù)集, 則將
中的點(diǎn)對(duì)間的核函數(shù) (亦稱為相似度函數(shù), 或核) 表示為一個(gè)
的核矩陣, 定義為
核方法避免了顯式地將輸入空間中的每個(gè)點(diǎn) 變換到特征空間中的映射點(diǎn)
, 而是直接通過核矩陣來獲取. 這樣,所有的相關(guān)分析均可轉(zhuǎn)移到對(duì)核矩陣的研究上來. 當(dāng)然, 核矩陣也可以看作對(duì)應(yīng)
個(gè)輸入點(diǎn)的完全圖的帶權(quán)鄰接矩陣.
對(duì)于輸入空間中的任一 , 都被映射到如下函數(shù) (被稱為再生核映射):
其中 代表
中任一參數(shù). 這意味著輸入空間中的每一個(gè)對(duì)象
都映射到一個(gè)特征點(diǎn)
, 該特征點(diǎn)事實(shí)上是一個(gè)函數(shù)
, 代表了該點(diǎn)與輸入空間
中其他點(diǎn)的相似度.
令
代表能夠由特征點(diǎn)的任意子集的線性組合得到的所有函數(shù)點(diǎn)或點(diǎn)的集合.
對(duì)于 為特征空間中任意兩點(diǎn):
定義這兩個(gè)點(diǎn)的內(nèi)積為
易證 是希爾伯特空間,
具有再生性質(zhì) (reproducing property), 即可以通過取
和
的內(nèi)積來計(jì)算一個(gè)函數(shù)
在一個(gè)點(diǎn)
上的值:
由此, 也被稱為再生希爾伯特空間.
再生核映射 將輸入空間映射到一個(gè)可能是無限維的特征空間中, 然而, 給定一個(gè)數(shù)據(jù)集
, 可以只計(jì)算
中的點(diǎn)核, 從而得到一個(gè)有限維的映射, 即定義經(jīng)驗(yàn)核映射
如下:
故而
其中 代表核矩陣
的第
列.
設(shè) 為參數(shù)向量, 基函數(shù)向量為
在統(tǒng)計(jì)學(xué)中, 通常把基于參數(shù)的線性模型稱為參數(shù)模型, 把核模型稱為非參數(shù)模型.
與參數(shù)相關(guān)的非線性模型, 稱為非線性模型 (如層級(jí)模型).
- 線性模型:
- 層級(jí)模型:
其中, 是含有參數(shù)
的基函數(shù).
若基函數(shù) 內(nèi)積運(yùn)算, 則可將線性模型轉(zhuǎn)換為核模型;把
替換為核函數(shù), 則是核模型; 把
當(dāng)作超參數(shù), 則是線性模型.
最小二乘學(xué)習(xí)法 (Least Squares)
模型假設(shè): , 定義損失函數(shù)為
學(xué)習(xí)目標(biāo):
如果使用線性模型的話, 可以轉(zhuǎn)換為
這里 ,
被稱為設(shè)計(jì)矩陣:
由 , 便得出最小二乘解
亦即
其中 表示
的偽逆, 若
可逆時(shí), 有
.
帶有約束條件的最小二乘學(xué)習(xí)法
可微分的凸函數(shù)
和
的約束條件的最小化問題
的拉格朗日對(duì)偶問題, 可以使用拉格朗日乘子 和拉格朗日函數(shù)
采用以下方式進(jìn)行定義:
拉格朗日對(duì)偶問題的 的解, 與原問題的解是一致的.
下面探討線性模型:
的帶約束的最小二乘法.
部分空間約束
約束條件
這里, 滿足
, 表示
的值域
的正交投影矩陣. 約束條件
使得參數(shù)
不會(huì)偏移值域
的范圍外.
該問題的最小二乘解為
約束
約束條件
是以參數(shù)空間的圓點(diǎn)為圓心, 在一定半徑范圍的超球內(nèi)進(jìn)行求解的. 利用其拉格朗日對(duì)偶問題為
該問題的最小二乘解為
矩陣 提高了其正則性, 進(jìn)而可以更穩(wěn)定地進(jìn)行逆矩陣的求解. 因此,
約束的最小二乘法也稱為
正則化的最小二乘法或稱為嶺回歸.
將約束條件改為
稱為一般 約束的最小二乘法. 當(dāng)矩陣
為正定矩陣時(shí),
可以把數(shù)據(jù)限制在橢球內(nèi).
該問題的最小二乘解為
稀疏學(xué)習(xí)
模型假設(shè):
模型假設(shè): , 定義損失函數(shù)為
學(xué)習(xí)目標(biāo):
約束條件為
對(duì)于 范數(shù)的處理,
即使用可微分的二次函數(shù)來控制 范數(shù)
原問題可化為
其中
是對(duì)角元為
的對(duì)角矩陣,
是不依賴于
的常數(shù).
對(duì)于有參數(shù)的線性模型
該問題的最小二乘解為
使用隨機(jī)梯度下降法求解
對(duì)于有參數(shù)的線性模型 , 使用隨機(jī)選擇的樣本
按下式對(duì)其參數(shù)進(jìn)行更新:
為了得到隨機(jī)梯度下降法的稀疏解, 建議在多次進(jìn)行梯度下降的過程中, 對(duì)各個(gè)參數(shù)值 進(jìn)行如下的值域處理
約束的最小二乘法
, 約束條件是
-
,
-
, 有
其中
也就是說, 范數(shù)表示的是非零的向量的元素個(gè)數(shù).
詳細(xì)見彈性網(wǎng)回歸學(xué)習(xí)法.
魯棒學(xué)習(xí)
在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域, 對(duì)異常值也能保持穩(wěn)定定鸟、可靠的性質(zhì), 稱為魯棒性.
當(dāng)訓(xùn)練樣本中混入了異常值時(shí)往往希望采用先除去這些異常值再進(jìn)行學(xué)習(xí)的方法 (異常檢驗(yàn)), 或者采用保留異常值, 但結(jié)果不易受異常值影響的方法 (魯棒學(xué)習(xí)方法).
損失最小化學(xué)習(xí)
最小二乘學(xué)習(xí)中, 對(duì)訓(xùn)練樣本的合理性, 一般使用 損失
來測(cè)定.
這里 為殘差. 但是
損失對(duì)異常值很敏感, 故而可以使用
損失對(duì)殘差的增幅加以抑制
這里 是 Least Absolute 的縮寫.
Huber 損失最小化學(xué)習(xí)
Huber 損失
- 如果殘差的絕對(duì)值 |r| 小于閾值
的話 (即正常值), 上式就變成了
損失;
- 如果殘差的絕對(duì)值 |r| 大于閾值
的話 (即異常值), 上式就變成了
損失, 但是, 為了使與
平滑地連接, 在
損失中減去了常數(shù)
這樣的學(xué)習(xí)方法就是 Huber 損失最小化學(xué)習(xí).