1. 最小二乘學(xué)習(xí)法
最小二乘學(xué)習(xí)法(后續(xù)簡(jiǎn)稱二乘法)是對(duì)模型輸出和訓(xùn)練集輸出的殘差的平方和最小時(shí)的參數(shù)進(jìn)行學(xué)習(xí):
優(yōu)化目標(biāo):
二乘法也稱L2損失最小化學(xué)習(xí)法.
線性模型訓(xùn)練樣本的殘差平方
表示如下:
其中, 是訓(xùn)練輸出的n維行向量,
是基函數(shù)的nxb設(shè)計(jì)矩陣:
也是輸入數(shù)據(jù)的基函數(shù)向量向量組成的列向量矩陣.
求平方差的參數(shù)向量
的偏微分:
上式推導(dǎo):
常用的矩陣求導(dǎo)公式:
- 改寫為向量積
![]()
2.展開多項(xiàng)式
- 對(duì)第二項(xiàng)求關(guān)于
的導(dǎo)數(shù):
根據(jù)矩陣求導(dǎo)公式:
故
![]()
- 對(duì)第三項(xiàng)求
的導(dǎo)數(shù):
根據(jù)矩陣求導(dǎo)公式:
故
第一項(xiàng)求的導(dǎo)數(shù)為0, 故:
得證.
時(shí)
取得最小值, 此時(shí)最小二乘解滿足
解得:
廣義逆矩陣: 是對(duì)逆矩陣的推廣, 只有方陣, 非奇異矩陣才有逆矩陣, 單矩形矩陣或奇異矩陣都可以定義廣義逆矩陣.
令廣義逆矩陣為:
, 則可寫為:
2. 最小二乘解的性質(zhì)
補(bǔ)充知識(shí): 奇異值分解
矩陣A(
)的SVD定義為:
奇異值在主對(duì)角線上. U和V均為酋矩陣, 滿足
,
SVD分解步驟:
①對(duì)(
)方陣(做特征分解:
, 所有特征向量組成V矩陣, V中的每個(gè)特征向量
為右奇異向量
②對(duì)(
)方陣做特征分解:
, 所有特征向量組成U矩陣, U中的每個(gè)特征向量
為右奇異向量
③奇異值矩陣為對(duì)角矩陣, 每個(gè)奇異值
,
為左奇異矩陣
中奇異向量對(duì)應(yīng)的特征值
設(shè)計(jì)矩陣(線性模型的基函數(shù)矩陣)的奇異值分解:
分別稱為奇異值, 左奇異向量, 右奇異向量.
- 奇異值非負(fù)
- 奇異向量滿足正交性
的廣義逆矩陣:
是標(biāo)量
的廣義逆矩陣,
最小二乘解表示為:
模型輸出向量變換為列向量:
因此, 是
的正交投影矩陣, 最小二乘法輸出向量
是值域
的正交投影得到的.
帶入真實(shí)函數(shù)中的參數(shù):
可知, 真的輸出值向量就存在于中
結(jié)論: 用最小二乘法的向量若是由的正投影得到的, 則可以有效去除y中的噪音.
噪聲期望E為0是, 就是真是參數(shù)
的無偏估計(jì):
漸近無偏性:
增加訓(xùn)練樣本n, 上式會(huì)向著模型中最優(yōu)參數(shù)方向收斂的性質(zhì)
補(bǔ)充知識(shí): 投影矩陣
- 投影到向量
向量b在向量a上的投影, 其中
(a,b均為向量)
求解:
設(shè)b在a直線上的投影為, 作直線a的垂線直線e, 則e為向量b到向量p的最短距離, 且
.
![]()
- 投影到子空間
若投影p, 向量b, 矩陣P滿足, 則稱P為投影矩陣. 將
改寫一下,
, 可將投影向量看做秩為1的投影矩陣P.
- 投影矩陣的兩個(gè)典型的性質(zhì)
① P是一個(gè)對(duì)稱矩陣
②它的平方等于它自身:P2=P
3. 帶約束的最小二乘
- L2約束也稱L2正則化, 回歸問題里也叫嶺回歸(Ridge Regression),也叫權(quán)重衰減(weight decay), 可改善模型的過擬合.
- L1約束也叫"稀疏規(guī)則算子"(Lasso regularization), 模型參數(shù)太多時(shí), 模型求解耗時(shí)太多, 稀疏學(xué)習(xí)可將大部分參數(shù)置為0, 從而快速求解.
L1和L2約束二乘的參數(shù)空間:
1. L2約束二乘
約束條件如下:
L2參數(shù)空間, 是一個(gè)參數(shù)空間原點(diǎn)為圓心,R為半徑內(nèi)的圓(一般為超球):
引入拉格朗日對(duì)偶問題:
利用拉格朗日對(duì)偶問題, 求解:
的最優(yōu)解問題, 可得到最優(yōu)化問題的解, 上式中拉格朗日待定因子
的解由圓半徑R決定
簡(jiǎn)化版(不由R決定):
上式表示對(duì)樣本擬合程度, 與
組合得到最小值, 防止過擬合
L2約束的LS關(guān)于的微分可通過下式求解:
上文已經(jīng)求過:
根據(jù)矩陣求導(dǎo)公式:
綜合(2)(3)求(1)中關(guān)于的微分:
令關(guān)于的導(dǎo)數(shù)為0, L2約束的LS的解
為:
上式結(jié)論:
- 將矩陣
相加提高其正則性, 進(jìn)而更穩(wěn)定地進(jìn)行逆矩陣求解.
- L2約束的LS也稱為L(zhǎng)2正則化的LS, 式(1)中的
稱為正則項(xiàng),
為正則化參數(shù)
- L2正則化有時(shí)也稱嶺回歸
將設(shè)計(jì)矩陣做奇異值分解:
帶入上上式, 則L2約束的LS解表示為:
上式結(jié)論:
-
時(shí), L2約束的LS蛻化為一般的LS
- 設(shè)計(jì)矩陣
計(jì)算條件惡劣,包含極小的奇異值
時(shí),
變得極大, 訓(xùn)練輸出y的噪聲會(huì)增加
- 分母
中加入正的常數(shù)
, 避免
過大, 進(jìn)而可防止過擬合
拓展: 更一般L2約束的LS
更一般的L2約束LS使用正則化矩陣G, 可得到更一般的表示:
問題表示:
求解:
更一般的L2約束的LS解求解過程, 和標(biāo)準(zhǔn)L2約束的LS大體相同:
- 參數(shù)空間:
矩陣G對(duì)稱正定時(shí),將數(shù)據(jù)限制在橢圓區(qū)域內(nèi). 下圖為更一般的L2約束的LS參數(shù)空間:
模型選擇
- 部分空間約束或L2約束的LS, 都過分依賴正交投影矩陣P和 正則化參數(shù)λ的選擇
- 選擇合適的P和λ至關(guān)重要
采用不同的輸入樣本, 決定算法中各個(gè)參數(shù)值的過程稱為模型選擇
2. L1約束二乘
L1約束二乘的參數(shù)空間:
稀疏學(xué)習(xí)中常用L1進(jìn)行條件約束:
其中,
再回顧L1和L2約束二乘的參數(shù)空間:
以含參線性模型為例對(duì)上圖做分析:
- 訓(xùn)練誤差
是關(guān)于
的向下的二次凸函數(shù), 因此
在參數(shù)空間內(nèi)有橢圓狀等高線, 底部是最小二乘解
-
:橢圓等高線和圓周交點(diǎn)是L2約束LS的解
, 即
-Constrained Least Squares
-
:橢圓等高線和菱形的角的焦點(diǎn)是L1約束LS的解
, L1約束LS的解一定位于參數(shù)的軸上
L1約束二乘求解
L1范數(shù)包含原點(diǎn)處不可微分的絕對(duì)值, 故不能像L2約束那樣簡(jiǎn)單求解:
下面通過利用拉格朗日對(duì)偶問題求解, 考慮L1正則化的最優(yōu)化問題:
L1范數(shù)原點(diǎn)不能微分, 用微分的二次函數(shù)控制:
函數(shù)如圖:
L2正則化LS一般表達(dá)式:
線性模型的解
:
現(xiàn)在的解的情況下阶界,絕對(duì)值函數(shù)也是與二次函數(shù)的上界相外切的婚肆,因此彪蓬,
是成立的。另外硝全,
是
為最小的時(shí)候取到的役电,
也是成立的。由于
是J的上界, 因此
也是成立的蜀撑, 綜上可得:
可見, 更新后的解比現(xiàn)在的解
更收斂, 具體如下圖所示:
給定適當(dāng)?shù)某跏贾捣磸?fù)更新這個(gè)解, l1約束二乘的解就可使用l2約束二乘法來求得.
3.Lp約束二乘
范數(shù):
時(shí)稱最大值范數(shù):
p=0時(shí)L_0范數(shù)表示非零向量元素個(gè)數(shù):
范數(shù)的單位球(R=1):
分析:
-
時(shí),坐標(biāo)軸上呈現(xiàn)有峰值的尖形
-
時(shí),單位球呈現(xiàn)凸形
稀疏解存在的特殊條件:
1.約束空間為凸形(非凸優(yōu)化困難)
2.坐標(biāo)軸上呈現(xiàn)有峰值的尖形
就像上圖展示的那樣,在坐標(biāo)軸上呈有峰值的尖形是存在稀疏解的秘訣剩彬。另一方面酷麦,滿足約束條件的空間如果不是凸型的話,可能存在局部最優(yōu)解喉恋,但是最優(yōu)化工作就會(huì)變得異常艱難沃饶。因此母廷,當(dāng)p=1時(shí)是稀疏解存在的唯一的凸型,由此可知糊肤,L1約束的最小二乘學(xué)習(xí)法是非常特殊的一種學(xué)習(xí)方法琴昆。
滿足Lp范數(shù)的約束條件的空間性質(zhì):
4. 彈性網(wǎng)絡(luò)(L1+L2)
L1約束的限制:
- 參數(shù)b比訓(xùn)練樣本n多時(shí), 線性模型可選擇的最大特征數(shù)被局限為n
- 線性模型中形成集群構(gòu)造(有多個(gè)基函數(shù)相似的集合)時(shí),
LS選擇一個(gè)忽略其它, 核模型輸入樣本是簇構(gòu)造是更易形成集群構(gòu)造
- 參數(shù)b比樣本n少時(shí),
的通用性比
更差
解決方案是L1+L2, 這個(gè)方法就是利用L1+L2范數(shù)的凸結(jié)合來進(jìn)行約束的:
這里, 滿足
的標(biāo)量,
時(shí), L1+L2約束變?yōu)長(zhǎng)1約束;
時(shí), L1+L2約束變?yōu)長(zhǎng)2約束;
時(shí),
在參數(shù)軸上保持尖形.
時(shí), L1+L2范數(shù)的單位球如下圖所示(黑實(shí)線):
由圖可見, 時(shí)L1+L2范數(shù)的單位球和
范數(shù)的單位球形狀完全相同, 然而, 如果用放大鏡放大角的部分, 會(huì)發(fā)現(xiàn)
范數(shù)的單位球像L2那樣平滑, 但是L1+L2范數(shù)的單位球則像L1范數(shù)那樣呈尖形.
因此L1+L2范數(shù)約束也會(huì)想L1范數(shù)約束那樣容易求得稀疏解.
此外, 另外,即使參數(shù)b比訓(xùn)練樣本數(shù)n還要多馆揉,L1+L2約束的最小二乘學(xué)習(xí)法也可以擁有n個(gè)以上的非零參數(shù)业舍。另外,當(dāng)基函數(shù)為集合構(gòu)造的時(shí)候升酣,經(jīng)常會(huì)以集合為單位對(duì)基函數(shù)進(jìn)行選擇舷暮,實(shí)驗(yàn)證明:L1+L2約束的最小二乘學(xué)習(xí)法比L1約束的最小二乘學(xué)習(xí)法具有更高的精度。然而噩茄,除了加入正則化參數(shù)λ之外下面,為了調(diào)整L1范數(shù)和L2范數(shù)的平衡,還需要引入?yún)?shù)T绩聘,這也是L1+L2約束最小二乘學(xué)習(xí)法在實(shí)際中所面臨的問題诸狭。