Regularization
作????者: Wang Fengxiang
just a bachelor's degree candidate.
導(dǎo)??語:正則化(Regularization)方法是為解決過擬合(overfitting)問題告丢,而向原始模型引入額外信息,以便防止過擬合和提高模型泛化性能的一類方法的統(tǒng)稱碱屁。本文將從過擬合問題引入紧阔,并通過在線性回歸和logistic回歸中進(jìn)行正則化幫助理解思想。最后通過解讀應(yīng)用正則化思想的相關(guān)文獻(xiàn)來貫通正則化的應(yīng)用烤黍,此部分為選讀內(nèi)容知市。主要內(nèi)容來自Andrew Ng的Coursera機器學(xué)習(xí)課程,符號記法也采用Andrew Ng的記法速蕊。
我們假設(shè)你已閱讀本系列文章《通往深度學(xué)習(xí)之路》中關(guān)于線性回歸嫂丙、logistic回歸和梯度下降的相關(guān)內(nèi)容
一、?過擬合(overfitting)問題
????以新型冠狀肺炎發(fā)病人數(shù)y隨時間x變化為例(Fig.1)规哲。
????圖中選取了幾個不同時間下的發(fā)病人數(shù)的樣本點跟啤,時間軸開始時發(fā)病人數(shù)少,隨著時間軸推進(jìn),發(fā)病人數(shù)極速增長在2月中下旬達(dá)到峰值隅肥,隨后增長速率放緩关顷。
????(a)模型擬合了一階線性函數(shù),可以明顯看出該模型沒有很好地擬合訓(xùn)練數(shù)據(jù)武福,具有高偏差议双,我們稱該問題為欠擬合(underfitting)。即該算法不顧數(shù)據(jù)的不符合捉片,有很強的偏見地認(rèn)為時間與患病人數(shù)時線性相關(guān)的平痰,最終導(dǎo)致數(shù)據(jù)擬合效果很差。
????(b)模型擬合了二階多項式函數(shù)伍纫,效果不錯宗雇。
????(c)模型擬合了一個四階多項式函數(shù),該曲線繪制后全部通過每個數(shù)據(jù)點莹规,看似很好的擬合訓(xùn)練數(shù)據(jù) [注1]赔蒲,但曲線扭曲上下波動明顯,具有高方差良漱,所以這并不是一個很好的預(yù)測模型舞虱,我們稱該問題為過擬合(overfitting)。即直觀上來看母市,過擬合的算法雖然能集合幾乎所有數(shù)據(jù)矾兜,但是擬合的假設(shè)函數(shù)(hypothesis)會太過龐大、變量太多患久。雖然該例子只有五項參數(shù)不夠明顯椅寺,但倘若我們每一個小時更新患病人數(shù),為完全擬合數(shù)據(jù)蒋失,函數(shù)會有極多項
返帕,同時這也導(dǎo)致對該假設(shè)函數(shù)我們沒有足夠的數(shù)據(jù)進(jìn)行訓(xùn)練,因為數(shù)據(jù)全用來擬合函數(shù)篙挽。
????總結(jié)過擬合問題:擁有太多變量的訓(xùn)練好的假設(shè)模型會近乎完美地擬合訓(xùn)練集荆萤,但會難以泛化(generalize)[注2]新的樣本。
[注1]:擬合得好是說該模型的代價函數(shù)(cost function)約為零嫉髓,在線性回歸模型中即為????????????????
[注2]:’泛化‘術(shù)語是指:一個假設(shè)模型(hypothesis)應(yīng)用到新樣本的能力观腊。其中,在本例中新的樣本是說沒有出現(xiàn)在訓(xùn)練集的不同時間的患病人數(shù)算行。
????事實上,新冠肺炎的發(fā)病人數(shù)變化并不僅僅與時間有關(guān)苫耸,更與在漢醫(yī)護(hù)人員數(shù)量州邢、口罩?jǐn)?shù)量、消毒劑酒精的每日使用量、人員流動性程度等諸多變量有關(guān)量淌,這也符合我們在實際中機器學(xué)習(xí)模型會擁有諸多特征變量(features)骗村,而不僅僅是單一變量。
????但擁有太多變量呀枢,顯而易見繪圖會變得更加困難胚股,因此通過數(shù)據(jù)的可視化來決定保留哪些特征變量會更為困難。正如我們之前所講的裙秋,多特征變量琅拌、數(shù)據(jù)量不足會導(dǎo)致過擬合問題,為解決過擬合問題摘刑,我們有如下的幾個思路:
-
1.減少特征變量(features)的數(shù)量
- 人工檢查變量清單
- 模型選擇算法(model selection algorithm)
????該思路可以有效的減少過擬合現(xiàn)象的發(fā)生进宝,但其缺點是舍棄了一部分變量,即舍棄了一部分關(guān)于問題的信息枷恕,如我們新冠肺炎的發(fā)病人數(shù)例子中党晋,舍棄了口罩?jǐn)?shù)量、消毒劑酒精的每日使用量徐块、人員流動性程度等諸多變量未玻,但所有的變量或多或少都對預(yù)測有用,實際上我們并不想丟失這些信息胡控。
-
2.正則化(Regularization)方法
- 保留所有變量深胳,但減少量級(magnitude)或參數(shù)(parameters)
的大小
- 保留所有變量深胳,但減少量級(magnitude)或參數(shù)(parameters)
該思路相較于第一種方法,保留了所有對結(jié)果y有用的信息铜犬,對過擬合問題效果良好舞终。
二、?正則化(Regularization)
2.1?引入正則化思想
????前面我們已經(jīng)得到了解決過擬合問題采用減少量級或減少參數(shù)大小的正則化方法最為有效癣猾。那我們接下來繼續(xù)討論敛劝,正則化是怎么做到減少參數(shù)值的大小的呢?
????我們再次回到最初關(guān)于新冠狀肺炎的例子中纷宇,Fig 2.(b)模型的 二階函數(shù) [注2]與Fig 2.(c)模型的四階函數(shù)[注3]相比夸盟,顯然只要四階函數(shù)的參數(shù)(parameters)、
都非常小像捶,兩者函數(shù)就會相似上陕。為了達(dá)到這個目的,我們懲罰(penalize)參數(shù)
拓春、
使其變小释簿,我們來看下該過程在線性規(guī)劃中是如何實現(xiàn)的。
注2:二階函數(shù)為
注3:四階函數(shù)為
????線性回歸中硼莽,我們的優(yōu)化目標(biāo)是要最小化其均方誤差代價函數(shù)(square error cost function)庶溶。在不進(jìn)行懲罰時,優(yōu)化目標(biāo)的函數(shù)描述為
???????????????????
現(xiàn)在我們要對函數(shù)進(jìn)行一些修改,即增加兩項偏螺、
行疏。此時,優(yōu)化目標(biāo)的函數(shù)描述變?yōu)?br>
???????????
????其中套像,10000是我們隨便選取的較大的數(shù)方便直觀理解酿联。此時,因為參數(shù)夺巩、
都與10000相乘贞让,為了最小化整體的函數(shù),我們就需要使參數(shù)
劲够、
盡量接近于0震桶。而如果
、
都很小的話征绎,我們的四階函數(shù)假設(shè)模型就大致相當(dāng)于二階函數(shù)模型了蹲姐,這就是我們正則化懲罰的思想。
????但我們在實際中人柿,比如新冠肺炎發(fā)病人數(shù)的例子柴墩,口罩?jǐn)?shù)量、消毒劑酒精的每日使用量凫岖、人員流動性程度等諸多特征變量(features)都與預(yù)測結(jié)果有關(guān)江咳,而每個特征變量在我們總體的衡量得失中所占有的比重我們并不能一開始就準(zhǔn)確地知道,那我們要如何跟上述例子一樣選擇具體確切的變量哥放、
進(jìn)行懲罰(penalize)呢歼指?
????因此實際問題上對每個變量權(quán)重并不準(zhǔn)確了解,對此我們就采用將所有變量均縮小的辦法甥雕。
????回到上述例子中踩身,我們就是要將所有參數(shù)(parameters)均縮小宗弯,通過將代價函數(shù)(cost function)后加一個額外的正則化項實現(xiàn)鸠补,該項的作用是縮小每一個參數(shù)
的值等孵,修改后如下:
????? ?? ?? ????
????其中锰提,正則化項中的為正則化參數(shù)[注4],其作用是控制兩個不同目標(biāo)[注5]之間的取舍來避免出現(xiàn)過擬合的情況致开。
[注4]:關(guān)于正則化參數(shù)
我們前面例子中為方便理解設(shè)為10000弦撩,大家可以考慮下文虏,如果設(shè)置得過大如10000會有什么樣的影響瞒瘸?
????所有的參數(shù)會接近于零坷备,即相當(dāng)于忽略掉假設(shè)函數(shù)的全部項。在本例中挨务,如果參數(shù)從1到n全部忽略不計击你,那擬合的曲線模型就變?yōu)椋?br> ????????
+
這差不多相當(dāng)于用一條水平的直線來擬合訓(xùn)練數(shù)據(jù)集玉组,顯然與數(shù)據(jù)集不符合谎柄,具有高偏差丁侄,這樣的模型就犯了我們第一部分所講到的欠擬合問題。
[注5]:兩個不同的目標(biāo)朝巫,第一個目標(biāo)是指前面項的累加鸿摇,是為更好地擬合數(shù)據(jù)和訓(xùn)練集;第二個目標(biāo)是指我們要盡可能地是參數(shù)值小劈猿,這與目標(biāo)函數(shù)的第二項即正則化項有關(guān) 拙吉。
????在新冠肺炎的例子中,如果我們采用上述正則化后的代價函數(shù)揪荣,那我們擬合的曲線雖然不會如二階函數(shù)般契合筷黔,但是一定比四階函數(shù)模型曲線更加平滑更加簡單。
2.2?從線性回歸說起正則化
????通過前一小節(jié)的引入仗颈,我們已經(jīng)介紹了正則化后的線性回歸模型的代價函數(shù)和優(yōu)化目標(biāo)分別為:
?????????????
???????????????
????接下來我們將分別介紹兩種求解線性回歸模型算法(梯度下降算法和正規(guī)方程法)的正則化形式佛舱。
????在不加入正則化的時候,我們使用了梯度下降(gradient descent)進(jìn)行常規(guī)的線性回歸挨决,算法如下:
??Repeat{????
???????????????????????????????(j=,1,2,3,4......,n)0
????????}
????我們可以注意到算法中標(biāo)紅出處请祖,我們是將j=0的情況單獨拿了出來進(jìn)行迭代更新(update),為什么要這么做呢脖祈?
????不知道大家有沒有注意肆捕,我們前面正則化對參數(shù)進(jìn)行的懲罰對象是從參數(shù)開始的,并不包含參數(shù)
8歉摺I髁辍!我們從參數(shù)
開始加入正則化項后喻奥,算法修改如下:
??Repeat{????????????????????????
??????????????
?????????????? ?
?????????????????????????????????????(j=1,2,3,4......,n)
????????}
????我們假設(shè)了大家已經(jīng)閱讀了本系列文章關(guān)于梯度下降的內(nèi)容席纽,我這里就不具體用微積分展開證明:算法中方括號部分就是
對
的偏導(dǎo)數(shù),要注意
是我們正則化后的包含正則化項的函數(shù)映凳。
????梯度下降算法中對于變量從1到n的更新(update)胆筒,去掉中括號后更新式變?yōu)槿缦拢?br>
???????????
????該變式的第一項中,通常是學(xué)習(xí)率很小诈豌,但m卻很大仆救,那整體的
就會很小,即第一項就是
乘一個比1略小的數(shù)矫渔。
????該變式的第二項彤蔽,實際上與我們未進(jìn)行正則化的梯度下降更新項是一樣。
????我們來看下線性回歸模型求解的第二種算法:正規(guī)方程法(normal equation)的正則化形式庙洼。
????該方法原有形式為:
??????????????X=????????????y=
?? ??????????????????????????
????即經(jīng)過最小化代價函數(shù)顿痪,我們可以得到:
????????????????????????
????如果我們使用正則化镊辕,那該式需要增加一個矩陣,修改后如下:
????????????
????該式中的矩陣為n+1·n+1階的矩陣蚁袭,n表示特征變量的數(shù)量征懈。進(jìn)行正則化后還有一個好處是,即使樣本總量小于特征變量數(shù)揩悄,也不需要擔(dān)心該修改后的式子是不可逆(non-invertible)[注6]的卖哎。
[注6]:不可逆問題是線性代數(shù)關(guān)于逆矩陣方面的基本問題,請自行參考線代知識删性。這里需要提及的一點是:即使是未進(jìn)行正則化的式子存在不可逆的可能亏娜,但我們在使用matlab進(jìn)行計算時,采用的pinv函數(shù)會直接求偽逆蹬挺。
2.3?從logistic回歸續(xù)談?wù)齽t化
????logistic回歸章的講解在大家已經(jīng)閱讀完線性回歸內(nèi)容后维贺,很多內(nèi)容會不再進(jìn)行贅述,主要通過代碼實現(xiàn)讓大家理解更深刻巴帮。
????回歸的代價函數(shù)為解決過擬合現(xiàn)象溯泣,在添加正則化項以達(dá)到懲罰參數(shù)的目的后,代價函數(shù)變?yōu)槿缦滦问剑?br>
????????
????與線性回歸的正則化類似晰韵,該正則化項的作用是減小參數(shù)发乔。
????logistic回歸的梯度下降算法形式上與線性回歸相似,其區(qū)別在于假設(shè)模型(hypothesis) 是不一樣的雪猪,logistics回歸的假設(shè)模型為:
????????????????????
????但梯度下降算法的形式與線性回歸一致:
??Repeat{????????????????????????
??????????????
?????????????? ?
?????????????????????????????????????(j=1,2,3,4......,n)
????????}
????我們在本章更為關(guān)注如何實現(xiàn)正則化后的logistic回歸模型栏尚,并且我們會通過學(xué)習(xí)率的取值分別展現(xiàn)出過擬合(overfitting)、欠擬合(underfitting)和正則化(regularize)后的情況只恨。
????首先译仗,我們建立一個命名為costFunction
的函數(shù),該函數(shù)需要返回兩個值,第一個值是計算代價函數(shù)的值官觅,第二個需要返回值是梯度(gradient)纵菌,即分別對于每個i值的梯度我們進(jìn)行求導(dǎo):
????????????????????????????
# Matlab
function [J, grad] = costFunctionReg(theta, X, y, lambda)
m = length(y); % number of training examples
J = 0;
grad = zeros(size(theta));
hy = sigmoid(X*theta)
J = sum(-y.*log(hy)-(1-y).*log(1-hy))/m + lambda*sum(theta(2:size(theta)(1)).^2)/(2*m);
grad(1) = ((hy-y)'*X(:,1))/m;
A = ((hy-y)'*X(:,2:size(X)(2)))/m;
grad(2:size(X)(2)) = A' + lambda*theta(2:size(theta)(1))/m;
end
????我們建立的costfunction函數(shù)返回的兩個值需要返回到我們的主函數(shù)
中,主函數(shù)要做的主要功能是將costfunction最小化休涤。
????另外為了清晰地繪制簡單明了的圖像方便大家理解咱圆,編寫了函數(shù)mapfeature
來將數(shù)據(jù)繪制在圖中;函數(shù)plotDecisonBoundary
繪制決策邊界(DecisonBoundary)功氨;函數(shù)sigmoid
表示假設(shè)模型(hypothesis)序苏;這些簡易函數(shù)與本章無關(guān)就不盡興一一贅述,具體可參考Github中吳恩達(dá)的作業(yè)捷凄。
# Matlab
clear ; close all; clc
data = load('ex2data2.txt');
X = data(:, [1, 2]); y = data(:, 3);
plotData(X, y);
xlabel('Microchip Test 1')
ylabel('Microchip Test 2')
legend('y = 1', 'y = 0')
hold off;
X = mapFeature(X(:,1), X(:,2));
initial_theta = zeros(size(X, 2), 1);
lambda = 1;
options = optimset('GradObj', 'on', 'MaxIter', 400);
[theta, J, exit_flag] = ...
fminunc(@(t)(costFunctionReg(t, X, y, lambda)), initial_theta, options);
plotDecisionBoundary(theta, X, y);
hold on;
title(sprintf('lambda = %g', lambda))
xlabel('Microchip Test 1')
ylabel('Microchip Test 2')
legend('y = 1', 'y = 0', 'Decision boundary')
hold off;
p = predict(theta, X);
fprintf('Train Accuracy: %f\n', mean(double(p == y)) * 100);
fprintf('Expected accuracy (with lambda = 1): 83.1 (approx)\n');
????我們可以得到在學(xué)習(xí)率為1的情況下我們正則化后的決策邊界較為理想忱详,如Fig.3所示。
????那如果我們的學(xué)習(xí)率為0和100情況分別會怎么樣呢跺涤?
????我們可以看到Fig .4的處理相當(dāng)于沒有正則化處理的logistic回歸模型匈睁,即具有過擬合問題监透。近乎很好的擬合所有數(shù)據(jù),但帶來的問題是邊界曲線顯然扭曲航唆,上下波動明顯胀蛮,具有高方差。
????Fig .5的處理情況佛点,就是我們的欠擬合現(xiàn)象醇滥,即具有高偏差黎比,與數(shù)據(jù)集是顯然不符合的超营。
三、?正則化的應(yīng)用之路
????我們以一篇文獻(xiàn)EEG-Based Emotion Recognition Using Regularized Graph Neural Networks(基于正則化圖神經(jīng)網(wǎng)絡(luò)的腦電情緒識別)來應(yīng)用正則化的思想阅虫。
我們只關(guān)注其中的正則化內(nèi)容演闭,略掉其余的不同領(lǐng)域的背景相關(guān)知識,包括關(guān)于作者利用腦電圖信號的拓?fù)浣Y(jié)構(gòu)建立稀疏鄰接矩陣颓帝,以及簡單圖卷積網(wǎng)絡(luò)(graph convolution network)和對無向連接圖采用切比雪夫多項式(Chebyshev polynomials)來代替卷積核的圖傅里葉變換進(jìn)行濾波 米碰。
對相關(guān)知識感興趣可以參考文獻(xiàn)和一篇該方向研究生的論文解讀,本部分主要基于兩者购城。
????作者采用了一個正則化的圖神經(jīng)網(wǎng)絡(luò)(RGNN)來解決在基于腦電圖的情緒識別方面噪音標(biāo)簽問題吕座。具體而言,對圖神經(jīng)網(wǎng)絡(luò)模型的正則化瘪板,其整體框架Fig 6.是結(jié)合作者提出的一個節(jié)點域?qū)褂?xùn)練(NodeDAT)和基于情緒感知的分布學(xué)習(xí)(EmotionDL)計算兩者總體的損失函數(shù)(cost function)吴趴。總體損失函數(shù)計算如下:
??????????????????????????
????和
分別為節(jié)點域?qū)褂?xùn)練(NodeDAT)和基于情緒感知的分布學(xué)習(xí)(EmotionDL)的損失函數(shù)侮攀。
????FC表示全鏈接的圖層(fully-connected layer)锣枝,CE表示交叉熵?fù)p失(cross-entropy loss),GRL是節(jié)點域?qū)褂?xùn)練中采用的梯度反轉(zhuǎn)層(GRL)具體后述會展開兰英,KL表示Kullback-Leibler散度是我們情感分布學(xué)習(xí)中的模型函數(shù)撇叁。
????該整體框架表述的思想簡而言之,就是對訓(xùn)練數(shù)據(jù)集(Training Samples)一方面采用分布學(xué)習(xí)計算損失函數(shù)畦贸,另一方面陨闹,訓(xùn)練數(shù)據(jù)集和訓(xùn)練測試集(Texting Samples)共同經(jīng)過領(lǐng)域分類器即NodeDAT采用梯度反轉(zhuǎn)層(GRL)計算可得其主損失函數(shù)和相關(guān)的分類標(biāo)簽。
????其偽代碼如下:
????上面的偽代碼有沒有熟悉的感覺薄坏?對于變量的更新(update)與我們線性回歸模型的梯度下降算法是不是很相似趋厉!梯度下降算法中的方括號部分內(nèi)容正是對代價函數(shù)的求導(dǎo),我們下面附上梯度下降算法在線性回歸中的形式以供對比參考:
??Repeat{????????????????????????
??????????????
?????????????? ?
?????????????????????????????????????(j=1,2,3,4......,n)
????????}
????我們可以看到還是RGNN的實現(xiàn)只不過在一般梯度下降算法中采用了結(jié)合兩個代價函數(shù)的方法颤殴,即對13觅廓、14步中對W和A的更新是混合節(jié)點域?qū)褂?xùn)練(NodeDAT)和基于情緒感知的分布學(xué)習(xí)(EmotionDL)的損失函數(shù)的梯度,表示節(jié)點域?qū)褂?xùn)練中域分離器所使用梯度反轉(zhuǎn)層(GRL)[注7]的比例因子涵但。
[注 7]:梯度反轉(zhuǎn)層是指在反向傳播期間反轉(zhuǎn)域分類器的梯度杈绸。
????? ? 節(jié)點域?qū)褂?xùn)練就是一個域分類器帖蔓。
????下面我們分別介紹節(jié)點域?qū)褂?xùn)練(NodeDAT)和基于情緒感知的分布學(xué)習(xí)(EmotionDL)。對于域分類器我們只寫出其損失函數(shù)瞳脓,不具體展開推導(dǎo)以及詳細(xì)優(yōu)勢和實現(xiàn)過程塑娇,選擇展開講解情緒感知的分布學(xué)習(xí)。
????領(lǐng)域分類器的目標(biāo)是最小化以下兩個二進(jìn)制交叉熵?fù)p失的總和:
????????????
????其中劫侧,表示給定源域數(shù)據(jù)埋酬,
表示未標(biāo)記的目標(biāo)域數(shù)據(jù)。
????在SEED與SEED-IV腦電圖數(shù)據(jù)集上烧栋,分別可以劃分為三類和四類情緒写妥。SEED有積極、中性和消極三類情緒审姓,并有相應(yīng)的類指標(biāo)分別是 0 1 2珍特,將每個訓(xùn)練樣本標(biāo)簽轉(zhuǎn)化為所有類的先驗概率分布
如下:
????????????????????
????其中,表示在訓(xùn)練標(biāo)簽中控制噪聲水平的超參數(shù)扎筒。在SEED-IV的四類情緒分類的先驗概率分布
與之類似,不再進(jìn)行贅述酬姆。
????在得到轉(zhuǎn)換后的類分布Y后嗜桌,我們的模型可以通過最小化以下Kullback-Leibler (KL) 散度[注8]來進(jìn)行優(yōu)化:
?????????????????
注8:??KL 散度(Kullback-Leibler Divergence)是一個用來衡量兩個概率分布的相似性的一個度量指標(biāo)。
????一般來說辞色,我們無法獲取數(shù)據(jù)的總體骨宠,我們只能拿到數(shù)據(jù)的部分樣本,根據(jù)數(shù)據(jù)的部分樣本淫僻,我們會對數(shù)據(jù)的整體做一個近似的估計诱篷,而數(shù)據(jù)整體本身有一個真實的分布(我們可能永遠(yuǎn)無法知道),那么近似估計的概率分布和數(shù)據(jù)整體真實的概率分布的相似度雳灵,或者說差異程度棕所,可以用 KL 散度來表示。具體可以參考關(guān)于KL散度的CSDN博客
作者后記
????完成本篇文章耗時大概一周悯辙,文章寫到后來尤其是關(guān)于應(yīng)用文獻(xiàn)部分很多沒有再展開講解琳省,留下許多待展開的地方。也是本人的文獻(xiàn)閱讀能力囿于一定水平躲撰,參考了許多別人的資料才勉勉強強完成针贬,也希望自己在未來的兩三年水平真正有所長進(jìn),以本篇為始拢蛋,只是向上走桦他!!