正則化——由淺入深的進(jìn)階之路

Regularization

作????者： Wang Fengxiang
just a bachelor's degree candidate.

導(dǎo)??語：正則化（Regularization）方法是為解決過擬合（overfitting）問題告丢，而向原始模型引入額外信息，以便防止過擬合和提高模型泛化性能的一類方法的統(tǒng)稱碱屁。本文將從過擬合問題引入紧阔，并通過在線性回歸和logistic回歸中進(jìn)行正則化幫助理解思想。最后通過解讀應(yīng)用正則化思想的相關(guān)文獻(xiàn)來貫通正則化的應(yīng)用烤黍，此部分為選讀內(nèi)容知市。主要內(nèi)容來自Andrew Ng的Coursera機器學(xué)習(xí)課程，符號記法也采用Andrew Ng的記法速蕊。

我們假設(shè)你已閱讀本系列文章《通往深度學(xué)習(xí)之路》中關(guān)于線性回歸嫂丙、logistic回歸和梯度下降的相關(guān)內(nèi)容

一、?過擬合（overfitting）問題

????以新型冠狀肺炎發(fā)病人數(shù)y隨時間x變化為例（Fig.1）规哲。

Figure1.新型冠狀肺炎患病人數(shù)的線性回歸模型

????圖中選取了幾個不同時間下的發(fā)病人數(shù)的樣本點跟啤，時間軸開始時發(fā)病人數(shù)少，隨著時間軸推進(jìn)，發(fā)病人數(shù)極速增長在2月中下旬達(dá)到峰值隅肥，隨后增長速率放緩关顷。
????(a)模型擬合了一階線性函數(shù)，可以明顯看出該模型沒有很好地擬合訓(xùn)練數(shù)據(jù)武福，具有高偏差议双，我們稱該問題為欠擬合（underfitting）。即該算法不顧數(shù)據(jù)的不符合捉片，有很強的偏見地認(rèn)為時間與患病人數(shù)時線性相關(guān)的平痰，最終導(dǎo)致數(shù)據(jù)擬合效果很差。
????(b)模型擬合了二階多項式函數(shù)伍纫，效果不錯宗雇。
????(c)模型擬合了一個四階多項式函數(shù)，該曲線繪制后全部通過每個數(shù)據(jù)點莹规，看似很好的擬合訓(xùn)練數(shù)據(jù) [注1]赔蒲，但曲線扭曲上下波動明顯，具有高方差良漱，所以這并不是一個很好的預(yù)測模型舞虱，我們稱該問題為過擬合（overfitting）。即直觀上來看母市，過擬合的算法雖然能集合幾乎所有數(shù)據(jù)矾兜，但是擬合的假設(shè)函數(shù)（hypothesis）會太過龐大、變量太多患久。雖然該例子只有五項 $\Theta$ 參數(shù)不夠明顯椅寺，但倘若我們每一個小時更新患病人數(shù)，為完全擬合數(shù)據(jù)蒋失，函數(shù)會有極多項 $\Theta$ 返帕，同時這也導(dǎo)致對該假設(shè)函數(shù)我們沒有足夠的數(shù)據(jù)進(jìn)行訓(xùn)練，因為數(shù)據(jù)全用來擬合函數(shù)篙挽。
????總結(jié)過擬合問題：擁有太多變量的訓(xùn)練好的假設(shè)模型會近乎完美地擬合訓(xùn)練集荆萤，但會難以泛化（generalize）[注2]新的樣本。

[注1]：擬合得好是說該模型的代價函數(shù)（cost function）約為零嫉髓，在線性回歸模型中即為???????????????? $J（\Theta ）= \frac{1}{2m}\sum_{m}^{i=1}(h_{\Theta }(x^{i})-y^{i})^{2}\approx 0$

[注2]：’泛化‘術(shù)語是指：一個假設(shè)模型（hypothesis）應(yīng)用到新樣本的能力观腊。其中，在本例中新的樣本是說沒有出現(xiàn)在訓(xùn)練集的不同時間的患病人數(shù)算行。

????事實上，新冠肺炎的發(fā)病人數(shù)變化并不僅僅與時間有關(guān)苫耸，更與在漢醫(yī)護(hù)人員數(shù)量州邢、口罩?jǐn)?shù)量、消毒劑酒精的每日使用量、人員流動性程度等諸多變量有關(guān)量淌，這也符合我們在實際中機器學(xué)習(xí)模型會擁有諸多特征變量（features）骗村，而不僅僅是單一變量。
????但擁有太多變量呀枢，顯而易見繪圖會變得更加困難胚股，因此通過數(shù)據(jù)的可視化來決定保留哪些特征變量會更為困難。正如我們之前所講的裙秋，多特征變量琅拌、數(shù)據(jù)量不足會導(dǎo)致過擬合問題，為解決過擬合問題摘刑，我們有如下的幾個思路：

1.減少特征變量（features）的數(shù)量
- 人工檢查變量清單
- 模型選擇算法（model selection algorithm）

????該思路可以有效的減少過擬合現(xiàn)象的發(fā)生进宝，但其缺點是舍棄了一部分變量，即舍棄了一部分關(guān)于問題的信息枷恕，如我們新冠肺炎的發(fā)病人數(shù)例子中党晋，舍棄了口罩?jǐn)?shù)量、消毒劑酒精的每日使用量徐块、人員流動性程度等諸多變量未玻，但所有的變量或多或少都對預(yù)測有用，實際上我們并不想丟失這些信息胡控。

2.正則化（Regularization）方法
- 保留所有變量深胳，但減少量級（magnitude）或參數(shù)（parameters） $\Theta _{j}$ 的大小

該思路相較于第一種方法，保留了所有對結(jié)果y有用的信息铜犬，對過擬合問題效果良好舞终。

二、?正則化（Regularization）

2.1?引入正則化思想

????前面我們已經(jīng)得到了解決過擬合問題采用減少量級或減少參數(shù)大小的正則化方法最為有效癣猾。那我們接下來繼續(xù)討論敛劝，正則化是怎么做到減少參數(shù)值的大小的呢？

Figure 2.新冠肺炎擬合較好與過擬合的模型

????我們再次回到最初關(guān)于新冠狀肺炎的例子中纷宇，Fig 2.（b）模型的 二階函數(shù) [注2]與Fig 2.（c）模型的四階函數(shù)[注3]相比夸盟，顯然只要四階函數(shù)的參數(shù)（parameters） $\Theta _{3}$ 、 $\Theta _{4}$ 都非常小像捶，兩者函數(shù)就會相似上陕。為了達(dá)到這個目的，我們懲罰（penalize）參數(shù) $\Theta _{3}$ 拓春、 $\Theta _{4}$ 使其變小释簿，我們來看下該過程在線性規(guī)劃中是如何實現(xiàn)的。

注2：二階函數(shù)為 $\Theta _{0} + \Theta _{1}x + \Theta _{2}x^{2}$
注3：四階函數(shù)為 $\Theta _{0} + \Theta _{1}x + \Theta _{2}x^{2} + \Theta _{3}x^{3} + \Theta _{4}x^{4}$

????線性回歸中硼莽，我們的優(yōu)化目標(biāo)是要最小化其均方誤差代價函數(shù)（square error cost function）庶溶。在不進(jìn)行懲罰時，優(yōu)化目標(biāo)的函數(shù)描述為
??????????????????? $min_{(\Theta)}\frac{1}{2m}\sum_{i=1}^{m}(h_{\Theta }(x^{i})-y^{i})^{2}$

現(xiàn)在我們要對函數(shù)進(jìn)行一些修改，即增加兩項 $10000 \Theta _{3} ^{2}$ 偏螺、 $10000\Theta _{4}^{2}$ 行疏。此時，優(yōu)化目標(biāo)的函數(shù)描述變?yōu)?br> ??????????? $min_{(\Theta)} \frac{1}{2m}\sum_{i=1}^{m}(h_{\Theta }(x^{i})-y^{i})^{2}+10000 \Theta _{3} ^{2} +10000 \Theta _{4} ^{2}$

????其中套像，10000是我們隨便選取的較大的數(shù)方便直觀理解酿联。此時，因為參數(shù) $\Theta _{3}$ 夺巩、 $\Theta _{4}$ 都與10000相乘贞让，為了最小化整體的函數(shù)，我們就需要使參數(shù) $\Theta _{3}$ 劲够、 $\Theta _{4}$ 盡量接近于0震桶。而如果 $\Theta _{3}$ 、 $\Theta _{4}$ 都很小的話征绎，我們的四階函數(shù)假設(shè)模型就大致相當(dāng)于二階函數(shù)模型了蹲姐，這就是我們正則化懲罰的思想。
????但我們在實際中人柿，比如新冠肺炎發(fā)病人數(shù)的例子柴墩，口罩?jǐn)?shù)量、消毒劑酒精的每日使用量凫岖、人員流動性程度等諸多特征變量（features）都與預(yù)測結(jié)果有關(guān)江咳，而每個特征變量在我們總體的衡量得失中所占有的比重我們并不能一開始就準(zhǔn)確地知道，那我們要如何跟上述例子一樣選擇具體確切的變量 $\Theta _{3}$ 哥放、 $\Theta _{4}$ 進(jìn)行懲罰（penalize）呢歼指？
????因此實際問題上對每個變量權(quán)重并不準(zhǔn)確了解，對此我們就采用將所有變量均縮小的辦法甥雕。
????回到上述例子中踩身，我們就是要將所有參數(shù)（parameters） $\Theta _{i}$ 均縮小宗弯，通過將代價函數(shù)（cost function）后加一個額外的正則化項實現(xiàn)鸠补，該項的作用是縮小每一個參數(shù) $\Theta _{i}$ 的值等孵，修改后如下：
????? ?? ?? ???? $J（\Theta ）= \frac{1}{2m}[\sum_{i=1}^{m}(h_{\Theta }(x^{i})-y^{i})^{2}+ \lambda \sum_{i=1}^{m}\Theta _{i} ^{2}]$
????其中锰提，正則化項中的 $\lambda$ 為正則化參數(shù)[注4]，其作用是控制兩個不同目標(biāo)[注5]之間的取舍來避免出現(xiàn)過擬合的情況致开。

[注4]:關(guān)于正則化參數(shù) $\lambda$ 我們前面例子中為方便理解設(shè)為10000弦撩，大家可以考慮下文虏，如果設(shè)置得過大如10000會有什么樣的影響瞒瘸？
????所有的參數(shù)會接近于零坷备，即相當(dāng)于忽略掉假設(shè)函數(shù)的全部項。在本例中挨务，如果參數(shù) $\Theta _{i}$ 從1到n全部忽略不計击你，那擬合的曲線模型就變?yōu)椋?br> ???????? $h_{\Theta}（x）=\Theta _{0}$ + $\not{\Theta _{1}}\not{x} + \not{ \Theta _{2}}\not{x^{2}} + \not{\Theta _{3}}\not{x^{3} }+ \not{ \Theta _{4}}\not{x^{4}}$
這差不多相當(dāng)于用一條水平的直線來擬合訓(xùn)練數(shù)據(jù)集玉组，顯然與數(shù)據(jù)集不符合谎柄，具有高偏差丁侄，這樣的模型就犯了我們第一部分所講到的欠擬合問題。

[注5]：兩個不同的目標(biāo)朝巫，第一個目標(biāo)是指前面項的累加鸿摇，是為更好地擬合數(shù)據(jù)和訓(xùn)練集；第二個目標(biāo)是指我們要盡可能地是參數(shù)值小劈猿，這與目標(biāo)函數(shù)的第二項即正則化項有關(guān) 拙吉。

????在新冠肺炎的例子中，如果我們采用上述正則化后的代價函數(shù) $J（\Theta）$ 揪荣，那我們擬合的曲線雖然不會如二階函數(shù)般契合筷黔，但是一定比四階函數(shù)模型曲線更加平滑更加簡單。

2.2?從線性回歸說起正則化

????通過前一小節(jié)的引入仗颈，我們已經(jīng)介紹了正則化后的線性回歸模型的代價函數(shù)和優(yōu)化目標(biāo)分別為：
????????????? $J（\Theta ）= \frac{1}{2m}[\sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})^{2}+ \lambda \sum_{i=1}^{m}\Theta _{i} ^{2}]$
??????????????? $min_{(\Theta)} \frac{1}{2m}[\sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})^{2}+ \lambda \sum_{i=1}^{m}\Theta _{i} ^{2}]$
????接下來我們將分別介紹兩種求解線性回歸模型算法（梯度下降算法和正規(guī)方程法）的正則化形式佛舱。

????在不加入正則化的時候，我們使用了梯度下降（gradient descent）進(jìn)行常規(guī)的線性回歸挨决，算法如下：
??Repeat{????
$\Theta_{0}:=\Theta_{0}-\alpha\frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})x_{0}^{(i)}$ $\Theta_{j}:=\Theta_{j}-\alpha\frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})x_{j}^{(i)}$
???????????????????????????????(j=~~0~~,1,2,3,4......,n)
????????}
????我們可以注意到算法中標(biāo)紅出處请祖，我們是將j=0的情況單獨拿了出來進(jìn)行迭代更新（update），為什么要這么做呢脖祈？
????不知道大家有沒有注意肆捕，我們前面正則化對參數(shù)進(jìn)行的懲罰對象是從參數(shù) $\Theta_{1}$ 開始的，并不包含參數(shù) $\Theta_{0}$ ８歉摺Ｉ髁辍！我們從參數(shù) $\Theta_{1}$ 開始加入正則化項后喻奥，算法修改如下：
??Repeat{????????????????????????
?????????????? $\Theta_{0}:=\Theta_{0}-\alpha\frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})x_{0}^{(i)}$
?????????????? $\Theta_{j}:=\Theta_{j}-\alpha$ ? $[\frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)}-y^{(i)})x_{j}^{(i)} +\frac{ \lambda }{m}\Theta_{j}]$
?????????????????????????????????????(j=1,2,3,4......,n)
????????}

????我們假設(shè)了大家已經(jīng)閱讀了本系列文章關(guān)于梯度下降的內(nèi)容席纽，我這里就不具體用微積分展開證明：算法中方括號部分就是 $J（\Theta）$ 對 $\Theta_{j}$ 的偏導(dǎo)數(shù)，要注意 $J（\Theta）$ 是我們正則化后的包含正則化項的函數(shù)映凳。

????梯度下降算法中對于變量 $\Theta$ 從1到n的更新（update）胆筒，去掉中括號后更新式變?yōu)槿缦拢?br> ??????????? $\Theta_{j}:=\Theta_{j}（1- \alpha\frac{ \lambda }{m}）-\alpha \frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)}-y^{(i)})x_{j}^{(i)}$
????該變式的第一項中，通常是學(xué)習(xí)率 $\lambda$ 很小诈豌，但m卻很大仆救，那整體的 $\alpha\frac{ \lambda }{m}$ 就會很小，即第一項就是 $\Theta_{j}$ 乘一個比1略小的數(shù)矫渔。
????該變式的第二項彤蔽，實際上與我們未進(jìn)行正則化的梯度下降更新項是一樣。

????我們來看下線性回歸模型求解的第二種算法：正規(guī)方程法（normal equation）的正則化形式庙洼。
????該方法原有形式為：
??????????????X= $\begin{pmatrix}(x^{(1)})^{T}\\ ·······\\ (x^{(m)})^{T} \end{pmatrix}$ ????????????y= $\begin{pmatrix} y^{(1)} \\ ·······\\ y^{(m)}\end{pmatrix}$
?? ????????????????????????? $min_{\Theta}$ ? $J(\Theta)$

????即經(jīng)過最小化代價函數(shù)顿痪，我們可以得到：
???????????????????????? $\Theta=（x^{T}x）^{-1}x^{T}y$
????如果我們使用正則化镊辕，那該式需要增加一個矩陣，修改后如下：

???????????? $\Theta=（x^{T}x+\lambda\begin{bmatrix}0&0 &0 &··· &0 \\ 0&1 &0 &··· &0 \\ 0&0 &1 &··· &0 \\ ···&··· &··· &··· &··· \\ 0&0 &0 &··· &1 \end{bmatrix}）^{-1}x^{T}y$
????該式中的矩陣為n+1·n+1階的矩陣蚁袭，n表示特征變量的數(shù)量征懈。進(jìn)行正則化后還有一個好處是，即使樣本總量小于特征變量數(shù)揩悄，也不需要擔(dān)心該修改后的式子是不可逆(non-invertible)[注6]的卖哎。

[注6]：不可逆問題是線性代數(shù)關(guān)于逆矩陣方面的基本問題，請自行參考線代知識删性。這里需要提及的一點是：即使是未進(jìn)行正則化的式子存在不可逆的可能亏娜，但我們在使用matlab進(jìn)行計算時，采用的pinv函數(shù)會直接求偽逆蹬挺。

2.3?從logistic回歸續(xù)談?wù)齽t化

????logistic回歸章的講解在大家已經(jīng)閱讀完線性回歸內(nèi)容后维贺，很多內(nèi)容會不再進(jìn)行贅述，主要通過代碼實現(xiàn)讓大家理解更深刻巴帮。

????回歸的代價函數(shù)為解決過擬合現(xiàn)象溯泣，在添加正則化項以達(dá)到懲罰參數(shù)的目的后，代價函數(shù)變?yōu)槿缦滦问剑?br> ???????? $J(\Theta)=-[\frac{1}{m}\sum_{i=1}^{m}y^{(i)}log h_{\Theta}(x^{i})+(1-y^{(i)})log(1-h_{\Theta}(x^{(i)}))]+\frac{\lambda}{2m}\sum_{i=1}^{m}\Theta_{j}^{2}$
????與線性回歸的正則化類似晰韵，該正則化項的作用是減小參數(shù)发乔。

????logistic回歸的梯度下降算法形式上與線性回歸相似，其區(qū)別在于假設(shè)模型（hypothesis） 是不一樣的雪猪，logistics回歸的假設(shè)模型為：
???????????????????? $h_{\Theta }(x)=\frac{1}{1+e^{-\Theta ^{T}x}}$
????但梯度下降算法的形式與線性回歸一致：

??Repeat{????????????????????????
?????????????? $\Theta_{0}:=\Theta_{0}-\alpha\frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})x_{0}^{(i)}$
?????????????? $\Theta_{j}:=\Theta_{j}-\alpha$ ? $[\frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)}-y^{(i)})x_{j}^{(i)} +\frac{ \lambda }{m}\Theta_{j}]$
?????????????????????????????????????(j=1,2,3,4......,n)
????????}

????我們在本章更為關(guān)注如何實現(xiàn)正則化后的logistic回歸模型栏尚，并且我們會通過學(xué)習(xí)率 $\lambda$ 的取值分別展現(xiàn)出過擬合（overfitting）、欠擬合（underfitting）和正則化（regularize）后的情況只恨。

????首先译仗，我們建立一個命名為costFunction的函數(shù),該函數(shù)需要返回兩個值，第一個值是計算代價函數(shù) $J（\Theta）$ 的值官觅，第二個需要返回值是梯度（gradient）纵菌，即分別對于每個i值的梯度我們進(jìn)行求導(dǎo)：
???????????????????????????? $\frac{\partial J(\Theta) }{\partial \Theta_{i}}$

# Matlab

function [J, grad] = costFunctionReg(theta, X, y, lambda)

m = length(y); % number of training examples
J = 0;
grad = zeros(size(theta));
hy = sigmoid(X*theta)
J = sum(-y.*log(hy)-(1-y).*log(1-hy))/m + lambda*sum(theta(2:size(theta)(1)).^2)/(2*m);
grad(1) = ((hy-y)'*X(:,1))/m;
A = ((hy-y)'*X(:,2:size(X)(2)))/m;
grad(2:size(X)(2)) = A' + lambda*theta(2:size(theta)(1))/m;

end

????我們建立的costfunction函數(shù)返回的兩個值需要返回到我們的主函數(shù)中，主函數(shù)要做的主要功能是將costfunction最小化休涤。
????另外為了清晰地繪制簡單明了的圖像方便大家理解咱圆，編寫了函數(shù)mapfeature來將數(shù)據(jù)繪制在圖中；函數(shù)plotDecisonBoundary繪制決策邊界（DecisonBoundary）功氨；函數(shù)sigmoid表示假設(shè)模型（hypothesis）序苏；這些簡易函數(shù)與本章無關(guān)就不盡興一一贅述，具體可參考Github中吳恩達(dá)的作業(yè)捷凄。

# Matlab

clear ; close all; clc
data = load('ex2data2.txt');
X = data(:, [1, 2]); y = data(:, 3);
plotData(X, y);
xlabel('Microchip Test 1')
ylabel('Microchip Test 2')
legend('y = 1', 'y = 0')
hold off;
X = mapFeature(X(:,1), X(:,2));
initial_theta = zeros(size(X, 2), 1);
lambda = 1;
options = optimset('GradObj', 'on', 'MaxIter', 400);
[theta, J, exit_flag] = ...
    fminunc(@(t)(costFunctionReg(t, X, y, lambda)), initial_theta, options);
plotDecisionBoundary(theta, X, y);
hold on;
title(sprintf('lambda = %g', lambda))
xlabel('Microchip Test 1')
ylabel('Microchip Test 2')
legend('y = 1', 'y = 0', 'Decision boundary')
hold off;
p = predict(theta, X);
fprintf('Train Accuracy: %f\n', mean(double(p == y)) * 100);
fprintf('Expected accuracy (with lambda = 1): 83.1 (approx)\n');

????我們可以得到在學(xué)習(xí)率 $\lambda$ 為1的情況下我們正則化后的決策邊界較為理想忱详，如Fig.3所示。

Figure 3.學(xué)習(xí)率為1

????那如果我們的學(xué)習(xí)率 $\lambda$ 為0和100情況分別會怎么樣呢跺涤？

Figure 4.學(xué)習(xí)率為0

????我們可以看到Fig .4的處理相當(dāng)于沒有正則化處理的logistic回歸模型匈睁，即具有過擬合問題监透。近乎很好的擬合所有數(shù)據(jù)，但帶來的問題是邊界曲線顯然扭曲航唆，上下波動明顯胀蛮，具有高方差。

Figure 5.學(xué)習(xí)率為100

????Fig .5的處理情況佛点，就是我們的欠擬合現(xiàn)象醇滥，即具有高偏差黎比，與數(shù)據(jù)集是顯然不符合的超营。

三、?正則化的應(yīng)用之路

????我們以一篇文獻(xiàn)EEG-Based Emotion Recognition Using Regularized Graph Neural Networks（基于正則化圖神經(jīng)網(wǎng)絡(luò)的腦電情緒識別）來應(yīng)用正則化的思想阅虫。

我們只關(guān)注其中的正則化內(nèi)容演闭，略掉其余的不同領(lǐng)域的背景相關(guān)知識，包括關(guān)于作者利用腦電圖信號的拓?fù)浣Y(jié)構(gòu)建立稀疏鄰接矩陣颓帝，以及簡單圖卷積網(wǎng)絡(luò)(graph convolution network)和對無向連接圖采用切比雪夫多項式（Chebyshev polynomials）來代替卷積核的圖傅里葉變換進(jìn)行濾波米碰。
對相關(guān)知識感興趣可以參考文獻(xiàn)和一篇該方向研究生的論文解讀，本部分主要基于兩者购城。

????作者采用了一個正則化的圖神經(jīng)網(wǎng)絡(luò)（RGNN）來解決在基于腦電圖的情緒識別方面噪音標(biāo)簽問題吕座。具體而言，對圖神經(jīng)網(wǎng)絡(luò)模型的正則化瘪板，其整體框架Fig 6.是結(jié)合作者提出的一個節(jié)點域?qū)褂?xùn)練（NodeDAT）和基于情緒感知的分布學(xué)習(xí)（EmotionDL）計算兩者總體的損失函數(shù)（cost function）吴趴。總體損失函數(shù)計算如下：
?????????????????????????? ${\Phi}''= {\Phi}'+ \Phi_{D}$
???? ${\Phi}'$ 和 $\Phi_{D}$ 分別為節(jié)點域?qū)褂?xùn)練（NodeDAT）和基于情緒感知的分布學(xué)習(xí)（EmotionDL）的損失函數(shù)侮攀。

Figure 6.RGNN整體框架

????FC表示全鏈接的圖層（fully-connected layer）锣枝，CE表示交叉熵?fù)p失（cross-entropy loss），GRL是節(jié)點域?qū)褂?xùn)練中采用的梯度反轉(zhuǎn)層（GRL）具體后述會展開兰英，KL表示Kullback-Leibler散度是我們情感分布學(xué)習(xí)中的模型函數(shù)撇叁。
????該整體框架表述的思想簡而言之，就是對訓(xùn)練數(shù)據(jù)集（Training Samples）一方面采用分布學(xué)習(xí)計算損失函數(shù)畦贸，另一方面陨闹，訓(xùn)練數(shù)據(jù)集和訓(xùn)練測試集（Texting Samples）共同經(jīng)過領(lǐng)域分類器即NodeDAT采用梯度反轉(zhuǎn)層（GRL）計算可得其主損失函數(shù)和相關(guān)的分類標(biāo)簽。
????其偽代碼如下：

Figure.7 RGNN的偽代碼

????上面的偽代碼有沒有熟悉的感覺薄坏？對于變量的更新(update)與我們線性回歸模型的梯度下降算法是不是很相似趋厉！梯度下降算法中的方括號部分內(nèi)容正是對代價函數(shù)的求導(dǎo)，我們下面附上梯度下降算法在線性回歸中的形式以供對比參考：
??Repeat{????????????????????????
?????????????? $\Theta_{0}:=\Theta_{0}-\alpha\frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)})-y^{(i)})x_{0}^{(i)}$
?????????????? $\Theta_{j}:=\Theta_{j}-\alpha$ ? $[\frac{1 }{m}\sum_{i=1}^{m}(h_{\Theta }(x^{(i)}-y^{(i)})x_{j}^{(i)} +\frac{ \lambda }{m}\Theta_{j}]$
?????????????????????????????????????(j=1,2,3,4......,n)
????????}
????我們可以看到還是RGNN的實現(xiàn)只不過在一般梯度下降算法中采用了結(jié)合兩個代價函數(shù)的方法颤殴，即對13觅廓、14步中對W和A的更新是混合節(jié)點域?qū)褂?xùn)練（NodeDAT）和基于情緒感知的分布學(xué)習(xí)（EmotionDL）的損失函數(shù)的梯度， $\beta$ 表示節(jié)點域?qū)褂?xùn)練中域分離器所使用梯度反轉(zhuǎn)層（GRL）[注7]的比例因子涵但。

[注 7]：梯度反轉(zhuǎn)層是指在反向傳播期間反轉(zhuǎn)域分類器的梯度杈绸。
????? ? 節(jié)點域?qū)褂?xùn)練就是一個域分類器帖蔓。

????下面我們分別介紹節(jié)點域?qū)褂?xùn)練（NodeDAT）和基于情緒感知的分布學(xué)習(xí)（EmotionDL）。對于域分類器我們只寫出其損失函數(shù)瞳脓，不具體展開推導(dǎo)以及詳細(xì)優(yōu)勢和實現(xiàn)過程塑娇，選擇展開講解情緒感知的分布學(xué)習(xí)。
????領(lǐng)域分類器的目標(biāo)是最小化以下兩個二進(jìn)制交叉熵?fù)p失的總和：
???????????? $\Phi_{D}=-\sum_{i=1}^{N}\sum_{j=1}^{n}(log(p_{D}(0|X_{i}^{S})_{j}+log(p_{D}(1|X_{i}^{T})_{j}))$
????其中劫侧， $X^{S}$ 表示給定源域數(shù)據(jù)埋酬， $X^{T}$ 表示未標(biāo)記的目標(biāo)域數(shù)據(jù)。

????在SEED與SEED-IV腦電圖數(shù)據(jù)集上烧栋，分別可以劃分為三類和四類情緒写妥。SEED有積極、中性和消極三類情緒审姓，并有相應(yīng)的類指標(biāo)分別是 0 1 2珍特，將每個訓(xùn)練樣本標(biāo)簽 $Y_{i}\in {0,1......,C-1}$ 轉(zhuǎn)化為所有類的先驗概率分布 $\hat{Y}_{i}$ 如下：
???????????????????? $\hat{Y}_{i}=\left\{\begin{matrix} (1-\frac{2\epsilon }{3},\frac{2\epsilon }{3},0),Y_{i}=0\\ (\frac{\epsilon }{3},1-\frac{2\epsilon}{3},\frac{\epsilon }{3}),Y_{i}=1 \\ (0,\frac{2\epsilon }{3},1-\frac{2\epsilon }{3}),Y_{i}=2 \end{matrix}\right.$
????其中， $\epsilon \in[0魔吐，1]$ 表示在訓(xùn)練標(biāo)簽中控制噪聲水平的超參數(shù)扎筒。在SEED-IV的四類情緒分類的先驗概率分布 $\hat{Y}_{i}$ 與之類似，不再進(jìn)行贅述酬姆。
????在得到轉(zhuǎn)換后的類分布Y后嗜桌，我們的模型可以通過最小化以下Kullback-Leibler (KL) 散度[注8]來進(jìn)行優(yōu)化：
????????????????? ${\Phi}'=\sum_{i=1}^{N}KL(p(Y|X_{i},\Theta),\hat{Y}_{I})+\alpha \left \| A \right \|_{1}$

注8:??KL 散度(Kullback-Leibler Divergence)是一個用來衡量兩個概率分布的相似性的一個度量指標(biāo)。
????一般來說辞色，我們無法獲取數(shù)據(jù)的總體骨宠，我們只能拿到數(shù)據(jù)的部分樣本，根據(jù)數(shù)據(jù)的部分樣本淫僻，我們會對數(shù)據(jù)的整體做一個近似的估計诱篷，而數(shù)據(jù)整體本身有一個真實的分布（我們可能永遠(yuǎn)無法知道），那么近似估計的概率分布和數(shù)據(jù)整體真實的概率分布的相似度雳灵，或者說差異程度棕所，可以用 KL 散度來表示。具體可以參考關(guān)于KL散度的CSDN博客

作者后記

????完成本篇文章耗時大概一周悯辙，文章寫到后來尤其是關(guān)于應(yīng)用文獻(xiàn)部分很多沒有再展開講解琳省，留下許多待展開的地方。也是本人的文獻(xiàn)閱讀能力囿于一定水平躲撰，參考了許多別人的資料才勉勉強強完成针贬，也希望自己在未來的兩三年水平真正有所長進(jìn)，以本篇為始拢蛋，只是向上走桦他！!

最后編輯于：2020.03.13 14:35:41

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市谆棱，隨后出現(xiàn)的幾起案子快压，更是在濱河造成了極大的恐慌圆仔，老刑警劉巖，帶你破解...
沈念sama閱讀 211,042評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蔫劣，死亡現(xiàn)場離奇詭異坪郭，居然都是意外死亡，警方通過查閱死者的電腦和手機脉幢，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,996評論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門歪沃，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人嫌松，你說我怎么就攤上這事沪曙。” “怎么了豆瘫？”我有些...
開封第一講書人閱讀 156,674評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵珊蟀，是天一觀的道長。經(jīng)常有香客問我外驱，道長，這世上最難降的妖魔是什么腻窒？我笑而不...
開封第一講書人閱讀 56,340評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任昵宇，我火速辦了婚禮，結(jié)果婚禮上儿子，老公的妹妹穿的比我還像新娘瓦哎。我一直安慰自己，他們只是感情好柔逼，可當(dāng)我...
茶點故事閱讀 65,404評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布蒋譬。她就那樣靜靜地躺著，像睡著了一般愉适。火紅的嫁衣襯著肌膚如雪犯助。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,749評論 1贊 289
城市分裂傳說
那天维咸，我揣著相機與錄音剂买，去河邊找鬼。笑死癌蓖，一個胖子當(dāng)著我的面吹牛瞬哼，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播租副，決...
沈念sama閱讀 38,902評論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼坐慰，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了用僧？” 一聲冷哼從身側(cè)響起结胀，我...
開封第一講書人閱讀 37,662評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤两残，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后把跨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體人弓，經(jīng)...
沈念sama閱讀 44,110評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,451評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年着逐，在試婚紗的時候發(fā)現(xiàn)自己被綠了崔赌。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,577評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡耸别，死狀恐怖健芭，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情秀姐，我是刑警寧澤慈迈，帶...
沈念sama閱讀 34,258評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站省有，受9級特大地震影響痒留，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蠢沿，卻給世界環(huán)境...
茶點故事閱讀 39,848評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一伸头、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧舷蟀，春花似錦恤磷、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,726評論 0贊 21
一樁弒父案扫步，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至匈子，卻和暖如春河胎，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背旬牲。一陣腳步聲響...
開封第一講書人閱讀 31,952評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工仿粹，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人原茅。一個月前我還...
沈念sama閱讀 46,271評論 2贊 360
代替公主和親
正文我出身青樓吭历，卻偏偏與公主長得像，于是被迫代替她去往敵國和親擂橘。傳聞我的和親對象是個殘疾皇子晌区，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,452評論 2贊 348