深度學習第八篇---正則化

什么叫過擬合和欠擬合博投?

我們在模型訓練的時候躯喇,通過把數(shù)據(jù)劃分成訓練集和測試集怖竭,然后選擇Loss函數(shù)來評估訓練效果怎么樣可岂,其loss函數(shù)在訓練集上的值叫訓練誤差岸售,在測試集上叫泛化誤差践樱,當訓練誤差比較大的時候,可能說明模型參數(shù)量比較小凸丸,難以擬合所有數(shù)據(jù)特征拷邢,稱為欠擬合。反之當訓練誤差比較小屎慢,但是泛化誤差比較大的時候瞭稼,說明模型雖然在訓練集上有不錯的表現(xiàn),但是在未見過的測試集上表現(xiàn)較差的這種現(xiàn)象稱過擬合腻惠。

那什么是正則化呢环肘,花書上說“凡是能夠減少泛化誤差的方法”都叫正則化。因此正則化是防止過擬合和提高模型泛化性能的一類方法的統(tǒng)稱集灌。
本文記錄一下悔雹,經(jīng)典的正則化方法有以下幾種:
● Dropout - 在全連接層中隨機丟棄部分神經(jīng)元節(jié)點,產(chǎn)生一個簡化了的網(wǎng)絡結(jié)構(gòu)
● L1/L2正則化 - 在原始的損失函數(shù)中增加L1/L2的懲罰項欣喧,從而限制產(chǎn)生較大的權(quán)重w
● Batch normalization - 控制隱層的輸出在一個穩(wěn)定的范圍內(nèi)
● 數(shù)據(jù)增強 - 通過增加數(shù)據(jù)集多樣性的方式避免過擬合
● Early stopping - 在達到模型過擬合的階段前停止訓練模型

1 Dropout (隨機失效)

Dropout通過隨機地將一些神經(jīng)元的輸出置零腌零,迫使模型不依賴于特定的神經(jīng)元,從而增強了模型的泛化能力唆阿。這樣益涧,每個神經(jīng)元都將學習到與其他神經(jīng)元合作的特征,而不是過度依賴于某些特定的神經(jīng)元驯鳖。
在PyTorch中闲询,可以通過在網(wǎng)絡層中添加torch.nn.Dropout層來實現(xiàn)Dropout。例如:

import torch
import torch.nn as nn

if __name__ == '__main__':
   # 創(chuàng)建一個4行5列的矩陣
   matrix = torch.randn(4, 5)

   # 定義Dropout層浅辙,設置p參數(shù)為0.2扭弧,表示將20%的元素設置為0
   dropout = nn.Dropout(p=0.2)

   # 應用Dropout層
   matrix_dropout = dropout(matrix)

   print("原始矩陣:")
   print(matrix)
   print()
   print("應用Dropout后的矩陣:")
   print(matrix_dropout)

輸出:

原始矩陣:
tensor([[ 0.1143, -1.0621,  0.7031, -0.7662, -1.1596],
       [-0.8340, -0.8210, -0.8747,  1.3130, -2.2559],
       [-0.6311,  0.4332,  2.6923,  0.0424,  1.1330],
       [ 1.7028,  0.3254,  0.1760,  1.9037, -0.2492]])

應用Dropout后的矩陣:
tensor([[ 0.1429, -1.3276,  0.8788, -0.9577, -1.4495],
       [-1.0425, -1.0262, -1.0934,  1.6413, -2.8199],
       [-0.0000,  0.5415,  3.3653,  0.0000,  0.0000],
       [ 0.0000,  0.4068,  0.2201,  0.0000, -0.3115]])

數(shù)一數(shù)剛剛好4個0。在舉一個例子摔握,在實際網(wǎng)絡中應用也比較簡單寄狼。

import torch
import torch.nn as nn

# 定義一個簡單的神經(jīng)網(wǎng)絡
class Net(nn.Module):
   def __init__(self):
       super(Net, self).__init__()
       self.fc1 = nn.Linear(100, 64)
       self.dropout = nn.Dropout(0.5)
       self.fc2 = nn.Linear(64, 10)

   def forward(self, x):
       x = self.fc1(x)
       x = self.dropout(x)
       x = torch.relu(x)
       x = self.fc2(x)
       return x

# 創(chuàng)建網(wǎng)絡實例
net = Net()

# 在訓練過程中使用dropout
net.train()

# 在測試過程中禁用dropout
net.eval()

在訓練過程中,通過調(diào)用net.train()啟用Dropout層氨淌,而在測試過程中泊愧,通過調(diào)用net.eval()禁用Dropout層。這是因為在訓練過程中盛正,Dropout層會隨機丟棄神經(jīng)元的輸出删咱,而在測試過程中,我們希望保留所有神經(jīng)元的輸出來獲得更準確的預測結(jié)果豪筝。

2 L1/L2正則化

Loss函數(shù):


2.1 為什么L1痰滋,L2正則可以解決過擬合問題摘能?

答:模型的復雜度和參數(shù)的數(shù)量和參數(shù)的范圍決定,擬合過程中通常都傾向于讓權(quán)值盡可能小敲街,最后構(gòu)造一個所有參數(shù)都比較小的模型团搞。因為一般認為參數(shù)值小的模型比較簡單,能適應不同的數(shù)據(jù)集多艇,也在一定程度上避免了過擬合現(xiàn)象逻恐。可以設想一下對于一個線性回歸方程峻黍,若參數(shù)很大复隆,那么只要數(shù)據(jù)偏移一點點,就會對結(jié)果造成很大的影響姆涩;但如果參數(shù)足夠小挽拂,數(shù)據(jù)偏移得多一點也不會對結(jié)果造成什么影響,專業(yè)一點的說法是抗擾動能力強骨饿。

L1正則:



其中亏栈,λ是正則化系數(shù),控制正則化的強度样刷;||w||?表示參數(shù)向量w的L1范數(shù)仑扑。

L2正則:


其中,λ是正則化系數(shù)置鼻,控制正則化的強度;||w||?表示參數(shù)向量w的L2范數(shù)蜓竹。

給定特征X箕母,訓練模型得到的能滿足測試集和驗證集w值,可能有多個(求導的解不止一組)俱济,有的w值比較大嘶是,有的w值比較小,為了降低模型的復雜度蛛碌,我們需要限制一下w的值聂喇,即想求解到比較小的w值,因此我們在損失函數(shù)后面直接加上了λ(w)蔚携,由于梯度下降希太,為了使得總體L值小,那么后面的w也要比較小酝蜒,從而得到使得模型的復雜度降低誊辉,從而解決過擬合問題。

2.2 為啥對參數(shù)w進行限制亡脑,不對參數(shù)B進行限制呢

因為B只能是曲線上下移動堕澄,不能降低復雜度

2.3 訓練時如何確定λ值

考慮二維的情況邀跃,即只有兩個權(quán)值和 ,此時對于梯度下降法蛙紫,求解函數(shù)的過程可以畫出等值線拍屑,同時L1正則化的函數(shù)也可以在二維平面上畫出來。如下圖:

圖中彩色圓圈線是Loss中前半部分待優(yōu)化項的等高線坑傅,就是說在同一條線上其取值相同丽涩,且越靠近中心其值越小。
黑色菱形區(qū)域是L1正則項限制裁蚁。帶有正則化的loss函數(shù)的最優(yōu)解要在黑色菱形區(qū)域和彩色圓圈線之間折中矢渊,也就是說最優(yōu)解出現(xiàn)在圖中優(yōu)化項等高線與正則化區(qū)域相交處。從圖中可以看出枉证,當待優(yōu)化項的等高線逐漸向正則項限制區(qū)域擴散時矮男,L1正則化的交點大多在坐標軸上,則很多特征維度上其參數(shù)w為0室谚,因此會產(chǎn)生稀疏解毡鉴;而正則化前面的系數(shù),可以控制圖形的大小秒赤。越小猪瞬,約束項的圖形越大(上圖中的黑色方框);越大入篮,約束項的圖形就越小陈瘦,可以小到黑色方框只超出原點范圍一點點,這是最優(yōu)點的值中的可以取到很小的值潮售。

同時L2正則化的函數(shù)也可以在二維平面上畫出來痊项。如下圖:

圖中彩色一圈一圈的線是Loss中前半部分待優(yōu)化項的等高線,就是說在同一條線上其取值相同酥诽,且越靠近中心其值越小鞍泉。圖中黑色圓形區(qū)域是L2正則項限制。帶有正則化的loss函數(shù)的最優(yōu)解要在loss函數(shù)和正則項之間折中肮帐,也就是說最優(yōu)解出現(xiàn)在圖中優(yōu)化項等高線與正則化區(qū)域相交處咖驮。從圖中可以看出,當待優(yōu)化項的等高線逐漸向正則項限制區(qū)域擴散時L2正則化的交點大多在非坐標軸上训枢,二維平面下L2正則化的函數(shù)圖形是個圓托修,與方形相比,被磨去了棱角肮砾。因此與相交時使得或等于零的機率小了許多诀黍,這就是為什么L2正則化不具有稀疏性的原因。

一般來說仗处,λ的確定眯勾,從0開始枣宫,逐漸增大λ。在訓練集上學習到參數(shù)吃环,然后在測試集上驗證誤差也颤。反復進行這個過程,直到測試集上的誤差最小郁轻。一般的說翅娶,隨著λ從0開始增大,測試集的誤分類率應該是先減小后增大好唯,交叉驗證的目的竭沫,就是為了找到誤分類率最小的那個位置。建議一開始將正則項系數(shù)λ設置為0骑篙,先確定一個比較好的learning rate蜕提。然后固定該learning rate,給λ一個值(比如1.0)靶端,然后根據(jù)validation accuracy谎势,將λ增大或者減小10倍,增減10倍是粗調(diào)節(jié)杨名,當你確定了λ的合適的數(shù)量級后脏榆,比如λ= 0.01,再進一步地細調(diào)節(jié)台谍,比如調(diào)節(jié)為0.02须喂,0.03,0.009之類典唇。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末镊折,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子介衔,更是在濱河造成了極大的恐慌,老刑警劉巖骂因,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件炎咖,死亡現(xiàn)場離奇詭異,居然都是意外死亡寒波,警方通過查閱死者的電腦和手機乘盼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來俄烁,“玉大人绸栅,你說我怎么就攤上這事∫惩溃” “怎么了粹胯?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵蓖柔,是天一觀的道長。 經(jīng)常有香客問我风纠,道長况鸣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任竹观,我火速辦了婚禮镐捧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘臭增。我一直安慰自己懂酱,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布誊抛。 她就那樣靜靜地躺著列牺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪芍锚。 梳的紋絲不亂的頭發(fā)上昔园,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音并炮,去河邊找鬼默刚。 笑死,一個胖子當著我的面吹牛逃魄,可吹牛的內(nèi)容都是我干的荤西。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼伍俘,長吁一口氣:“原來是場噩夢啊……” “哼邪锌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起癌瘾,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤觅丰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后妨退,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體妇萄,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年咬荷,在試婚紗的時候發(fā)現(xiàn)自己被綠了冠句。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡幸乒,死狀恐怖懦底,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情罕扎,我是刑警寧澤聚唐,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布丐重,位于F島的核電站,受9級特大地震影響拱层,放射性物質(zhì)發(fā)生泄漏弥臼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一根灯、第九天 我趴在偏房一處隱蔽的房頂上張望径缅。 院中可真熱鬧,春花似錦烙肺、人聲如沸纳猪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽氏堤。三九已至,卻和暖如春搏明,著一層夾襖步出監(jiān)牢的瞬間鼠锈,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工星著, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留购笆,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓虚循,卻偏偏與公主長得像同欠,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子横缔,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容