什么叫過擬合和欠擬合博投?
我們在模型訓練的時候躯喇,通過把數(shù)據(jù)劃分成訓練集和測試集怖竭,然后選擇Loss函數(shù)來評估訓練效果怎么樣可岂,其loss函數(shù)在訓練集上的值叫訓練誤差岸售,在測試集上叫泛化誤差践樱,當訓練誤差比較大的時候,可能說明模型參數(shù)量比較小凸丸,難以擬合所有數(shù)據(jù)特征拷邢,稱為欠擬合。反之當訓練誤差比較小屎慢,但是泛化誤差比較大的時候瞭稼,說明模型雖然在訓練集上有不錯的表現(xiàn),但是在未見過的測試集上表現(xiàn)較差的這種現(xiàn)象稱過擬合腻惠。
那什么是正則化呢环肘,花書上說“凡是能夠減少泛化誤差的方法”都叫正則化。因此正則化是防止過擬合和提高模型泛化性能的一類方法的統(tǒng)稱集灌。
本文記錄一下悔雹,經(jīng)典的正則化方法有以下幾種:
● Dropout - 在全連接層中隨機丟棄部分神經(jīng)元節(jié)點,產(chǎn)生一個簡化了的網(wǎng)絡結(jié)構(gòu)
● L1/L2正則化 - 在原始的損失函數(shù)中增加L1/L2的懲罰項欣喧,從而限制產(chǎn)生較大的權(quán)重w
● Batch normalization - 控制隱層的輸出在一個穩(wěn)定的范圍內(nèi)
● 數(shù)據(jù)增強 - 通過增加數(shù)據(jù)集多樣性的方式避免過擬合
● Early stopping - 在達到模型過擬合的階段前停止訓練模型
1 Dropout (隨機失效)
Dropout通過隨機地將一些神經(jīng)元的輸出置零腌零,迫使模型不依賴于特定的神經(jīng)元,從而增強了模型的泛化能力唆阿。這樣益涧,每個神經(jīng)元都將學習到與其他神經(jīng)元合作的特征,而不是過度依賴于某些特定的神經(jīng)元驯鳖。
在PyTorch中闲询,可以通過在網(wǎng)絡層中添加torch.nn.Dropout層來實現(xiàn)Dropout。例如:
import torch
import torch.nn as nn
if __name__ == '__main__':
# 創(chuàng)建一個4行5列的矩陣
matrix = torch.randn(4, 5)
# 定義Dropout層浅辙,設置p參數(shù)為0.2扭弧,表示將20%的元素設置為0
dropout = nn.Dropout(p=0.2)
# 應用Dropout層
matrix_dropout = dropout(matrix)
print("原始矩陣:")
print(matrix)
print()
print("應用Dropout后的矩陣:")
print(matrix_dropout)
輸出:
原始矩陣:
tensor([[ 0.1143, -1.0621, 0.7031, -0.7662, -1.1596],
[-0.8340, -0.8210, -0.8747, 1.3130, -2.2559],
[-0.6311, 0.4332, 2.6923, 0.0424, 1.1330],
[ 1.7028, 0.3254, 0.1760, 1.9037, -0.2492]])
應用Dropout后的矩陣:
tensor([[ 0.1429, -1.3276, 0.8788, -0.9577, -1.4495],
[-1.0425, -1.0262, -1.0934, 1.6413, -2.8199],
[-0.0000, 0.5415, 3.3653, 0.0000, 0.0000],
[ 0.0000, 0.4068, 0.2201, 0.0000, -0.3115]])
數(shù)一數(shù)剛剛好4個0。在舉一個例子摔握,在實際網(wǎng)絡中應用也比較簡單寄狼。
import torch
import torch.nn as nn
# 定義一個簡單的神經(jīng)網(wǎng)絡
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.fc1 = nn.Linear(100, 64)
self.dropout = nn.Dropout(0.5)
self.fc2 = nn.Linear(64, 10)
def forward(self, x):
x = self.fc1(x)
x = self.dropout(x)
x = torch.relu(x)
x = self.fc2(x)
return x
# 創(chuàng)建網(wǎng)絡實例
net = Net()
# 在訓練過程中使用dropout
net.train()
# 在測試過程中禁用dropout
net.eval()
在訓練過程中,通過調(diào)用net.train()啟用Dropout層氨淌,而在測試過程中泊愧,通過調(diào)用net.eval()禁用Dropout層。這是因為在訓練過程中盛正,Dropout層會隨機丟棄神經(jīng)元的輸出删咱,而在測試過程中,我們希望保留所有神經(jīng)元的輸出來獲得更準確的預測結(jié)果豪筝。
2 L1/L2正則化
Loss函數(shù):
2.1 為什么L1痰滋,L2正則可以解決過擬合問題摘能?
答:模型的復雜度和參數(shù)的數(shù)量和參數(shù)的范圍決定,擬合過程中通常都傾向于讓權(quán)值盡可能小敲街,最后構(gòu)造一個所有參數(shù)都比較小的模型团搞。因為一般認為參數(shù)值小的模型比較簡單,能適應不同的數(shù)據(jù)集多艇,也在一定程度上避免了過擬合現(xiàn)象逻恐。可以設想一下對于一個線性回歸方程峻黍,若參數(shù)很大复隆,那么只要數(shù)據(jù)偏移一點點,就會對結(jié)果造成很大的影響姆涩;但如果參數(shù)足夠小挽拂,數(shù)據(jù)偏移得多一點也不會對結(jié)果造成什么影響,專業(yè)一點的說法是抗擾動能力強骨饿。
L1正則:
其中亏栈,λ是正則化系數(shù),控制正則化的強度样刷;||w||?表示參數(shù)向量w的L1范數(shù)仑扑。
L2正則:
其中,λ是正則化系數(shù)置鼻,控制正則化的強度;||w||?表示參數(shù)向量w的L2范數(shù)蜓竹。
給定特征X箕母,訓練模型得到的能滿足測試集和驗證集w值,可能有多個(求導的解不止一組)俱济,有的w值比較大嘶是,有的w值比較小,為了降低模型的復雜度蛛碌,我們需要限制一下w的值聂喇,即想求解到比較小的w值,因此我們在損失函數(shù)后面直接加上了λ(w)蔚携,由于梯度下降希太,為了使得總體L值小,那么后面的w也要比較小酝蜒,從而得到使得模型的復雜度降低誊辉,從而解決過擬合問題。
2.2 為啥對參數(shù)w進行限制亡脑,不對參數(shù)B進行限制呢
因為B只能是曲線上下移動堕澄,不能降低復雜度
2.3 訓練時如何確定λ值
考慮二維的情況邀跃,即只有兩個權(quán)值和 ,此時對于梯度下降法蛙紫,求解函數(shù)的過程可以畫出等值線拍屑,同時L1正則化的函數(shù)也可以在二維平面上畫出來。如下圖:
圖中彩色圓圈線是Loss中前半部分待優(yōu)化項的等高線坑傅,就是說在同一條線上其取值相同丽涩,且越靠近中心其值越小。
黑色菱形區(qū)域是L1正則項限制裁蚁。帶有正則化的loss函數(shù)的最優(yōu)解要在黑色菱形區(qū)域和彩色圓圈線之間折中矢渊,也就是說最優(yōu)解出現(xiàn)在圖中優(yōu)化項等高線與正則化區(qū)域相交處。從圖中可以看出枉证,當待優(yōu)化項的等高線逐漸向正則項限制區(qū)域擴散時矮男,L1正則化的交點大多在坐標軸上,則很多特征維度上其參數(shù)w為0室谚,因此會產(chǎn)生稀疏解毡鉴;而正則化前面的系數(shù),可以控制圖形的大小秒赤。越小猪瞬,約束項的圖形越大(上圖中的黑色方框);越大入篮,約束項的圖形就越小陈瘦,可以小到黑色方框只超出原點范圍一點點,這是最優(yōu)點的值中的可以取到很小的值潮售。
同時L2正則化的函數(shù)也可以在二維平面上畫出來痊项。如下圖:
圖中彩色一圈一圈的線是Loss中前半部分待優(yōu)化項的等高線,就是說在同一條線上其取值相同酥诽,且越靠近中心其值越小鞍泉。圖中黑色圓形區(qū)域是L2正則項限制。帶有正則化的loss函數(shù)的最優(yōu)解要在loss函數(shù)和正則項之間折中肮帐,也就是說最優(yōu)解出現(xiàn)在圖中優(yōu)化項等高線與正則化區(qū)域相交處咖驮。從圖中可以看出,當待優(yōu)化項的等高線逐漸向正則項限制區(qū)域擴散時L2正則化的交點大多在非坐標軸上训枢,二維平面下L2正則化的函數(shù)圖形是個圓托修,與方形相比,被磨去了棱角肮砾。因此與相交時使得或等于零的機率小了許多诀黍,這就是為什么L2正則化不具有稀疏性的原因。
一般來說仗处,λ的確定眯勾,從0開始枣宫,逐漸增大λ。在訓練集上學習到參數(shù)吃环,然后在測試集上驗證誤差也颤。反復進行這個過程,直到測試集上的誤差最小郁轻。一般的說翅娶,隨著λ從0開始增大,測試集的誤分類率應該是先減小后增大好唯,交叉驗證的目的竭沫,就是為了找到誤分類率最小的那個位置。建議一開始將正則項系數(shù)λ設置為0骑篙,先確定一個比較好的learning rate蜕提。然后固定該learning rate,給λ一個值(比如1.0)靶端,然后根據(jù)validation accuracy谎势,將λ增大或者減小10倍,增減10倍是粗調(diào)節(jié)杨名,當你確定了λ的合適的數(shù)量級后脏榆,比如λ= 0.01,再進一步地細調(diào)節(jié)台谍,比如調(diào)節(jié)為0.02须喂,0.03,0.009之類典唇。