1 為什么需要非線性激活函數(shù)白胀?
如果使用線性激活函數(shù)箱沦,那么這個模型的輸出不過是你輸入特征x的線性組合陈醒。神經(jīng)網(wǎng)絡(luò)只是把輸入線性組合再輸出惕橙。
所以即使你有很多個隱含層,但是你如果使用線性激活函數(shù)或者不用激活函數(shù)孵延,一直在做的只是計(jì)算線性激活函數(shù)吕漂,所以還不如直接去掉全部隱藏層。所以除非引入非線性尘应,那么無法計(jì)算更有趣的函數(shù)惶凝。
只有一個地方可以使用線性激活函數(shù),那就是回歸問題犬钢〔韵剩或者在輸出層用也是可以的。
2 四個非線性激活函數(shù)
Sigmoid(左上角):
現(xiàn)在吳恩達(dá)幾乎從來不用sigmoid激活函數(shù)了玷犹,但是吳恩達(dá)會用sigmoid的一個例外場合是進(jìn)行二元分類時混滔。
缺點(diǎn):
1、Sigmoid容易飽和,并且當(dāng)輸入非常大或者非常小的時候坯屿,神經(jīng)元的梯度就接近于0了油湖,從圖中可以看出梯度的趨勢。這就使得我們在反向傳播算法中反向傳播接近于0的梯度领跛,導(dǎo)致最終權(quán)重基本沒什么更新乏德,我們就無法遞歸地學(xué)習(xí)到輸入數(shù)據(jù)了。另外吠昭,你需要尤其注意參數(shù)的初始值來盡量避免saturation的情況喊括。如果你的初始值很大的話,大部分神經(jīng)元可能都會處在saturation的狀態(tài)而把gradient kill掉矢棚,這會導(dǎo)致網(wǎng)絡(luò)變的很難學(xué)習(xí)郑什。容易飽和這個問題叫做 “梯度飽和” ,也可以叫 “梯度彌散” 蒲肋。
2蘑拯、Sigmoid 的輸出不是0均值的,這是我們不希望的肉津,因?yàn)檫@會導(dǎo)致后層的神經(jīng)元的輸入是非0均值的信號强胰,這會對梯度產(chǎn)生影響:假設(shè)后層神經(jīng)元的輸入都為正(e.g. x>0 elementwise in ),那么在反向傳播的過程中對w求梯度要么都為正,要么都為負(fù)(取決于整個表達(dá)式 f 的梯度)妹沙。這可能會在權(quán)重的梯度更新中引入不受歡迎的zig-zagging動態(tài)偶洋。導(dǎo)致有一種捆綁的效果,使得收斂緩慢距糖。當(dāng)然了玄窝,如果你是按batch去訓(xùn)練,那么每個batch可能得到不同的符號(正或負(fù))悍引,那么相加一下這個問題還是可以緩解恩脂。因此,非0均值這個問題雖然會產(chǎn)生一些不好的影響趣斤,不過跟上面提到的 kill gradients 問題相比還是要好很多的俩块。
Relu(左下角):
Relu:a = max(0,z),但是當(dāng)z = 0時浓领,導(dǎo)數(shù)是沒有定義的玉凯,但如果編程實(shí)現(xiàn),你得到的z剛好等于0.000000000000的概率很低联贩,所以不必?fù)?dān)心漫仆。
Relu已經(jīng)變成激活函數(shù)的默認(rèn)選擇了,當(dāng)你不知道因隱層到底該用哪個激活函數(shù)時泪幌,就可以用relu盲厌。雖然有人也會用tanh署照。Relu的一個缺點(diǎn):當(dāng)z為負(fù)時,導(dǎo)數(shù)等于0吗浩。但在實(shí)際中卻沒有什么問題建芙。雖然對于z的一半范圍來說,relu的斜率為0拓萌,但在實(shí)踐中岁钓,有足夠多的隱藏單元令z大于0升略,所以對于大多數(shù)訓(xùn)練樣本來說還是很快的微王。
3 實(shí)戰(zhàn)一 —— 輸入tensor觀察非線性激活函數(shù)的作用
import torch
from torch import nn
from torch.nn import ReLU,Sigmoid
input = torch.tensor([[1, -0.5],
[-1, 3]])
input = torch.reshape(input,(-1, 1, 2, 2))
print((input.shape))
class Linyu(nn.Module):
def __init__(self):
super(Linyu, self).__init__()
self.relu1 = ReLU()
def forward(self,input):
output = self.relu1(input)
return output
linyu = Linyu()
output = linyu(input)
print(output)
輸出:
torch.Size([1, 1, 2, 2])
tensor([[[[1., 0.],
[0., 3.]]]])
實(shí)戰(zhàn)二 —— 非線性激活函數(shù)在圖像處理中的使用
import torch
from torch import nn
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torch.nn import ReLU,Sigmoid
dataset = torchvision.datasets.CIFAR10("../dataset",train=False,download=True,
transform=torchvision.transforms.ToTensor())
dataloader = DataLoader(dataset,batch_size=64,drop_last=True)
class Linyu(nn.Module):
def __init__(self):
super(Linyu, self).__init__()
self.relu1 = ReLU()
self.sigmoid1 = Sigmoid()
def forward(self,input):
# output = self.relu1(input)
output = self.sigmoid1(input)
return output
linyu = Linyu()
writer = SummaryWriter("../logs/P16_logs")
step = 0
for data in dataloader:
imgs, targets = data
writer.add_images("input",imgs,step)
# output = linyu(imgs)
# writer.add_images("output",output,step)
sigmoid1 = linyu(imgs)
writer.add_images("sigmoid",sigmoid1,step)
step += 1
writer.close()
輸出:
第一張是原始數(shù)據(jù),第二張是經(jīng)過ReLU激活函數(shù)的結(jié)果品嚣,第三張是經(jīng)過sigmoid激活函數(shù)的結(jié)果炕倘。
參考資料:
1.https://blog.csdn.net/NIGHT_SILENT/article/details/80806644