1 激活函數(shù)限制
激活函數(shù)是在預(yù)測(cè)時(shí)應(yīng)用于一層神經(jīng)元的函數(shù)霞捡。激活函數(shù)有以下的限制:
約束1:函數(shù)必須連續(xù)且定義域是無(wú)窮的
約束2:好的激活函數(shù)是單調(diào)的融柬,不會(huì)改變方向
神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)時(shí),實(shí)際上是在尋找合適的權(quán)重配置來(lái)給出特定的輸出举哟。如果有多個(gè)正確答案時(shí)亦鳞,這個(gè)問(wèn)題會(huì)變得困難得多馍忽。
約束3:好的激活函數(shù)是非線性的(扭曲或反轉(zhuǎn))
約束4:合適的激活函數(shù)(及其導(dǎo)數(shù))應(yīng)該可以高效計(jì)算
2 標(biāo)準(zhǔn)隱藏層激活函數(shù)
1、基礎(chǔ)激活函數(shù) sigmoid 能平滑地將輸入從無(wú)窮大的空間壓縮到 0 到 1 之間燕差。這可以讓你把單個(gè)神經(jīng)元的輸出解釋為一個(gè)概率遭笋。人們通常在隱藏層和輸出層之中使用這種非線性函數(shù)。sigmoid 函數(shù)能給出不同程度的正相關(guān)
2谁不、tanh 函數(shù)能完成 sigmoid 一樣的工作坐梯,只是它的取值在 -1 和 1 之間,這意味著刹帕,它可以引入一部分負(fù)相關(guān)吵血,負(fù)相關(guān)對(duì)于隱藏層來(lái)說(shuō)作用很大
3 標(biāo)準(zhǔn)輸出層激活函數(shù)
類(lèi)型1:預(yù)測(cè)原始數(shù)據(jù)值(沒(méi)有激活函數(shù))
給定周?chē)髦莸臍鉁鼗烟妫A(yù)測(cè)科羅拉多州的平均氣溫。輸出結(jié)果不在 0 到 1 之間蹋辅,可以不選擇激活函數(shù)
類(lèi)型2:預(yù)測(cè)不相關(guān)的“是”或“否”的概率(sigmoid)
根據(jù)輸入數(shù)據(jù)預(yù)測(cè)團(tuán)隊(duì)是否會(huì)贏钱贯,是否會(huì)受傷,以及團(tuán)隊(duì)士氣是否高漲侦另,適合使用 sigmoid激活函數(shù)秩命,它能對(duì)每個(gè)輸出節(jié)點(diǎn)分別建模
類(lèi)型3:預(yù)測(cè)“哪一個(gè)”的概率(softmax)
如 MNIST 數(shù)字分類(lèi)器,預(yù)測(cè)圖像中是哪個(gè)數(shù)字褒傅,需要一個(gè)激活函數(shù)對(duì) “當(dāng)出現(xiàn)一個(gè)標(biāo)簽的可能性越大時(shí)弃锐,出現(xiàn)另一個(gè)標(biāo)簽的可能性就越小”這一概念進(jìn)行建模。sofmax 函數(shù)比較合適
softmax計(jì)算每個(gè)輸入值的指數(shù)形式殿托,除以該層的和霹菊,常用于分類(lèi)問(wèn)題。softmax 的好處是支竹,神經(jīng)網(wǎng)絡(luò)對(duì)于一個(gè)值的預(yù)測(cè)越高旋廷,它對(duì)所有其他值的預(yù)測(cè)就越低。它增加了信號(hào)衰減的銳度礼搁,鼓勵(lì)網(wǎng)絡(luò)以非常高的概率預(yù)測(cè)某項(xiàng)輸出
使用tanh函數(shù)帶圖relu函數(shù)饶碘,看效果:
import sys,numpy as np
np.random.seed(1)
from keras.datasets import mnist
(x_train,y_train),(x_test,y_test) = mnist.load_data()
#維度分別為(60000,28,28),((60000,)
x_train.shape,y_train.shape
#維度分別為(1000,28*28),((1000,)
#功能:降維,進(jìn)行標(biāo)準(zhǔn)化
images,labels = (x_train[0:1000].reshape(1000,28*28)/255,y_train[0:1000])
#維度是(1000,10)
one_hot_labels = np.zeros((len(labels),10))
#這個(gè)是結(jié)果的維度(1000,10),在0-9的的對(duì)應(yīng)位置上標(biāo)記為1馒吴,其余位置標(biāo)記為0
for i,l in enumerate(labels):
one_hot_labels[i][l] = 1
labels = one_hot_labels
test_images = x_test.reshape(len(x_test),28*28)/255
test_labels = np.zeros((len(y_test),10))
for i,l in enumerate(y_test):
test_labels[i][l] = 1
#relu = lambda x:(x>0) * x
#relu2deriv = lambda x:x>0
def tanh(x):
return np.tanh(x)
def tanh2deriv(output):
return 1-(output**2)
#沿著第一維進(jìn)行求和扎运,保留數(shù)組的維度
def softmax(x):
temp = np.exp(x)
return temp/np.sum(temp,axis=1,keepdims=True)
#三層神經(jīng)網(wǎng)絡(luò) layer0 為 784,layer1 隱藏層為 40饮戳,layer2 結(jié)果層為10
alpha,interations,hidden_size,pixels_per_image,num_labels = (0.02,300,188,784,10)
#初始化權(quán)重
weight_0_1 = 0.02*np.random.random((pixels_per_image,hidden_size)) - 0.01
weight_1_2 = 0.2*np.random.random((hidden_size,num_labels)) - 0.1
batch_size = 100
for j in range(interations):
error,correct_cnt = (0.0,0)
for i in range(int(len(images)/batch_size)):
batch_start,batch_end = ((i*batch_size),((i+1)*batch_size))
#維度(100绪囱,784)
layer_0 = images[batch_start:batch_end]
layer_1 = tanh(np.dot(layer_0,weight_0_1))
dropout_mask = np.random.randint(2,size=layer_1.shape)
layer_1 *= dropout_mask * 2
layer_2 = np.dot(layer_1,weight_1_2)
error += np.sum((labels[batch_start:batch_end] - layer_2)**2)
for k in range(batch_size):
correct_cnt += int(np.argmax(layer_2[k:k+1]) == np.argmax(labels[batch_start+k:batch_start+k+1]))
#取平均權(quán)重
layer_2_delta = (labels[batch_start:batch_end] - layer_2)/batch_size
layer_1_delta = layer_2_delta.dot(weight_1_2.T)*tanh2deriv(layer_1)
layer_1_delta *= dropout_mask
weight_1_2 += alpha * layer_1.T.dot(layer_2_delta)
weight_0_1 += alpha * layer_0.T.dot(layer_1_delta)
test_correct_cnt = 0
for i in range(len(test_images)):
layer_0 = test_images[i:i+1]
layer_1 = tanh(np.dot(layer_0,weight_0_1))
layer_2 = np.dot(layer_1,weight_1_2)
test_correct_cnt += int(np.argmax(layer_2) == np.argmax(test_labels[i:i+1]))
if (j%10 == 0):
sys.stdout.write("\n" + "I:" + str(j) + " Test-Acc:" +str(test_correct_cnt/float(len(test_images))) + \
" Train-Acc:" +str(correct_cnt/float(len(images))))
4 參考資料
《深度學(xué)習(xí)圖解》