我們把神經(jīng)網(wǎng)絡(luò)從輸入到輸出的計(jì)算過程叫做前向傳播(Forward propagation)效诅。神經(jīng)網(wǎng)絡(luò)的前向傳播過程胀滚,也是數(shù)據(jù)張量(Tensor)從第一層流動(dòng)(Flow)至輸出層的過程:從輸入數(shù)據(jù)開始,途徑每個(gè)隱藏層乱投,直至得到輸出并計(jì)算誤差咽笼,這也是TensorFlow 框架名字意義所在。
激活函數(shù)的由來和意義
感知機(jī)(Perception)是線性模型戚炫,并不能處理線性不可分問題剑刑。通過在線性模型后添加激活函數(shù)(Activation function)后得到活性值(Activation)。添加激活函數(shù)后双肤,感知機(jī)可以用來完成二分類任務(wù)的分類施掏。階躍函數(shù)和符號(hào)函數(shù)在?? =0處是不連續(xù)的,其他位置導(dǎo)數(shù)為0茅糜,無法利用梯度下降算法進(jìn)行參數(shù)優(yōu)化其监。
神經(jīng)網(wǎng)絡(luò)(neural network):感知機(jī)模型的不可導(dǎo)特性嚴(yán)重約束了它的潛力,使得它只能解決極其簡單的任務(wù)限匣。實(shí)際上抖苦,現(xiàn)代深度學(xué)習(xí)動(dòng)輒數(shù)百萬甚至上億的參數(shù)規(guī)模,它的核心結(jié)構(gòu)與感知機(jī)并沒有多大差別米死,它在感知機(jī)的基礎(chǔ)上锌历,將不連續(xù)的階躍激活函數(shù)換成了其他平滑連續(xù)激活函數(shù),并通過堆疊多層網(wǎng)絡(luò)層來增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力峦筒。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
1 Sigmoid
- 優(yōu)點(diǎn):它的一個(gè)優(yōu)良特性就是能夠把?? ∈ ??的輸入“壓縮”到?? ∈ [0,1]區(qū)間究西,這個(gè)區(qū)間的數(shù)值在機(jī)器學(xué)習(xí)常用來表示以下意義:概率分布和信號(hào)強(qiáng)度。Sigmoid 函數(shù)連續(xù)可導(dǎo)物喷,相對(duì)于階躍函數(shù)卤材,可以直接利用梯度下降算法優(yōu)化網(wǎng)絡(luò)參數(shù)遮斥,應(yīng)用的非常廣泛。
- 缺點(diǎn):但是Sigmoid 函數(shù)在輸入值較大或較小時(shí)容易出現(xiàn)梯度值接近于0 的現(xiàn)象扇丛,稱為梯度彌散現(xiàn)象术吗,網(wǎng)絡(luò)參數(shù)長時(shí)間得不到更新,很難訓(xùn)練較深層次的網(wǎng)絡(luò)模型帆精。
def sigmoid(x):
return 1/(1+np.exp(-x))
X = np.arange(-5, 5, 0.1)
y = sigmoid(X)
plt.plot(X, y)
plt.ylim(-0.1, 1.1)
plt.title('Sigmoid')
plt.show()
使用tensorflow實(shí)現(xiàn)
import tensorflow as tf
x = tf.linspace(-6.,6.,100) # start和end只能是浮點(diǎn)數(shù)
y = tf.nn.sigmoid(x)
plt.plot(x,y)
plt.title('Sigmoid')
plt.show()
2 tanh
Tanh 函數(shù)能夠?qū)?? ∈ ??的輸入“壓縮”到[?1,1]區(qū)間较屿,tanh 激活函數(shù)可通過Sigmoid 函數(shù)縮放平移后實(shí)現(xiàn)。
def tanh(x):
return (np.exp(x)-np.exp(-x))/(np.exp(x)+np.exp(-x))
X = np.arange(-6,6,0.1)
y = tanh(X)
plt.plot(X,y)
plt.ylim(-1.5,1.5)
plt.title('tanh')
plt.show()
使用tensorflow實(shí)現(xiàn)
X = np.arange(-6,6,0.1)
y = tf.nn.tanh(X)
plt.plot(X,y)
plt.title('tanh')
plt.show()
3 relu
它具有單側(cè)抑制卓练、相對(duì)寬松的興奮邊界等特性隘蝎。ReLU 函數(shù)的設(shè)計(jì)源自神經(jīng)科學(xué),計(jì)算十分簡單襟企,同時(shí)有著優(yōu)良的梯度特性嘱么,在大量的深度學(xué)習(xí)應(yīng)用中被驗(yàn)證非常有效,是應(yīng)用最廣泛的激活函數(shù)之一顽悼。
def relu(x):
return np.maximum(0,x)
X = np.arange(-6,6,0.1)
y = relu(X)
plt.plot(X,y)
plt.ylim(0,6)
plt.title('relu')
plt.show()
使用tensorflow實(shí)現(xiàn)
X = np.arange(-6,6,0.1)
y = tf.nn.relu(X)
plt.plot(X,y)
plt.title('relu')
plt.show()
4 leaky_relu
其中??為用戶自行設(shè)置的某較小數(shù)值的超參數(shù)曼振,如0.02 等。當(dāng)?? = 0時(shí)表蝙,LeayReLU 函數(shù)退化為ReLU 函數(shù)拴测;當(dāng)?? ≠ 0時(shí)乓旗,?? < 0能夠獲得較小的梯度值??府蛇,從而避免出現(xiàn)梯度彌散現(xiàn)象。
def leaky_relu(x,p):
x = np.array(x)
return np.maximum(x,p*x)
X = np.arange(-6,6,0.1)
y = leaky_relu(X,0.1)
plt.plot(X,y)
plt.ylim(-1,6)
plt.title('leaky_relu')
plt.show()
用tensorflow實(shí)現(xiàn)
X = np.arange(-6,6,0.1)
y = tf.nn.leaky_relu(X,alpha = 0.1)
plt.plot(X,y)
plt.ylim(-1,6)
plt.title('leaky_relu')
plt.show()
5 Softmax函數(shù)及其意義
- 1)輸出總和為1
- 2)每一個(gè)輸出都介于[0.0~1.0]之間
- 3)exp(a)是單調(diào)遞增函數(shù)屿愚,也就是說a的大小關(guān)系和y的大小關(guān)系并沒有改變
- 4)機(jī)器學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)(深度學(xué)習(xí)中一般叫:推理)兩個(gè)階段:一般只在學(xué)習(xí)階段給網(wǎng)絡(luò)輸出層加上softmax汇跨,在推理階段,一般就省略掉了softmax函數(shù)妆距。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
def softmax(a):
exp_a = np.exp(a)
sum_exp_a = np.sum(exp_a)
y = exp_a / sum_exp_a
return y
a = np.array([24.4, 30.5, 100.8, 10.1, 20.2, 8.9, 5.1])
softmax(a)
array([6.60543742e-34, 2.94508560e-31, 1.00000000e+00, 4.06902625e-40,
9.90523443e-36, 1.22556715e-40, 2.74168832e-42])
?```python
sum(softmax(a))
1.0
輸出總和為1
實(shí)現(xiàn)softmax的注意事項(xiàng)
為了避免求exp(x)出現(xiàn)溢出的情況穷遂,一般需要減去最大值
a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))
array([nan, nan, nan])
?```python
softmax(a)
array([nan, nan, nan])
?```python
c = np.max(a)
a - c
array([ 0, -10, -20])
?```python
print(softmax(a-c))
print(sum(softmax(a-c)))
[9.99954600e-01 4.53978686e-05 2.06106005e-09]
1.0
內(nèi)容參考:《TensorFlow2深度學(xué)習(xí)》