在這個(gè)目錄下面的上一篇文章里面寫了仓洼,對于一個(gè)數(shù)據(jù)集,如何用邏輯回歸的方式去給他們分類以舒。(鏈接 : http://www.reibang.com/p/5ae1399a512b)同樣對于這個(gè)數(shù)據(jù)集淫半,這篇文章寫的是用一個(gè)神經(jīng)網(wǎng)絡(luò)的方式去給他們分類鸣个。
寫在前面
對于下面關(guān)于神經(jīng)網(wǎng)絡(luò)的公式推導(dǎo)和計(jì)算的符號表示辑畦,我參考的是吳恩達(dá)的deeplearning 的視頻里面的符號表示吗蚌。如果看不懂的話,可以去cousera上或網(wǎng)易云課堂上面看它的課程纯出。
對于神經(jīng)網(wǎng)絡(luò)蚯妇,有很多現(xiàn)成的框架和庫敷燎,可以很方便的幫助你使用。但是我這幾篇文章的想法都是自己去實(shí)現(xiàn)這個(gè)網(wǎng)絡(luò)侮措,不用框架和庫函數(shù)懈叹。對于一個(gè)初學(xué)者乖杠,我認(rèn)為這樣有助于我理解這個(gè)網(wǎng)絡(luò)的細(xì)節(jié)分扎。
在實(shí)現(xiàn)的過程中,我盡可能的使用了向量化的方式去實(shí)現(xiàn)矩陣計(jì)算胧洒。雖然被老是被矩陣的維度搞昏畏吓,當(dāng)這應(yīng)該是一個(gè)好習(xí)慣。向量化的矩陣計(jì)算卫漫,不僅可以計(jì)算的更快菲饼,而且還提高了代碼的可讀性。
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
數(shù)據(jù)集的結(jié)構(gòu)列赎,如下圖宏悦,(第一列和第二列表示對應(yīng)的輸入,第三列表示輸出):
設(shè)計(jì)的網(wǎng)絡(luò)的結(jié)構(gòu)如下:
PS :
z1包吝,z2饼煞,z3 畫圖的時(shí)候,這里有一點(diǎn)錯(cuò)誤诗越,應(yīng)該寫成z11砖瞧,z12,z13
第一個(gè)1表示是第一層的輸入嚷狞,第二個(gè)1块促,2,3表示的是第一層的第一個(gè)床未,第二個(gè)竭翠,第三個(gè)結(jié)點(diǎn)
z1^[2] ,應(yīng)該寫成z21,表示的是第二層的第一個(gè)結(jié)點(diǎn)的輸入薇搁,a1^[2] 表示的是第二層第一個(gè)節(jié)點(diǎn)的輸出
推理過程
源碼
"""
實(shí)現(xiàn)一個(gè)三層的神經(jīng)網(wǎng)絡(luò)
一個(gè)輸入層斋扰,一個(gè)輸出層,隱層有3個(gè)結(jié)點(diǎn)
數(shù)據(jù)集同樣也是tesetSet的數(shù)據(jù)集只酥,和邏輯回歸的數(shù)據(jù)集是同一個(gè)褥实,格式如下:
x1 x2 y
-0.017612 14.053064 0
....
"""
import numpy as np
from numpy import random
import matplotlib.pyplot as plt
alpha=0.01
#加載數(shù)據(jù)集,原來的數(shù)據(jù)在文件排列是按行排列
#為了計(jì)算需要裂允,將原來的數(shù)據(jù)加載到了矩陣之后损离,給矩陣裝置了,是數(shù)據(jù)變成按列排列
def loadDataset():
data=[]
label=[]
f=open("textSet.txt")
for line in f:
lineArr=line.strip().split()
data.append( [float(lineArr[0]),float(lineArr[1]) ] )
label.append(float(lineArr[2]))
mdata=np.array(data)
mlabel=np.array(label)
return mdata.T,mlabel.T
def sigmod(inX):
return 1.0/(1+np.exp(-inX))
#激活函數(shù)的倒數(shù)
def sigmod_diff(inX):
return sigmod(inX) * (1-sigmod(inX))
def get_z1(inputs,mlabel,weights_layer1,b1,weights_layer2,b2):
z1=np.dot(weights_layer1,inputs)+b1
return z1
def get_a1(inputs,mlabel,weights_layer1,b1,weights_layer2,b2):
z1=np.dot(weights_layer1,inputs)+b1
a1=sigmod(z1)
return a1
def forward(inputs,mlabel,weights_layer1,b1,weights_layer2,b2):
#從輸入層到隱層
z1=np.dot(weights_layer1,inputs)+b1
a1=sigmod(z1)
#從隱層到輸出層
z2=np.dot(weights_layer2,a1)+b2
a2=sigmod(z2)
#error
dz2=a2-mlabel
return dz2
#計(jì)算cost绝编,每一次迭代之后僻澎,都算一下cost貌踏,看看cost是否在減小
def cost(inputs,mlabel,weights_layer1,b1,weights_layer2,b2):
nx,m=inputs.shape
#從輸入層到隱層
z1=np.dot(weights_layer1,inputs)+b1
a1=sigmod(z1)
#從隱層到輸出層
z2=np.dot(weights_layer2,a1)+b2
a2=sigmod(z2)
#cost
cost=-mlabel* np.log(a2)-(a2-mlabel)*np.log(1-a2)
return np.sum(cost)/m
#將訓(xùn)練的輸出和真實(shí)的結(jié)果show出來
def show1(inputs,mlabel,weights_layer1,b1,weights_layer2,b2):
nx,m=inputs.shape
#從輸入層到隱層
z1=np.dot(weights_layer1,inputs)+b1
a1=sigmod(z1)
#從隱層到輸出層
z2=np.dot(weights_layer2,a1)+b2
a2=sigmod(z2)
plt.plot(mlabel)
plt.plot(a2[0])
plt.show()
def show2(inputs,mlabel,weights_layer1,b1,weights_layer2,b2):
nx,m=inputs.shape
#從輸入層到隱層
z1=np.dot(weights_layer1,inputs)+b1
a1=sigmod(z1)
#從隱層到輸出層
z2=np.dot(weights_layer2,a1)+b2
a2=sigmod(z2)
new_a2=[]
for i in a2[0]:
#這里用0.1和0.9,是為了避免和mlabel畫出來的線重合
if i <0.5:
new_a2.append(0.1)
if i>=0.5:
new_a2.append(0.9)
plt.plot(mlabel)
plt.plot(new_a2)
plt.show()
#正向傳播和反向傳播
def gradientdesc(mdata,mlabel,weights_layer1,b1,weights_layer2,b2):
nx,m=mdata.shape
#調(diào)用正向傳播的函數(shù)窟勃,得到dz2
dz2=forward(mdata,mlabel,weights_layer1,b1,weights_layer2,b2)
#求dw2和db2
a1=get_a1(mdata,mlabel,weights_layer1,b1,weights_layer2,b2)
dw2 = (1/float(m)) * np.dot(dz2,a1.T)
db2 = (1/float(m)) * np.sum(dz2)
#求dw1和db1
z1=get_z1(mdata,mlabel,weights_layer1,b1,weights_layer2,b2)
dz1 =np.dot(weights_layer2.T,dz2) * sigmod_diff(z1)
dw1 = (1/float(m)) * np.dot(dz1,mdata.T)
db1 = (1/float(m)) * np.sum(dz1)
#更新w1,w2,b1,b2
weights_layer1=weights_layer1 - alpha * dw1
weights_layer2=weights_layer2 - alpha * dw2
b1=b1-alpha*db1
b2=b2-alpha*db2
return weights_layer1,b1,weights_layer2,b2
def three_layer_nn(maxcycle=5000):
mdata,mlabel=loadDataset()
nx,m=mdata.shape
hiden_node=3
#隨機(jī)初始化 權(quán)值矩陣
weights_layer1=random.random(size=(hiden_node,nx))
b1=random.random(size=(hiden_node,m))
weights_layer2=random.random(size=(1,hiden_node))
b2=random.random(size=(1,m))
#迭代
for i in range(maxcycle):
weights_layer1,b1,weights_layer2,b2=gradientdesc(mdata,mlabel,weights_layer1,b1,weights_layer2,b2)
print (cost(mdata,mlabel,weights_layer1,b1,weights_layer2,b2))
#show
show2(mdata,mlabel,weights_layer1,b1,weights_layer2,b2)
if __name__=='__main__':
maxcycle=15000
three_layer_nn(maxcycle)
運(yùn)行的結(jié)果:
(ps:黃色的線是預(yù)測的輸出祖乳,為了黃色和藍(lán)色不覆蓋,我把黃色的輸出應(yīng)該是為1的改成了0.9秉氧,應(yīng)該是為0的改成了0.1)
git鏈接:
數(shù)據(jù)集和代碼都在里面 https://github.com/zhaozhengcoder/Machine-Learning/tree/master/three-layer-nn