Chapter4_神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)

神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)

學(xué)習(xí)：從訓(xùn)練數(shù)據(jù)中自動(dòng)獲取最優(yōu)權(quán)重參數(shù)的過(guò)程
指標(biāo)：損失函數(shù)
目的：以損失函數(shù)為基準(zhǔn)伦忠，找到能使損失函數(shù)的值達(dá)到最小的權(quán)重參數(shù)
機(jī)器學(xué)習(xí)的方案
- 從圖像中提取特征量（可以從輸入數(shù)據(jù)中準(zhǔn)確提取本質(zhì)數(shù)據(jù)的轉(zhuǎn)換器）
- 用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)特征量的模式
- CV領(lǐng)域常用的特征量包括SIFT东涡，SURF和HOG
深度學(xué)習(xí)有時(shí)也成為端到端機(jī)器學(xué)習(xí)（end-to-end machine learning),從原始數(shù)據(jù)中獲得目標(biāo)結(jié)果
評(píng)價(jià)模型
- 泛化能力：處理未被觀察過(guò)的數(shù)據(jù)的能力萍肆。獲得泛化能力是幾期學(xué)習(xí)的最終目標(biāo)

損失函數(shù)

在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中射亏，用損失函數(shù)作為線索尋找最優(yōu)權(quán)重參數(shù)
損失函數(shù)是表示神經(jīng)網(wǎng)絡(luò)性能的“惡劣程度”的指標(biāo)琢唾，即當(dāng)前的神經(jīng)網(wǎng)絡(luò)對(duì)監(jiān)督數(shù)據(jù)在多大程度上不擬合寡壮，在多大程度上不一致生闲。
one-hot表示:將正確解標(biāo)簽表示為1,其他標(biāo)簽表示為0的表示方法

均方誤差

$E = \frac{1}{2}\sum_k(y_k-t_k)^2$
$y_k$ 表示神經(jīng)網(wǎng)絡(luò)的輸出, $t_k$ 表示監(jiān)督數(shù)據(jù), $k$ 表示數(shù)據(jù)的維數(shù)

import numpy as np

#均方誤差的實(shí)現(xiàn)
def mean_squared_error(y,t):
    return 0.5*np.sum((y-t)**2)

t = [0,0,1,0,0,0,0,0,0,0]
y = [0.1,0.05,0.6,0.0,0.05,0.1,0.0,0.1,0.0,0.0]
mean_squared_error(np.array(y),np.array(t))

0.09750000000000003

交叉熵誤差

$E = -\sum_kt_klogy_k$

$y_k$ 是神經(jīng)網(wǎng)絡(luò)的輸出, $t_k$ 是正確解標(biāo)簽(用one-hot表示).
該式只計(jì)算對(duì)應(yīng)正確解標(biāo)簽的輸出的自然對(duì)數(shù)
如果正確解標(biāo)簽對(duì)應(yīng)的輸出較小,則函數(shù)值較大

#交叉熵誤差實(shí)現(xiàn)
#y:1*n,t:1*n
def cross_entropy_error(y,t):
    delta = 1e-7
    return -np.sum(t*np.log(y+delta))

在計(jì)算np.log是加上了一個(gè)微小值delta,當(dāng)出現(xiàn)np.log(0),會(huì)變?yōu)樨?fù)無(wú)限大的-inf.

mini-batch學(xué)習(xí)

對(duì)于所有訓(xùn)練數(shù)據(jù)求交叉熵誤差
$E=-\frac{1}{N}\sum_n\sum_kt_{nk}logy_{nk}$
假設(shè)訓(xùn)練數(shù)據(jù)有N個(gè), $t_nk$ 表示第 $n$ 個(gè)數(shù)據(jù)的第 $k$ 個(gè)元素的值.
$\frac{1}{N}$ 是對(duì)和進(jìn)行正規(guī)化(normalization),獲得和訓(xùn)練數(shù)據(jù)的數(shù)量無(wú)關(guān)的統(tǒng)一指標(biāo)
從全部數(shù)據(jù)中選擇一部分?jǐn)?shù)據(jù),作為全部數(shù)據(jù)的"近似"(稱(chēng)為mini-batch,小批量),然后對(duì)每個(gè)mini-batch進(jìn)行學(xué)習(xí)

#mini-batch版交叉熵誤差的實(shí)現(xiàn)
def cross_entropy_error(y,t):
    if y.ndim==1:
        t = t.reshape(1,t.size)
        y = y.reshape(1,y.size)
        
    batch_size = y.shape[0]
    return -np.sum(t*np.log(y+1e-7))/batch_size

為何要設(shè)定損失函數(shù)

用識(shí)別精度作為指標(biāo),微調(diào)參數(shù)引起的識(shí)別精度的變化是離散的.
用損失函數(shù)作為指標(biāo),微調(diào)參數(shù)引起的函數(shù)值變化是連續(xù)的

數(shù)值微分

導(dǎo)數(shù)

$\frac{df(x)}{dx}=\lim_{h\to 0}\frac{f(x+h)-f(x)}{h}$

偏導(dǎo)數(shù)

$\frac{\partial f}{\partial x_0},\frac{\partial f}{\partial x_1}$

梯度

( $\frac{\partial f}{\partial x_0},\frac{\partial f}{\partial x_1}$ )由全部變量的偏導(dǎo)數(shù)匯總而成的向量稱(chēng)為梯度

#梯度計(jì)算(可以計(jì)算多維)
def numerical_gradient(f, x):
    h = 1e-4 # 0.0001
    grad = np.zeros_like(x)
    
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    while not it.finished:
        idx = it.multi_index
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1 = f(x) # f(x+h)
        
        x[idx] = tmp_val - h 
        fxh2 = f(x) # f(x-h)
        grad[idx] = (fxh1 - fxh2) / (2*h)
        
        x[idx] = tmp_val # 還原值
        it.iternext()   
        
    return grad

梯度法

$x_0 = x_0-\eta \frac{\partial f}{\partial x_0} \\x_1 = x_1-\eta \frac{\partial f}{\partial x_1}$
$\eta$ 稱(chēng)為學(xué)習(xí)率(learning rate),決定在一次學(xué)習(xí)中,應(yīng)該學(xué)習(xí)多少,以及在多大程度上更新參數(shù).

#梯度下降法的實(shí)現(xiàn)
def gradient_descent(f,init_x,lr=0.01,step_num=100):
    x = init_x
    for i in range(step_num):
        grad = numerical_gradient(f,x)
        x -= lr*grad
    
    return x

參數(shù)f是要進(jìn)行最優(yōu)化的函數(shù),init_x是初始值,lr是學(xué)習(xí)率learning rate,step_num是梯度法的重復(fù)次數(shù).
超參數(shù):需要人工設(shè)定,嘗試多個(gè)值以便可以使學(xué)習(xí)順利進(jìn)行的設(shè)定

神經(jīng)網(wǎng)絡(luò)的梯度

損失函數(shù)關(guān)于權(quán)重參數(shù)的梯度
$W= \begin{pmatrix} \omega_{11}&\omega_{12}&\omega_{13}\\ \omega_{21}&\omega_{22}&\omega_{23} \end{pmatrix} \\ \frac{\partial L}{\partial W}=\begin{pmatrix} \frac{\partial L}{\partial \omega_{11}}&\frac{\partial L}{\partial \omega_{12}}&\frac{\partial L}{\partial \omega_{13}}\\ \frac{\partial L}{\partial \omega_{21}}&\frac{\partial L}{\partial \omega_{22}}&\frac{\partial L}{\partial \omega_{23}} \end{pmatrix}$

from sourcecode.common.functions import softmax,cross_entropy_error
from sourcecode.common.gradient import numerical_gradient
class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3)#用高斯分布進(jìn)行初始化
    
    def predict(self,x):
        return np.dot(x,self.W)
    
    def loss(self,x,t):
        z =self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y,t)
        
        return loss

net=simpleNet()
print(net.W)
x = np.array([0.6,0.9])
p = net.predict(x)
print(p)
print(np.argmax(p))
t = np.array([0,0,1])#正確解標(biāo)簽
print(net.loss(x,t))

[[ 0.96028135 -1.10055385 -1.26426151]
 [ 0.4756395   1.3477234   0.45475418]]
[ 1.00424436  0.55261875 -0.34927815]
0
1.992699002936635

#求梯度
def f(W):
    return net.loss(x,t)
dW = numerical_gradient(f,net.W)
print(dW)

[[ 0.31663563  0.20156786 -0.51820349]
 [ 0.47495345  0.30235179 -0.77730524]]

學(xué)習(xí)算法的實(shí)現(xiàn)

前提
神經(jīng)網(wǎng)絡(luò)存在合適的權(quán)重和偏置.
mini-batch
從訓(xùn)練數(shù)據(jù)中隨機(jī)選出一部分?jǐn)?shù)據(jù).
計(jì)算梯度
求出各個(gè)權(quán)重參數(shù)的梯度
更新參數(shù)
將權(quán)重參數(shù)沿梯度方向進(jìn)行微小更新
重復(fù)2.3.4

隨機(jī)梯度下降法(stochastic gradient descent,SGD)
epoch是一個(gè)單位,一個(gè)epoch表示學(xué)習(xí)中所有訓(xùn)練數(shù)據(jù)均被使用過(guò)一次時(shí)的更新次數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末寡键，一起剝皮案震驚了整個(gè)濱河市掀泳，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌昌腰，老刑警劉巖开伏，帶你破解...
沈念sama閱讀 217,406評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異遭商，居然都是意外死亡固灵，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)劫流，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)巫玻，“玉大人丛忆，你說(shuō)我怎么就攤上這事∪猿樱” “怎么了熄诡？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,711評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)诗力。經(jīng)常有香客問(wèn)我凰浮，道長(zhǎng)，這世上最難降的妖魔是什么苇本？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,380評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任袜茧，我火速辦了婚禮，結(jié)果婚禮上瓣窄，老公的妹妹穿的比我還像新娘笛厦。我一直安慰自己，他們只是感情好俺夕，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布裳凸。她就那樣靜靜地躺著，像睡著了一般劝贸。火紅的嫁衣襯著肌膚如雪姨谷。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,301評(píng)論 1贊 301
城市分裂傳說(shuō)
那天悬荣，我揣著相機(jī)與錄音菠秒，去河邊找鬼疙剑。笑死氯迂，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的言缤。我是一名探鬼主播嚼蚀，決...
沈念sama閱讀 40,145評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼管挟！你這毒婦竟也來(lái)了轿曙？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,008評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤僻孝，失蹤者是張志新（化名）和其女友劉穎导帝，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體穿铆，經(jīng)...
沈念sama閱讀 45,443評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡您单，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荞雏。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片虐秦。...
茶點(diǎn)故事閱讀 39,795評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡平酿，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出悦陋，到底是詐尸還是另有隱情蜈彼，我是刑警寧澤，帶...
沈念sama閱讀 35,501評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布俺驶，位于F島的核電站幸逆，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏暮现。R本人自食惡果不足惜秉颗，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望送矩。院中可真熱鬧蚕甥，春花似錦、人聲如沸栋荸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,731評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)晌块。三九已至爱沟，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間匆背，已是汗流浹背呼伸。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,865評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钝尸，地道東北人括享。一個(gè)月前我還...
沈念sama閱讀 47,899評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像珍促，于是被迫代替她去往敵國(guó)和親铃辖。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評(píng)論 2贊 354