參考:零基礎(chǔ)入門(mén)深度學(xué)習(xí)(1) - 感知器 - 作業(yè)部落 Cmd Markdown 編輯閱讀器 (zybuluo.com)
系列
一屎即、感知器
1.深度學(xué)習(xí)引言
(1)人工智能方法->機(jī)器學(xué)習(xí)
(2)機(jī)器學(xué)習(xí)算法->神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò):神經(jīng)元+連接
其中:輸入層+隱藏層+輸出層
(3)隱藏層較多的神經(jīng)網(wǎng)絡(luò)->深度神經(jīng)網(wǎng)絡(luò)
即:深度學(xué)習(xí):使用深層架構(gòu)的機(jī)器學(xué)習(xí)方法
(4)優(yōu)缺點(diǎn)护昧?
=>1隱藏層+多神經(jīng)元=多隱藏層+1神經(jīng)元=擬合任何一個(gè)函數(shù)(任何線性分類or線性回歸坚踩,但異或運(yùn)算打咩)呈础,即節(jié)約資源
=> 需要大量數(shù)據(jù)+優(yōu)化方法=好的深層網(wǎng)絡(luò)
2.感知器(神經(jīng)元)
(1)輸入(x1,x2,……) 權(quán)值(w1,w2,……) 偏置項(xiàng)b(w0)
(2)激活函數(shù)
(3)輸出 y=f(w*x+b)
3.感知器訓(xùn)練
即:獲得權(quán)重塌碌、偏執(zhí)值
算法:初始=0渊胸,然后利用下面的感知器規(guī)則迭代的修改,直到訓(xùn)練完成
其中台妆,
b:值永遠(yuǎn)為1的輸入所對(duì)應(yīng)的權(quán)重
t:訓(xùn)練樣本的實(shí)際值翎猛,label
y:輸出值
n:學(xué)習(xí)速率胖翰,常數(shù)。為了控制每一步調(diào)整權(quán)的幅度切厘。
每次從訓(xùn)練數(shù)據(jù)中取出一個(gè)樣本的輸入向量萨咳,使用感知器計(jì)算其輸出,再根據(jù)上面的規(guī)則來(lái)調(diào)整權(quán)重疫稿。每處理一個(gè)樣本就調(diào)整一次權(quán)重培他。經(jīng)過(guò)多輪迭代后(即全部的訓(xùn)練數(shù)據(jù)被反復(fù)處理多輪),就可以訓(xùn)練出感知器的權(quán)重遗座,使之實(shí)現(xiàn)目標(biāo)函數(shù)舀凛。
4.實(shí)例
5.總結(jié)
二、線性單元途蒋、梯度下降
1.線性單元
數(shù)據(jù)集線性可分+感知器規(guī)則=>感知器訓(xùn)練
數(shù)據(jù)集線性不可分+可導(dǎo)的線性函數(shù)=>感知器訓(xùn)練
此時(shí)的感知器叫做線性單元猛遍。
2.線性單元模型(即預(yù)測(cè)y的算法)
h(x):假設(shè)
(x1,x2,……):特征向量
w1,w2,……:每個(gè)向量對(duì)應(yīng)的參數(shù)
b:參數(shù)
也可以令b=w0, x0=1
此時(shí)y就是輸入特征的線性組合
3.模型的訓(xùn)練
3.1訓(xùn)練方法
1.監(jiān)督方法
輸入數(shù)據(jù)->模型計(jì)算(模型獲得:已知一些樣本+實(shí)際值,總結(jié)規(guī)律)->預(yù)測(cè)該數(shù)據(jù)的值
2.無(wú)監(jiān)督方法
模型可以總結(jié)出特征的一些規(guī)律号坡,但是無(wú)法知道其對(duì)應(yīng)的答案螃壤。
很多時(shí)候,既有x又有y的訓(xùn)練樣本是很少的筋帖,大部分樣本都只有在x奸晴。比如在語(yǔ)音到文本(STT)的識(shí)別任務(wù)中,x是語(yǔ)音日麸,y是這段語(yǔ)音對(duì)應(yīng)的文本寄啼。我們很容易獲取大量的語(yǔ)音錄音,然而把語(yǔ)音一段一段切分好并標(biāo)注上對(duì)應(yīng)文字則是非常費(fèi)力氣的事情代箭。這種情況下墩划,為了彌補(bǔ)帶標(biāo)注樣本的不足,我們可以用無(wú)監(jiān)督學(xué)習(xí)方法先做一些聚類嗡综,讓模型總結(jié)出哪些音節(jié)是相似的乙帮,然后再用少量的帶標(biāo)注的訓(xùn)練樣本,告訴模型其中一些音節(jié)對(duì)應(yīng)的文字极景。這樣模型就可以把相似的音節(jié)都對(duì)應(yīng)到相應(yīng)文字上察净,完成模型的訓(xùn)練
3.2線性單元的訓(xùn)練
從誤差角度:
其中
對(duì)于一個(gè)模型,誤差越小越好盼樟。由公式看出氢卡,其實(shí)就是求一個(gè)權(quán)重,使得E最小晨缴。
這在數(shù)學(xué)上稱作優(yōu)化問(wèn)題译秦,而就是我們優(yōu)化的目標(biāo),E稱之為目標(biāo)函數(shù)。
3.3 訓(xùn)練單元的優(yōu)化算法(梯度下降優(yōu)化算法)
1.數(shù)學(xué)上:求E的最小值=>求導(dǎo)筑悴,得極值點(diǎn)
計(jì)算機(jī)上:求E的最小值=>依次試每個(gè)權(quán)重值们拙,迭代求得最終的極值點(diǎn)
2.如何試?
向函數(shù)的梯度(上升方向最快的方向)的相反(即函數(shù)下降最快的方向)方向來(lái)修改
3.梯度下降的算法公式
最終得到線性單元的參數(shù)修改
用向量表示阁吝,其中w睛竣、x都是N+1維(虛擬0),y是一維標(biāo)量
此時(shí)求摇,每次w的迭代射沟,都需要遍歷訓(xùn)練數(shù)據(jù)中所有樣本計(jì)算。=>批梯度下降(Batch Gradient Descent)
3.3隨機(jī)梯度下降算法SGD
1.每次更新的迭代与境,只計(jì)算一個(gè)樣本验夯。
2.由于樣本的噪音和隨機(jī)性,每次更新并不一定按照減少的方向摔刁。然而挥转,雖然存在一定隨機(jī)性,大量的更新總體上沿著減少的方向前進(jìn)的共屈,因此最后也能收斂到最小值附近绑谣。
3.SGD不僅僅效率高,而且隨機(jī)性有時(shí)候反而是好事拗引。今天的目標(biāo)函數(shù)是一個(gè)『凸函數(shù)』借宵,沿著梯度反方向就能找到全局唯一的最小值。然而對(duì)于非凸函數(shù)來(lái)說(shuō)矾削,存在許多局部最小值壤玫。隨機(jī)性有助于我們逃離某些很糟糕的局部最小值,從而獲得一個(gè)更好的模型哼凯。
4.模型對(duì)比
5.實(shí)例
三欲间、總結(jié)
機(jī)器學(xué)習(xí)算法:
1.模型,即h(x)
2.目標(biāo)函數(shù)断部,參數(shù)值