卷積神經(jīng)網(wǎng)絡(luò)CNN
CNN在圖像處理中的應(yīng)用
- 圖像分類:
- input:像素矩陣
- output:輸出類別的向量
大部分pattern比整張圖片要小
CNN的架構(gòu)
Convolution
卷積計算:將卷積核與像素矩陣進行內(nèi)積計算,偵測pattern
stride:移動步長
不同的filter識別不同的模式募狂,經(jīng)過卷積運算得到特征圖赡麦,縮小圖片尺寸,增加維度聘芜。
**每個filter都會對所有層的內(nèi)積求和 **
Max Pooling
減小參數(shù)量歇拆,便于計算择浊。
特征圖大小計算
CNN學(xué)到了什么
每一個filter的工作就是detain某一張pattern。比如說:第三圖detain斜的線條捣域,第四圖是detain短的直線條啼染,等等。每一個filter所做的事情就是detain不同角度的線條焕梅,如果今天input有不同角度的線條迹鹅,你就會讓某一個activation function,某一個filter的output值最大贞言。
CNN的應(yīng)用
有image該有的特性斜棚,“見微知著”
- 圍棋
- 棋盤matrix, 同樣的pattern會出現(xiàn)在不同的regions,而他們代表的是同樣的意義,在圍棋上可能也會有同樣的現(xiàn)象弟蚀。
- subsampling? AplhaGo沒有Max Pooling
在“AlphaGo”Paper的附錄里面蚤霞,描述了neuron network structure,它的input是一個19 *19 *48的image义钉。19 *1是可以理解昧绣,因為棋盤就是19 *19。48是咋樣來的呢捶闸?對于“AlphaGo”來說夜畴,它把每一個位置都用48個value來描述。這里面的value包括:我們只要在一個位置來描述有沒有白子删壮,有沒有黑子贪绘;還加上了domain-knowledge(不只是說:有沒有黑子或者白子,還會看這個位置是不是出于沒“氣”的狀態(tài)央碟,等等)
- 語音
- Spectrogr am:Time-Frequency
- 文本
- word->vector
為什么要“深度”網(wǎng)絡(luò)
- 語音
- input->acoustic feature, output->state
- 深度學(xué)習(xí)之前:
- HNN-GNN