卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元步咪,對(duì)于大型圖像處理有出色表現(xiàn)。
曾就職于阿里巴巴和谷歌等大型公司,一直研發(fā)搜索引擎相關(guān)搜索算法,2012年聯(lián)合創(chuàng)立公司與政府共建北京最早的96106店招平臺(tái)折柠,2014年創(chuàng)立倆家公司宾娜,易達(dá)出行和蜜柚科技批狐,并擔(dān)任CTO,10余年機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法經(jīng)驗(yàn),擅長(zhǎng)大型軟件架構(gòu)設(shè)計(jì)嚣艇,技術(shù)團(tuán)隊(duì)搭建承冰,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)算法工程師,在算法領(lǐng)域有自己獨(dú)創(chuàng)的核心AI算法食零。
ConvNets嘗試過程
首個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型(多倫多大學(xué))(LeCun 88,89)
共320個(gè)運(yùn)用反向傳播算法訓(xùn)練的實(shí)例
帶有步幅的卷積(子樣本)
緊密相連的池化過程
在貝爾實(shí)驗(yàn)室建立的首個(gè)“真實(shí)”卷積神經(jīng)網(wǎng)絡(luò)模型(LeCun et al 89)
運(yùn)用反向傳播算法進(jìn)行訓(xùn)練
USPS 編碼數(shù)字:7300次訓(xùn)練困乒,2000次測(cè)試
帶有步幅的卷積
緊密相連的池化過程
卷積神經(jīng)網(wǎng)絡(luò)(vintage 1990)
濾波-雙曲正切——池化——濾波-雙曲正切——池化
多重卷積網(wǎng)絡(luò)
架構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算過程大致如下:
輸入圖像通過三個(gè)可訓(xùn)練的濾波器組進(jìn)行非線性卷積,卷積后在每一層產(chǎn)生特征映射圖贰谣,然后特征映射圖中每組的四個(gè)像素在進(jìn)行求和娜搂、加權(quán)值、加偏置吱抚,在此過程中這些像素在池化層被池化百宇,最終得到輸出值。
卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu):
歸一化——濾波器組——非線性計(jì)算——池化
歸一化:圖像白化處理的變形(可選擇性)
減法運(yùn)算:平均去除秘豹,高通濾波器進(jìn)行濾波處理
?除法運(yùn)算:局部對(duì)比規(guī)范化携御,方差歸一化
濾波器組:維度拓展,映射
非線性:稀疏化既绕,飽和啄刹,側(cè)抑制
精餾,成分明智收縮凄贩,雙曲正切等
池化: 空間或特征類型的聚合
最大化誓军,Lp范數(shù),對(duì)數(shù)概率
LeNet5
卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)化模型
MNIST ?(LeCun 1998)
階段1:濾波器組——擠壓——最大池化
階段2:濾波器組——擠壓——最大池化
階段3:標(biāo)準(zhǔn)2層 MLP
多特征識(shí)別(Matan et al 1992)
每一層都是一個(gè)卷積層
????單一特征識(shí)別器 ——SDNN
滑動(dòng)窗口卷積神經(jīng)網(wǎng)絡(luò)+加權(quán)有限狀態(tài)機(jī)
應(yīng)用
卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍
信號(hào)以(多維度)數(shù)組的形式出現(xiàn)
具有很強(qiáng)局部關(guān)聯(lián)性的信號(hào)
特征能夠在任何位置出現(xiàn)的信號(hào)
目標(biāo)物不因翻譯或扭曲而變化的信號(hào)
一維卷積神經(jīng)網(wǎng)絡(luò):時(shí)序信號(hào)怎炊,文本
文本分類
音樂體裁分類
用于語音識(shí)別的聲學(xué)模型
時(shí)間序列預(yù)測(cè)
二維卷積神經(jīng)網(wǎng)絡(luò):圖像谭企,時(shí)間-頻率表征(語音與音頻)
物體檢測(cè),定位评肆,識(shí)別
三維卷積神經(jīng)網(wǎng)絡(luò):視頻债查,立體圖像,層析成像
視頻識(shí)別/理解
生物醫(yī)學(xué)圖像分析
高光譜圖像分析
人臉檢測(cè)(Vaillant et al.93, 94)
應(yīng)用于大圖像檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)
多尺度熱量圖
對(duì)候選圖像的非最大抑制
對(duì)256X256圖像進(jìn)行6秒稀疏
人臉檢測(cè)的藝術(shù)結(jié)果狀態(tài)
卷積神經(jīng)網(wǎng)絡(luò)在生物圖像切割方面的應(yīng)用
生物圖像切割(Ning et al. IEEE-TIP 2005)
運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)在大背景下進(jìn)行像素標(biāo)記
卷積神經(jīng)網(wǎng)絡(luò)擁有一個(gè)像素窗口瓜挽,標(biāo)記中央像素
運(yùn)用一個(gè)有條件的隨機(jī)域進(jìn)行清除
3D版連接體(Jain et al.2007)
場(chǎng)景解析/標(biāo)記
場(chǎng)景解析/標(biāo)記:多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
每一個(gè)輸出值對(duì)應(yīng)一個(gè)大的輸入背景
46X46全像素窗口盹廷;92X92 1/2像素窗口;182X182 1/4像素窗口
[7X7卷積運(yùn)算]->[2X2池化] ->[7X7卷積運(yùn)算] ->[2X2池化] ->[7X7卷積運(yùn)算] ->
監(jiān)督式訓(xùn)練全標(biāo)記圖像
方法:通過超級(jí)像素區(qū)域選出主要部分
輸入圖像——超像素邊界參數(shù)——超像素邊界——通過超像素進(jìn)行主要部分投票處理——類別與區(qū)域邊界對(duì)齊
多尺度卷積網(wǎng)絡(luò)——卷積網(wǎng)絡(luò)特征(每個(gè)像素中d=768)卷積分類——“soft”分類得分
場(chǎng)景分析/標(biāo)記
無前期處理
逐幀進(jìn)行
在Vittex-6 FPGA硬件上以50ms一幀運(yùn)行卷積網(wǎng)絡(luò)
但是在以太網(wǎng)上傳輸特征限制了系統(tǒng)的表現(xiàn)
針對(duì)遠(yuǎn)程自適應(yīng)機(jī)器人視覺的卷積網(wǎng)絡(luò)(DARPA LAGR項(xiàng)目2005-2008)
輸入圖像
標(biāo)記
分類輸出
非常深的卷積網(wǎng)絡(luò)架構(gòu)
小內(nèi)核久橙,較少二次抽樣(小部分二次抽樣)
VGG
GoogleNet
Resnet
使用卷積網(wǎng)絡(luò)進(jìn)行對(duì)象檢測(cè)和定位
分類+定位:多重移動(dòng)窗口
將帶多重滑動(dòng)窗口的卷積網(wǎng)絡(luò)應(yīng)用到圖像上
重要提示:將卷積網(wǎng)絡(luò)應(yīng)用到一張圖片上非常便宜
只要計(jì)算整個(gè)圖像的卷積并把全連接層復(fù)制
分類+定位:滑動(dòng)窗口+限定框回歸
將帶多重滑動(dòng)窗口的卷積網(wǎng)絡(luò)應(yīng)用到圖像上
對(duì)每個(gè)窗口俄占,預(yù)測(cè)一個(gè)類別和限定框參數(shù)
即便目標(biāo)不是完全包含在瀏覽窗口中,卷積網(wǎng)絡(luò)也能猜測(cè)它認(rèn)為這個(gè)目標(biāo)是什么淆衷。
Deep Face
Taigman等 CVPR 2014
隊(duì)列
卷積網(wǎng)絡(luò)
度量學(xué)習(xí)
Facebook開發(fā)的自動(dòng)標(biāo)記方法
每天8億張圖片
使用卷積網(wǎng)絡(luò)進(jìn)行姿勢(shì)預(yù)估和屬性恢復(fù)
深度屬性模型的姿勢(shì)對(duì)齊網(wǎng)絡(luò)
Zhang等 CVPR 2014 (Facebook AI Research)
人物檢測(cè)和姿勢(shì)預(yù)估
Tompson缸榄,Goroshin,Jain祝拯,Lecun甚带,Bregler等 arxiv(2014)
監(jiān)督卷積網(wǎng)絡(luò)畫圖
使用卷積網(wǎng)絡(luò)來畫圖
Dosovitskyi等 arxiv (1411:5928)
監(jiān)督卷積網(wǎng)絡(luò)畫圖
生成椅子
特征空間對(duì)椅子進(jìn)行計(jì)算
全局(端對(duì)端)學(xué)習(xí):能量模型
輸入——卷積網(wǎng)絡(luò)(或其他深度架構(gòu))——能量模塊(潛在變量她肯、輸出)——能量
使得系統(tǒng)中每個(gè)模塊都能進(jìn)行訓(xùn)練。
所有模塊都是同時(shí)訓(xùn)練的鹰贵,這樣就能優(yōu)化全局的損失函數(shù)晴氨。
包括特征提取器,識(shí)別器碉输,以及前后處理程序(圖像模型)籽前。
問題:反向傳播在圖像模型中傾斜
深度卷積網(wǎng)絡(luò)(還有其他深度神經(jīng)網(wǎng)絡(luò))
訓(xùn)練樣本:(Xi,Yi)k=1 到 k
對(duì)象函數(shù)(邊緣型損失= ReLU)
最后
大佬還整理了系列化的人工智能知識(shí)點(diǎn)敷钾,隨機(jī)截了張圖你們可以參考一下枝哄,感興趣的話可以下方留言,我會(huì)及時(shí)回復(fù)你們的阻荒,還可以加我微信:Tzy1419957767