深度學(xué)習(xí)用于計算機視覺
卷積運算
- 密集連接層和卷積層的根本區(qū)別在于Dense層從輸入特征空間學(xué)習(xí)到的是全局模式轩勘,conv學(xué)習(xí)到的是局部模式蛔糯,所以Convnet的兩個特質(zhì):
- Convnet學(xué)習(xí)到的模式具有translation invariant瓦宜,即學(xué)習(xí)到某個局部模式之后霜瘪,可以在任何地方識別該模式站宗,因此可以更高效的利用數(shù)據(jù)秧骑,更少的樣本即可以習(xí)得泛化能力的表示
- Convnet可以學(xué)到模式的空間層次結(jié)構(gòu)(spatial hierarchies of patterns), 即第一層學(xué)習(xí)較小的局部模式,第二層學(xué)習(xí)第一層特征組成的更大的模式蠕蚜,以此類推尚洽。
- 卷積的工作原理
在3D輸入特征圖上滑動給定尺寸的窗口,在每個可能的位置停止并提取周圍的3D圖塊靶累,其形狀為(window_height, window_width, input_depth)腺毫。然后每個3D圖塊與學(xué)到的同一個權(quán)重矩陣(卷積核,Convolution kernel)做張量積尺铣,轉(zhuǎn)換為形狀為1D的向量(output_depth)拴曲。然后對所有這些向量進行空間重組,轉(zhuǎn)換為3D輸出特征圖(height, width, output_depth)凛忿。輸出特征圖中的每個空間位置都對應(yīng)輸入特征圖中的相同位置澈灼。
- 卷積的兩個關(guān)鍵的參數(shù)
-從輸入中提取的圖塊尺寸,即給定尺寸店溢,通常為3x3或5x5
-輸出特征圖的深度:卷積所計算的過濾器的數(shù)量 - 特別的叁熔,圖像識別中,輸入的3D張量形狀為(height, width, depth)床牧,其中深度軸對于RGB來講為3荣回,對于黑白來講為1。卷積運算從輸入特征圖提取圖塊戈咳,進行相同的變換心软,生成輸出特征圖,該輸出特征圖同樣是3D張量著蛙,不同的是深度可以是任意數(shù)值删铃,因為其表示的不再是顏色而是代表過濾器(filter),即對數(shù)據(jù)數(shù)據(jù)的某一方面的編碼
- 輸出的高度和寬度和輸入會有不同踏堡,原因如下:
- 邊界效應(yīng)
- 步幅:即窗口滑動的距離
最大池化運算
- 對特征圖進行下采樣
- 減少需要處理的特征圖的個數(shù)
- 通過讓連續(xù)的卷積層的觀察窗口越來越大猎唁,從而引入空間過濾器的層級結(jié)構(gòu)
深度學(xué)習(xí)應(yīng)用于小型數(shù)據(jù)集的策略
- 從頭開始訓(xùn)練小的模型
- 使用預(yù)訓(xùn)練的網(wǎng)絡(luò)做特征提取
- 對預(yù)訓(xùn)練的網(wǎng)絡(luò)進行微調(diào)