2019年1月10日
閱讀內(nèi)容:12.2 Computer Version,12.3 Speech Recognition
介紹DeepLearning在計算視覺和語音識別兩個領(lǐng)域的應(yīng)用情況和技巧诉位;
小結(jié):
- NN擅長學(xué)習(xí)輸入值存在不同方向上的差異(通過調(diào)節(jié)weight),而不擅長學(xué)習(xí)數(shù)據(jù)在同方向不同distances上的差異(需要對應(yīng)不同的bias),因此做normalization將減輕NN數(shù)據(jù)處理負擔(dān)恭陡;
- CV中對數(shù)據(jù)的預(yù)處理非常重要和蚪,需要做normalization使得數(shù)據(jù)取值范圍一致泻骤,介紹了兩種對比度歸一化(Contrast Normalization)方法:GCN巷挥、LCN烹卒,兩者的區(qū)別在于歸一化時考慮的數(shù)據(jù)范圍不同(全局global或者局部local)
- Dataset Augmentation(數(shù)據(jù)集擴充)可提高模型的泛化性能章咧,方式為將原有樣本拷貝多份并對其輸入內(nèi)容做(不影響輸出結(jié)果的)調(diào)整(如平移倦西、反轉(zhuǎn)、調(diào)色)慧邮;
- 語音識別領(lǐng)域長期占據(jù)核心地位的是GMM-HMM等模型调限,尤其是在2009-2012年間舟陆;該領(lǐng)域是最早使用NN技術(shù)的領(lǐng)域之一(早至1980s),但早期僅用于為HMM等模型做feature learning等輔助功能耻矮;近年larger and deeper model的使用顯著提高了NN模型的準確率秦躯,從2009年NN模型開始在SR領(lǐng)域受到重視和廣泛使用;
- TIMIT corpus [Garofolo, 1993]:是音素識別(phoneme recognition)任務(wù)的benchmark裆装;就如MNIST是CV領(lǐng)域中object recognition任務(wù)的benchmark踱承;
遺留問題:
- GCN與L2-norm的區(qū)別
- GCN與sphering的區(qū)別
詳細內(nèi)容
Global Contrast Normalization (GCN)
目標:將數(shù)據(jù)點歸一化到相同scale,以減輕學(xué)習(xí)算法的負擔(dān)哨免;
contrast: 整個圖片上各點數(shù)據(jù)值的標準差(用于在GCN中作為分母)
contrast
GCN: 基于contrast茎活,對圖片上各點數(shù)據(jù)值進行歸一化,使得數(shù)據(jù)的分布以0為均值琢唾,s為方差(s通常取1)载荔;
為避免除0現(xiàn)象為避免contrast為0導(dǎo)致的除0現(xiàn)象(zero-contrast image,即圖片標準差為0情況采桃,發(fā)生在整個圖片各點取值完全相同時)懒熙,可做以下調(diào)整(兩者二選一):
- 引入
參數(shù):考慮到contrast值取非零小值時的圖片通常攜帶非常少量的信息,將zero-contrast調(diào)整為一個非零小值
- 引入
參數(shù):過小的contrast值一律調(diào)節(jié)為
于是普办,最終得到通過GCN處理后的新值為:
GCN
優(yōu)點:
- 相當(dāng)于將數(shù)據(jù)歸一化到一致的scale工扎,為NN的學(xué)習(xí)減輕負擔(dān);
缺點:
- 缺乏對特殊feature的考慮(fail to highlight image features we would like to stand out)衔蹲;(因此提出LCN)
GCN
Local Contrast Normalization (LCN)
不同于GCN考慮整個圖片的數(shù)據(jù)點來計算contrast肢娘,LCN僅考慮當(dāng)前值所在局部區(qū)域(窗口)內(nèi)的值用于normalize;
LCN有多種變種舆驶,考慮的區(qū)域的形式不同橱健、計算方式不同等;
具體實現(xiàn)方法: separable convolution
LCN implementation
優(yōu)點:
- 關(guān)注輪廓信息
缺點:
- 當(dāng)normalization kernel帶寬過大時贞远,將丟失細節(jié)信息畴博;