12.2-3 DL for CV, SR

2019年1月10日
閱讀內(nèi)容:12.2 Computer Version,12.3 Speech Recognition
介紹DeepLearning在計算視覺和語音識別兩個領(lǐng)域的應(yīng)用情況和技巧诉位;

小結(jié):

  1. NN擅長學(xué)習(xí)輸入值存在不同方向上的差異(通過調(diào)節(jié)weight),而不擅長學(xué)習(xí)數(shù)據(jù)在同方向不同distances上的差異(需要對應(yīng)不同的bias),因此做normalization將減輕NN數(shù)據(jù)處理負擔(dān)恭陡;
  2. CV中對數(shù)據(jù)的預(yù)處理非常重要和蚪,需要做normalization使得數(shù)據(jù)取值范圍一致泻骤,介紹了兩種對比度歸一化(Contrast Normalization)方法:GCN巷挥、LCN烹卒,兩者的區(qū)別在于歸一化時考慮的數(shù)據(jù)范圍不同(全局global或者局部local)
  3. Dataset Augmentation(數(shù)據(jù)集擴充)可提高模型的泛化性能章咧,方式為將原有樣本拷貝多份并對其輸入內(nèi)容做(不影響輸出結(jié)果的)調(diào)整(如平移倦西、反轉(zhuǎn)、調(diào)色)慧邮;
  4. 語音識別領(lǐng)域長期占據(jù)核心地位的是GMM-HMM等模型调限,尤其是在2009-2012年間舟陆;該領(lǐng)域是最早使用NN技術(shù)的領(lǐng)域之一(早至1980s),但早期僅用于為HMM等模型做feature learning等輔助功能耻矮;近年larger and deeper model的使用顯著提高了NN模型的準確率秦躯,從2009年NN模型開始在SR領(lǐng)域受到重視和廣泛使用;
  5. TIMIT corpus [Garofolo, 1993]:是音素識別(phoneme recognition)任務(wù)的benchmark裆装;就如MNIST是CV領(lǐng)域中object recognition任務(wù)的benchmark踱承;

遺留問題:

  1. GCN與L2-norm的區(qū)別
  2. GCN與sphering的區(qū)別

詳細內(nèi)容

Global Contrast Normalization (GCN)

目標:將數(shù)據(jù)點歸一化到相同scale,以減輕學(xué)習(xí)算法的負擔(dān)哨免;

contrast: 整個圖片上各點數(shù)據(jù)值的標準差(用于在GCN中作為分母)


contrast

GCN: 基于contrast茎活,對圖片上各點數(shù)據(jù)值進行歸一化,使得數(shù)據(jù)的分布以0為均值琢唾,s為方差(s通常取1)载荔;
為避免除0現(xiàn)象為避免contrast為0導(dǎo)致的除0現(xiàn)象(zero-contrast image,即圖片標準差為0情況采桃,發(fā)生在整個圖片各點取值完全相同時)懒熙,可做以下調(diào)整(兩者二選一):

  • 引入\lambda參數(shù):考慮到contrast值取非零小值時的圖片通常攜帶非常少量的信息,將zero-contrast調(diào)整為一個非零小值\lambda
  • 引入\epsilon參數(shù):過小的contrast值一律調(diào)節(jié)為\epsilon
    于是普办,最終得到通過GCN處理后的新值為:
    GCN

優(yōu)點:

  • 相當(dāng)于將數(shù)據(jù)歸一化到一致的scale工扎,為NN的學(xué)習(xí)減輕負擔(dān);

缺點:

  • 缺乏對特殊feature的考慮(fail to highlight image features we would like to stand out)衔蹲;(因此提出LCN)
GCN

Local Contrast Normalization (LCN)

不同于GCN考慮整個圖片的數(shù)據(jù)點來計算contrast肢娘,LCN僅考慮當(dāng)前值所在局部區(qū)域(窗口)內(nèi)的值用于normalize;
LCN有多種變種舆驶,考慮的區(qū)域的形式不同橱健、計算方式不同等;

具體實現(xiàn)方法: separable convolution


LCN implementation

優(yōu)點:

  • 關(guān)注輪廓信息

缺點:

  • 當(dāng)normalization kernel帶寬過大時贞远,將丟失細節(jié)信息畴博;
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蓝仲,隨后出現(xiàn)的幾起案子俱病,更是在濱河造成了極大的恐慌,老刑警劉巖袱结,帶你破解...
    沈念sama閱讀 222,681評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件亮隙,死亡現(xiàn)場離奇詭異,居然都是意外死亡垢夹,警方通過查閱死者的電腦和手機溢吻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人促王,你說我怎么就攤上這事犀盟。” “怎么了蝇狼?”我有些...
    開封第一講書人閱讀 169,421評論 0 362
  • 文/不壞的土叔 我叫張陵阅畴,是天一觀的道長。 經(jīng)常有香客問我迅耘,道長贱枣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,114評論 1 300
  • 正文 為了忘掉前任颤专,我火速辦了婚禮纽哥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘栖秕。我一直安慰自己春塌,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 69,116評論 6 398
  • 文/花漫 我一把揭開白布累魔。 她就那樣靜靜地躺著摔笤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪垦写。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,713評論 1 312
  • 那天彰触,我揣著相機與錄音梯投,去河邊找鬼。 笑死况毅,一個胖子當(dāng)著我的面吹牛分蓖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播尔许,決...
    沈念sama閱讀 41,170評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼么鹤,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了味廊?” 一聲冷哼從身側(cè)響起蒸甜,我...
    開封第一講書人閱讀 40,116評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎余佛,沒想到半個月后柠新,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,651評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡辉巡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,714評論 3 342
  • 正文 我和宋清朗相戀三年恨憎,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片郊楣。...
    茶點故事閱讀 40,865評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡憔恳,死狀恐怖瓤荔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情钥组,我是刑警寧澤茉贡,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站者铜,受9級特大地震影響腔丧,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜作烟,卻給世界環(huán)境...
    茶點故事閱讀 42,211評論 3 336
  • 文/蒙蒙 一愉粤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拿撩,春花似錦衣厘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,699評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至探赫,卻和暖如春型宙,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背伦吠。 一陣腳步聲響...
    開封第一講書人閱讀 33,814評論 1 274
  • 我被黑心中介騙來泰國打工妆兑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人毛仪。 一個月前我還...
    沈念sama閱讀 49,299評論 3 379
  • 正文 我出身青樓搁嗓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親箱靴。 傳聞我的和親對象是個殘疾皇子腺逛,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,870評論 2 361

推薦閱讀更多精彩內(nèi)容