CNCC2017中的深度學習與跨媒體智能

轉載請注明作者:夢里茶

目錄

  • 機器學習與跨媒體智能
    • 傳統(tǒng)方法與深度學習
      • 圖像分割
      • 小數據集下的深度學習
      • 語音前沿技術
    • 生成模型
      • 基于貝葉斯的視覺信息編解碼
      • 珠算:基于別噎死推斷的深度生成模型庫
      • 圖像與視頻生成的規(guī)則約束
        • 景深風景生成
        • 骨架約束的人體視頻生成
    • 跨媒體智能
      • 視頻檢索的哈希學習
      • 多媒體與知識圖譜
      • 基于錨圖的視覺數據分析
      • 視頻問答
      • 細粒度分類
      • 跨媒體關聯(lián)與檢索(待補充)

正片開始

傳統(tǒng)方法與深度學習

圖像分割

圖像分割是醫(yī)療圖像中一個很重要的任務,通常分為分割界弧,配準,可視化幾個子任務僵驰。這里貼一張廣義的圖像分割的圖:

p3-segment.jpg

存在的困難:

  • 不同目標區(qū)域亮度一致疮方,區(qū)分度小控嗜,
  • 不同目標區(qū)域邊界模糊,
  • 圖像采集存在噪聲

常用分割步驟

檢測(定位)-> 邊界尋優(yōu)

常用分割方法

  • 按照圖像中區(qū)域的能量與聯(lián)系骡显,建立圖模型疆栏,用圖割,圖搜索的方法對圖像進行分割
  • 外觀模型:特定的目標區(qū)域往往具有特殊的外觀惫谤,包括輪廓壁顶,形狀,可以用外觀模型進行匹配溜歪,做粗粒度的分割若专,或者對細粒度處理后的圖像進行校正
  • 多模態(tài)圖像處理:融合結構信息功能信息進行分割
    • 對準兩個模型(結構和功能)的圖像,對兩個模型的預測結果進行約束(比如希望兩個模型的輸出相近)
    • 雙模型交互迭代優(yōu)化
  • 多邊形近似
    • 對于某種目標區(qū)域蝴猪,有著固定的多邊形外觀调衰,可通過多邊形近似的方法,標記出圖像中近似的特征點

語音前沿技術

任務

降噪自阱,增強窖式,雜音分離,消除回響

結合領域知識和DNN

  • 數據標注:結合領域知識提出需要標注哪些數據
  • 不直接學習目標动壤,而是根據領域知識將目標任務進行分解
    • 比如識別字母,分解為識別摩擦音淮逻,爆破音
  • 將傳統(tǒng)模型中里程碑式的東西拿過來用

移動端語音挑戰(zhàn)

模型壓縮琼懊,輕量化

生成模型

基于貝葉斯的視覺信息編解碼

任務

  • 視覺信息編碼:視覺信息通過人腦轉為神經活動的過程
  • 視覺信息解碼:神經活動新號轉為視覺信息的過程

模型(基于卷積和反卷積的自編碼器)

  • 推理網絡:卷積神經網絡,得到中間特征爬早,建立中間特征與神經活動信號之間的關聯(lián)哼丈,從而得到神經活動得到編碼
  • 生成網絡:將神經活動進行反卷積,得到圖像
  • 對于兩個信號筛严,學習兩個信號產生于同一對象的概率(相似度分析)醉旦,建立起一個貝葉斯推斷模型

多視圖生成式自編碼器

除了視覺數據之外,還有其他模態(tài)的數據桨啃,可以根據多個模態(tài)的數據構建多視圖的生成時自編碼器

珠算:基于貝葉斯推斷的深度生成模型庫

任務

大數據中有許多不確定因素车胡,需要學習對不確定性建模

模型

p9_zhusuan.png

給定一個輸入z,用神經網絡學習變量x的分布的參數(均值和方差)照瘾,約束生成樣本與真實樣本的相似性

有約束的GAN

p10_gan.png

在GAN的基礎上匈棘,加一個分類器C,對生成器G生成的對象加中間約束析命,使得生成的對象更符合實際需求主卫,比如生成不同姿態(tài)的人臉逃默,要求不同人的人臉盡量不同,同個人的人臉盡量相同簇搅。

珠算

  • 基于Tensorflow的python庫完域,無監(jiān)督生成模型
  • 貝葉斯推斷
  • 適合傳統(tǒng)多層貝葉斯推斷模型以及深度生成模型
  • 可用于
    • 多變量回歸
    • 變分自編碼器實現(xiàn)
  • http://zhusuan.readthedocs.io

圖像與視頻生成的規(guī)則約束學習

  • GAN成為無監(jiān)督領域的新框架

    • WGAN,DCGAN
    • 在生成中瘩将,往往通過隨機性引入創(chuàng)意
  • 已有工作

    • 人臉姿態(tài)轉換吟税,人臉年齡轉換,人臉表情轉換
    • 圖像超分辨率生成鸟蟹,畫風轉換乌妙,字體轉換,圖像轉視頻
  • 應用

    • 動畫自動制作建钥,手語生成
    • 視頻自動編輯(如生成不同天氣情況下的風景)
  • 創(chuàng)意+規(guī)則約束+復雜場景+復雜交互

  • 難點

    • 解空間巨大:需要找出解所在的低維子空間
    • 宏觀結構的一致性(視頻生成需要的像素感受野(pooling)很大藤韵,難以預測長期運動變化)
    • 微觀結構的清晰度,要同時逼近多模分布熊经,避免單模生成的結果不夠精確
  • 解決方法

    • 用領域中的規(guī)則去約束GAN泽艘,加入破壞規(guī)則的代價
    • 縮小預測空間,保證宏觀結構镐依,加快細節(jié)生成

景深風景生成

  • 難點:要求空間結構合理匹涮,不能有嚴重的模糊
  • 約束:從現(xiàn)有風景圖像中對景深關系建模(對區(qū)域進行標注, 不同區(qū)域槐壳,即圖層然低,有不同的遠近限制)
  • 建立位置和對象的關系,得到某個位置有某個對象的概率分布
  • Hawkes過程模型
  • 根據對象對圖層做分解务唐,由概率約束建立圖層約束(樹在人之前的概率有多大)
  • 層內DCGAN雳攘,層間LSTM聚合出整圖

骨架約束的人體視頻生成

  • 骨架運動有約束
  • 骨架提取很魯棒,可以得到很多有標簽知識(傳統(tǒng)方法用來提取知識)枫笛,作為約束條件
  • 靜圖+動作序列變動圖
  • CNN編碼解碼吨灭,孿生網絡雙輸入進行生成
  • 判別器:對生成和實際幀做Triplet loss優(yōu)化
  • gan loss和視頻相似度loss相加
  • 交互運動視頻生成

視頻檢索的哈希學習

Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks

視頻檢索基于圖像檢索,大規(guī)模圖像檢索對性能要求較高

  • 圖像檢索
    • 任務:通常圖像特征很大刑巧,直接檢索特征太慢
    • 方法:
      • 用二進制編碼出一個哈希值來表達特征
      • 對哈希值做高效的異或運算求相似度
      • 模型(添加了對二進制編碼的約束喧兄,希望絕對值與1盡量相近):
p17_hash.png

多媒體與知識圖譜

Cross-media analysis and reasoning: advances and directions

  • 任務:

    • 將文本,圖像啊楚,語音吠冤,視頻及其交互屬性進行混合
    • 多源融合+知識演化+系統(tǒng)演化
  • 難點:

    • 解決語義鴻溝(機器認識世界是什么)
    • 意圖鴻溝(機器理解人要達到什么目標)
    • 離散的知識和連續(xù)的特征如何轉化如何關聯(lián)
  • 典型問題:

    • 跨媒體知識學習推理,多媒體情感分析
  • 現(xiàn)狀:

    • 機器學習助力多媒體效果很好
    • 多媒體助力機器學習還不成熟
  • 任務:

    • 跨媒體深度分析和綜合推理
  • 方法:

    • 從淺層到深度
    • 知識圖譜指導多媒體分析特幔,屬性補全
    • 深度學習+反饋(知識和規(guī)則進行反饋/強化學習)(黑箱方法)
    • 統(tǒng)計推理咨演,貝葉斯推理(白盒方法)
  • 趨勢:

    • 知識表達理解缴饭,多媒體理解

基于錨圖的視覺數據分析

  • 圖學習
    • 對視覺數據可以計算相似度夸楣,對于整個數據集就可以得到一個相似度矩陣何乎,學過圖論的同學都知道竹观,矩陣就是圖
    • 相似度矩陣 -> 圖的鄰接矩陣 -> 用圖的方法對鄰接矩陣進行優(yōu)化
    • 標號建模 標號平滑 標號學習
  • 錨圖學習(速度+)
    • 這是一種coarse to fine的思路
    • 利用數據點圖,生成錨點圖遭赂,先采一部分有代表性的數據(例如聚類中心)生成一個圖模型循诉,然后推理出其他圖
    • 圖模型中需要建立表示矩陣(特征工程),鄰接矩陣(度量學習)撇他,并加快相似度計算
  • 高效錨圖(性能速度+)
    • 從數學上優(yōu)化錨圖的約束條件茄猫,使得優(yōu)化問題的復雜度大大降低
  • 層次化錨圖(速度++)
    • 建立多層的錨圖,也就是對采樣點再采樣
    • 錨點是線性增加的困肩,也會增加得很快
    • 對第一層采樣的點做再采樣划纽,多層采樣減少了錨點數目,從最少的錨點的層逐層推理
  • 標號預測器(速度+++)
    • 優(yōu)化對錨點的標號(打偽標簽進行半監(jiān)督學習)
    • 對最小的錨點層接一個優(yōu)化器進行標號預測
  • 主動學習(樣本選擇)
    • 是一種hard mining的思路锌畸,選擇更有用的樣本作為錨點
    • 減小標號的誤差損失
  • 對比Google Expander Graph Learning平臺:經典方法勇劣,并行運算,而錨圖可以通過并行進一步提升速度

視頻問答

  • 任務:
    • 輸入視頻潭枣,問題比默,輸出答案
  • 模型(層次記憶網絡+視頻時序推理):
    • 對圖像進行分層
    • 對問題進行記憶
    • 用文本和圖像特征一同訓練生成答案
    • 用LSTM做時序推理

細粒度分類

  • 任務:
    • 識別圖像同一大類中的子類
  • 挑戰(zhàn):
    • 姿態(tài)視角不同導致類內差異大,外形顏色相似導致類間差異小

基于模型動態(tài)擴容的增量深度學習方法

論文:Error-Driven Incremental Learning in Deep Convolutional Neural Network for Large-Scale Image Classification

  • 將目標的多個類別按相似度劃分為幾個大類盆犁,
  • 增加一個新的類別時命咐,將其歸入最相近的大類中,重用大類的參數谐岁,擴展小類分類層參數
  • 利用類別子集合劃分實現(xiàn)模型動態(tài)擴容醋奠,利用特征遷移學習實現(xiàn)訓練加速(對類別做聚類)


    p23_incremental.png

局部兩級注意力深度模型

The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification

給定圖片-類別,不給出對象位置(bounding box)和局部的位置(part location)伊佃,用Attention學習對象位置和局部特征

  • Object level: 首先用公開的數據集預訓練模型钝域,top-down地作用在整圖上,選出跟目標相關的區(qū)域(響應度最高的區(qū)域)锭魔,相當于摳圖,對摳過的區(qū)域再加上類別標簽進行遷移學習路呜。
p25_object.png
  • Part level:
    • 對于Object level得到的模型迷捧,對卷積層的filter做相似度聚類,同一類的卷積層合為一個part detector胀葱,用來為具體的對象局部做識別
p25_local.png
  • 結合總體評分和局部評分來對對象做細粒度分類

空間約束的顯著性部件選擇模型

Weakly Supervised Learning of Part Selection Model with Spatial Constraints for Fine-grained Image Classification

  • 顯著性提取和協(xié)同分割定位對象
  • 先通過顯著性聚類提出備選局部漠秋,
  • 再對局部位置關系提出兩個空間約束:局部和整體必須有盡可能多的重疊,局部之間有盡可能少的重疊抵屿。


    p26_constraint.png

上面兩篇都是不需要局部組件的標注,就學到了局部的特征和約束

顯著性引導的細粒度辨識性定位方法

Fine-grained Discriminative Localization via Saliency-guided Faster R-CNN

結合分類模型和檢測模型做更高精度的細粒度分類

  • 顯著性模型提供弱標記的圖片訓練faster r-cnn檢測模型
  • 檢測模型提供更精確的備選區(qū)域進行分類
p27_rcnn.png

視覺文本聯(lián)合建模的圖像細粒度表示

Fine-grained Image Classification via Combining Vision and Language

  • 在圖片數據集的基礎上轧葛,增加對圖片的描述文本搂抒,利用這兩個模態(tài)的數據提供更高精度的細粒度分類
  • 卷積做圖像分類艇搀,CNN+LSTM做文本分類求晶,兩個分類結果合起來
p28_vt.png

跨媒體關聯(lián)與檢索

  • 跨媒體統(tǒng)一表征學習:使用相同的特征類型表征不同媒體的數據
  • 跨媒體相似度計算:通過分析跨媒體關聯(lián)關系焰雕,計算不同媒體數據的語義相似性

這里的六篇論文我還沒讀完,讀完之后補具體的理解

跨媒體關聯(lián)傳遞方法

IJCV2013: Exhaustive and Efficient Constraint Propagation

基于稀疏和半監(jiān)督的統(tǒng)一表征方法

Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization

基于跨媒體語義單元的統(tǒng)一表征方法

Semi-Supervised Cross-Media Feature Learning with Unified Patch Graph Regularization

基于跨媒體多深度網絡的統(tǒng)一表征方法

Cross-media Shared Representation by Hierarchical Learning with Multiple Deep Networks

基于多粒度層級網絡跨媒體關聯(lián)學習方法

CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network

跨媒體混合遷移網絡方法

Cross-modal Common Representation Learning by Hybrid Transfer Network, IJCAI2017

跨媒體檢索數據集PKU-XMedia

  • www.icst.pku.edu.cn/mlpl/XMedia
  • 五種媒體類型(圖像芳杏、文本矩屁、視頻、音頻爵赵、3D)
  • 10萬標注數據吝秕,200個語義類別,基于wordNet的層次結構
  • 來自Wikipedia, Flickr, Youtube, Findsounds, Freesound, Yobi3D
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末空幻,一起剝皮案震驚了整個濱河市烁峭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌氛悬,老刑警劉巖则剃,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異如捅,居然都是意外死亡棍现,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門镜遣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來己肮,“玉大人,你說我怎么就攤上這事悲关』哑В” “怎么了?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵寓辱,是天一觀的道長艘绍。 經常有香客問我,道長秫筏,這世上最難降的妖魔是什么诱鞠? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮这敬,結果婚禮上航夺,老公的妹妹穿的比我還像新娘。我一直安慰自己崔涂,他們只是感情好阳掐,可當我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般缭保。 火紅的嫁衣襯著肌膚如雪汛闸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天涮俄,我揣著相機與錄音蛉拙,去河邊找鬼。 笑死彻亲,一個胖子當著我的面吹牛孕锄,可吹牛的內容都是我干的。 我是一名探鬼主播苞尝,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼畸肆,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了宙址?” 一聲冷哼從身側響起轴脐,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎抡砂,沒想到半個月后大咱,有當地人在樹林里發(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡注益,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年碴巾,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丑搔。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡厦瓢,死狀恐怖,靈堂內的尸體忽然破棺而出啤月,到底是詐尸還是另有隱情煮仇,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布谎仲,位于F島的核電站浙垫,受9級特大地震影響,放射性物質發(fā)生泄漏郑诺。R本人自食惡果不足惜绞呈,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望间景。 院中可真熱鬧,春花似錦艺智、人聲如沸倘要。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽封拧。三九已至志鹃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間泽西,已是汗流浹背曹铃。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留捧杉,地道東北人陕见。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像味抖,于是被迫代替她去往敵國和親评甜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內容