Neil Zhu后雷,簡書ID Not_GOD辑畦,University AI 創(chuàng)始人 & Chief Scientist蔓钟,致力于推進(jìn)世界人工智能化進(jìn)程磺箕。制定并實施 UAI 中長期增長戰(zhàn)略和目標(biāo)稽屏,帶領(lǐng)團(tuán)隊快速成長為人工智能領(lǐng)域最專業(yè)的力量扮宠。
作為行業(yè)領(lǐng)導(dǎo)者,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識中心全球價值網(wǎng)絡(luò))狐榔,AI growth(行業(yè)智庫培訓(xùn))等坛增,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分获雕。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動收捣,產(chǎn)生了巨大的影響力届案,書寫了60萬字的人工智能精品技術(shù)內(nèi)容,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》罢艾,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載楣颠。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評咐蚯。
Yann LeCun 在 Google+ 上發(fā)布的回答
我經(jīng)常被問起“深度學(xué)習(xí)與圖模型如何比較童漩?”。這個問題沒有答案——因為深度學(xué)習(xí)和圖模型是正交的概念春锋,它們可以(并已經(jīng))被組合起來使用了睁冬。
讓我說得更加清楚一些:這兩個模式并不是對立的,它們可以有效地組合起來看疙。
當(dāng)然豆拨,DBM(Deep Boltzmann Machine)是概率因子圖的一種形式。但是這些概念用其他的一些方式也可以組合在一起能庆。
例如施禾,你可以想象一個因子圖,這些因子本身包含一個DNN(Deep Neural Net)搁胆。最能說明這種情況的弥搞,就是動態(tài)因子圖(Dynamic Factor Graph),在這樣的圖中渠旁,在$$t$$時刻的狀態(tài)向量攀例,$$Z(t)$$ 是由之前的狀態(tài)和輸入,通過一個 DNN (可能使用了一個時態(tài)卷積網(wǎng)絡(luò))得到的顾腊。比如說當(dāng)log 因子為 $$||Z(t) - G(Z(t-1, X(t)))||^2$$粤铭,其中 $$G$$ 是一個 DNN。
這個例子簡要說明了杂靶,在給定 $$Z(t-1)$$ 和 $$X(t)$$下 $$Z(t)$$ 的條件概率分布是一個以均值為 $$G(Z(t-1), X(t))$$ 的高斯分布梆惯,協(xié)方差為單位元。
這種類型的動態(tài)因子圖可以用來建模高維度的時間序列吗垮。當(dāng)序列 $$X(t)$$ 被觀測到時垛吗,我們可以通過最小化log 因子的和(也常常被稱為能量函數(shù))來推斷最可能的隱藏狀態(tài) $$Z(t)$$ 的序列。
一旦最優(yōu)的 $$Z(t)$$ 被找到烁登,我們可以更新網(wǎng)絡(luò) $$G()$$ 的參數(shù)來讓能量變得更小怯屉。
更加高級的處理方式是可以用來學(xué)習(xí)高斯分布的協(xié)方差,或者來對 $$Z(t)$$ 的序列進(jìn)行邊緣化,而不僅僅使用后驗最大推斷(僅僅考慮有最低能量的序列)锨络。
這種深度因子的因子圖在 ECML 2009 上提出蝗敢,這也是我和我的學(xué)生 Piotr Mirowski(現(xiàn)在 Bell 實驗室)∽闵荆“Factor Graphs for Time Series Modeling”
相似的模型出現(xiàn)在使用 auto-encoder 的非監(jiān)督預(yù)學(xué)習(xí)進(jìn)行語言建模的論文中 “Dynamic Auto-Encoders for Semantic Indexing”
另外將深度學(xué)習(xí)和圖模型組合起來的方式是通用結(jié)構(gòu)化預(yù)測(structured prediction)。盡管這聽起來是一個新的想法锁右,但是其歷史要追溯到90年代早期失受。Leon Bottou 和 Xavier Driancourt 使用一個序列在時態(tài)卷積網(wǎng)絡(luò)上進(jìn)行語音識別。他們同時訓(xùn)練這個卷積網(wǎng)絡(luò)和靈活的詞模型咏瑟,在詞的層次上拂到,通過在時間相關(guān)的模塊(這個可以看做是一種因子圖,其中時間相關(guān)的函數(shù)是一個隱含變量)上進(jìn)行梯度的后向傳播進(jìn)行码泞。
在90年代早期兄旬,Leon、Yoshua Bengio 和 Patrick Haffner 設(shè)計了一個混合的語音識別系統(tǒng)余寥,其中在詞(或者句子)的層次使用一個辨別式的規(guī)則同時訓(xùn)練得到一個時態(tài)卷及網(wǎng)絡(luò)和一個隱馬爾科夫模型领铐。
在多年以后,Leon宋舷、Yoshua绪撵、Patrick 和 我使用了相似的想法來訓(xùn)練我們的手寫識別系統(tǒng)。我們放棄了規(guī)范化的HMM祝蝠,使用了沒有進(jìn)行規(guī)劃化的基于能量的因子圖音诈。當(dāng)訓(xùn)練是辨別式的時候,規(guī)范化操作是多余的(甚至有害的)绎狭。我們稱這個為“Graph Transformer Network”细溅。這個最初在 CVPR 1997 和 ICASSP 1997上發(fā)表。
一些關(guān)于這個的歷史在“A Tutorial on Energy-Based Learning”上有較為詳細(xì)的介紹儡嘶。