基于深度學(xué)習(xí)語(yǔ)義信息的通用圖文關(guān)聯(lián)技術(shù)

本身是個(gè)項(xiàng)目申請(qǐng)建議書(shū)的一部分。與其丟進(jìn)故紙堆齿尽，還不如公開(kāi)。不過(guò)略官腔灯节，不想專門(mén)改了循头。
和師弟@lmn15 共同撰寫(xiě)，版權(quán)所有炎疆。

深度學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展最為迅速的重要熱點(diǎn)課題之一卡骂。深度學(xué)習(xí)具有分布式特征表達(dá)、自動(dòng)特征提取形入、端到端機(jī)器學(xué)習(xí)和良好的泛化能力等優(yōu)勢(shì)偿警，在語(yǔ)音識(shí)別、圖像識(shí)別和自然語(yǔ)言處理等很多領(lǐng)域得到令人矚目的成功應(yīng)用唯笙。

在圖像處理領(lǐng)域中，深度學(xué)習(xí)在圖像分類盒使、圖像識(shí)別崩掘、目標(biāo)檢測(cè)、目標(biāo)追蹤少办、物體分割等諸多領(lǐng)域都得到了廣泛的應(yīng)用和實(shí)踐苞慢，較傳統(tǒng)方法而言，深度學(xué)習(xí)方法有著突飛猛進(jìn)的效果英妓，在手寫(xiě)文字識(shí)別挽放、圖像分類領(lǐng)域接近或已經(jīng)超過(guò)人類能力水平。在自然語(yǔ)言處理領(lǐng)域中蔓纠，從關(guān)鍵詞提取辑畦、詞性標(biāo)注到句法分析、情感分析腿倚、機(jī)器翻譯纯出、圖片文本描述、問(wèn)答系統(tǒng)等各種應(yīng)用領(lǐng)域都已經(jīng)得到廣泛應(yīng)用到深度學(xué)習(xí)的方法敷燎，并且取得了很好的效果暂筝。

現(xiàn)代深度學(xué)習(xí)方法最引人注目的一個(gè)特點(diǎn)是其具有自動(dòng)特征學(xué)習(xí)的能力，通過(guò)建立類似于人腦的分層模型結(jié)構(gòu)硬贯，對(duì)輸入數(shù)據(jù)逐級(jí)提取從底層到高層的特征焕襟，從而能很好地建立從底層信號(hào)到高層語(yǔ)義的映射，自動(dòng)地學(xué)習(xí)特征的層次結(jié)構(gòu)饭豹。在該層次結(jié)構(gòu)中鸵赖，高層特征通過(guò)底層特征構(gòu)建务漩，不同底層特征的不同方式的組合，可以構(gòu)建不同的高層特征卫漫。

無(wú)論是圖像處理還是自然語(yǔ)言處理菲饼，其方法都是首先將輸入元素通過(guò)特征提取轉(zhuǎn)換為特征空間向量，然后在特征空間向量之上進(jìn)行分類列赎、回歸宏悦、檢索等高層任務(wù)，進(jìn)而完成整個(gè)處理過(guò)程包吝。同時(shí)饼煞，神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)學(xué)習(xí)機(jī)制反向傳播算法，也是基于特征空間向量與樣本標(biāo)簽之間的映射關(guān)系完成的诗越。因此砖瞧，特征空間向量的本質(zhì)代表了最能描述抽象問(wèn)題的語(yǔ)義信息，例如在圖像處理中嚷狞，某一維或幾維特征代表的可能是自然圖像中的一個(gè)常見(jiàn)物體块促，例如人或者貓；而在自然語(yǔ)言處理中床未，某一維或幾維特征代表的可能是一類語(yǔ)法關(guān)系或者一類名詞/動(dòng)詞竭翠。

特征空間向量是一種理想的形式化表示方法，其將輸入內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算的算法模型薇搁，因此斋扰，空間上的相似度、關(guān)聯(lián)度啃洋、距離传货、路徑等信息即可以代表輸入內(nèi)容語(yǔ)義之間的相似度、關(guān)聯(lián)度等等相關(guān)度量關(guān)系宏娄。因此在特征空間轉(zhuǎn)換之后问裕，便不再需要考慮圖像、文本等數(shù)據(jù)的原始信息孵坚，可以有助于降低偶然出現(xiàn)的噪音僻澎。

早期的自然語(yǔ)言處理研究中，并沒(méi)有引入很好的文本向量空間方法十饥，而文本空間建模一直是自然語(yǔ)言處理窟勃、信息檢索、文本分類逗堵、信息過(guò)濾秉氧、數(shù)據(jù)挖掘、信息推薦蜒秤、知識(shí)處理汁咏、語(yǔ)音識(shí)別等領(lǐng)域研究的重點(diǎn)問(wèn)題亚斋。例如，在信息檢索 (Information Retrieval) 領(lǐng)域攘滩，可以通過(guò)將查詢條件和文本映射到同一個(gè)向量空間進(jìn)行相似性度量帅刊，得到在語(yǔ)義上更加符合查詢條件的文本結(jié)果，這比傳統(tǒng)的基于關(guān)鍵字的搜索引擎技術(shù)要更加貼近語(yǔ)義漂问。

由于圖像處理和自然語(yǔ)言處理有著類似的特征空間向量建模方法赖瞒，因此，對(duì)圖像特征空間和自然語(yǔ)言特征空間進(jìn)行特征空間融合蚤假，即可實(shí)現(xiàn)基于深度學(xué)習(xí)語(yǔ)義信息的圖文特征關(guān)聯(lián)技術(shù)栏饮。圖文特征關(guān)聯(lián)可以將融合后的特征空間中的圖或者文的特征向量進(jìn)行關(guān)聯(lián)、相似整合磷仰、計(jì)算距離等袍嬉，因此可以應(yīng)用在圖片描述、圖像文本檢索（以圖搜圖灶平、以文搜圖伺通、以圖搜文等）、圖片知識(shí)抽取等具體領(lǐng)域逢享。例如在圖片描述(Image Caption)中泵殴，可以借助向量空間建模對(duì)一幅圖片進(jìn)行文本的簡(jiǎn)略描述。該描述既可以描述圖片中出現(xiàn)的物體屬于什么分類拼苍，同時(shí)還可以描述物體和物體之間的位置和相互關(guān)系，例如调缨，可以描述一幅圖片中一只狗蹲/站在一個(gè)人的旁邊疮鲫；再例如下圖，這可以被描述為“一個(gè)人在滑板上沖浪”弦叶。

Captioning: a man riding a wave on top of a surfboard.

圖像和文本的特征空間建模當(dāng)前還存在著以下難點(diǎn)和挑戰(zhàn)：

第一俊犯、文本空間建模方法上不完全成熟。

文本空間是時(shí)序上的狀態(tài)空間伤哺，也就是通常所指的文本上下文關(guān)聯(lián)的問(wèn)題燕侠，當(dāng)前說(shuō)的話表達(dá)的意思在很大程度依賴于前面所講的意思。RNN通過(guò)不斷地將輸入詞的信息添加到歷史向量中立莉，寄希望于保存足夠長(zhǎng)的歷史狀態(tài)信息绢彤。但是實(shí)踐中并沒(méi)有成功，Bengio等人對(duì)該問(wèn)題進(jìn)行了深入的研究蜓耻，他們發(fā)現(xiàn)了使訓(xùn)練RNN 變得非常困難的根本原因（梯度消失/梯度爆炸）茫舶。后續(xù)又有人提出了RNN的各種改進(jìn)，應(yīng)用比較廣泛的有LSTM和GRU等刹淌。

當(dāng)前圖片特征建模方法相對(duì)比較成熟饶氏，而文本建模方法讥耗，則存在源序列條目間區(qū)分度低、條目上下文相關(guān)性差疹启、長(zhǎng)序列語(yǔ)義丟失嚴(yán)重等主要問(wèn)題古程。

源序列條目間區(qū)分度低表現(xiàn)在，當(dāng)前基于深度學(xué)習(xí)的文本建模方法在通過(guò)源序列生成目標(biāo)序列時(shí)喊崖，是通過(guò)將源序列通過(guò)深度網(wǎng)絡(luò)（一般使用RNN）轉(zhuǎn)換成中間語(yǔ)義編碼挣磨，再通過(guò)RNN將語(yǔ)義編碼依次解碼成目標(biāo)條目得到的。生成目標(biāo)序列時(shí)贷祈，不同時(shí)刻使用的都是同一個(gè)原始序列的語(yǔ)義編碼趋急，也就是說(shuō)不論是預(yù)測(cè)目標(biāo)序列的哪個(gè)條目，原始序列中任意條目對(duì)生成某個(gè)目標(biāo)條目來(lái)說(shuō)影響力都相同势誊。
條目上下文相關(guān)性差表現(xiàn)在呜达，對(duì)于word2vec、SENNA模型的中間層來(lái)說(shuō)粟耻，無(wú)論是采用將窗口內(nèi)的條目直接相加還是首尾相連的方式查近，都沒(méi)辦法體現(xiàn)出當(dāng)前預(yù)測(cè)條目及其上下文不同條目之間的相關(guān)性、以及上下文不同條目對(duì)當(dāng)前預(yù)測(cè)條目影響力之間的差別挤忙。
長(zhǎng)序列語(yǔ)義丟失嚴(yán)重表現(xiàn)在霜威，根據(jù)RNN保存歷史記憶的特性，原始序列中越是后輸入的條目在編碼時(shí)生成的語(yǔ)義編碼中影響就越大册烈。同時(shí)戈泼，隨著原始序列長(zhǎng)度的增加，所有語(yǔ)義完全通過(guò)一個(gè)中間語(yǔ)義編碼向量來(lái)表示赏僧，每個(gè)條目自身的信息已經(jīng)消失大猛，會(huì)丟失越來(lái)越多的語(yǔ)義信息。

第二淀零，針對(duì)深度學(xué)習(xí)的方法存在無(wú)法有效的在訓(xùn)練中將原始序列的語(yǔ)義準(zhǔn)確對(duì)應(yīng)到目標(biāo)序列的問(wèn)題挽绩，當(dāng)前研究采用引入注意力機(jī)制的方法解決。
注意力模型在更好的利用原始序列語(yǔ)義信息上是一種較為可靠的解決方案驾中，因?yàn)樽⒁饬δＰ途哂心軌虿蹲皆夹蛄兄胁煌瑮l目之間對(duì)于目標(biāo)序列預(yù)測(cè)的相關(guān)性唉堪、重要性與差異性的特點(diǎn)，適合深度網(wǎng)絡(luò)構(gòu)建文本空間的場(chǎng)景下提高語(yǔ)義信息利用率的問(wèn)題肩民。
基于注意力機(jī)制的模型可以關(guān)注到每個(gè)輸入條目（包括其上下文）的特征唠亚，提高模型從輸入序列中抽取生成每個(gè)輸出條目最相關(guān)的信息的能力，提高輸出序列的質(zhì)量和正確性持痰。在構(gòu)建文本空間常見(jiàn)的Seq2Seq模型中趾撵，原始序列每個(gè)條目對(duì)應(yīng)的注意力分布概率代表了預(yù)測(cè)當(dāng)前條目時(shí)，注意力分配模型分配給不同原始條目的注意力大小。模型在預(yù)測(cè)目標(biāo)序列的每個(gè)條目時(shí)會(huì)學(xué)習(xí)其對(duì)應(yīng)的原始序列中條目的注意力分配概率信息占调。這意味著在生成每個(gè)條目的時(shí)候暂题，原先都是相同的原始序列語(yǔ)義編碼會(huì)隨著當(dāng)前生成條目而不斷變化。由于引入了新的信息究珊，基于注意力的Seq2Seq模型可以提高預(yù)測(cè)目標(biāo)條目的正確性薪者。而對(duì)于word2vec模型，Wang等人使用注意力機(jī)制 (Attention model) 考慮到每個(gè)詞與其他詞之間的距離剿涮，將中間層的直接相加修改為帶權(quán)相加言津，其中權(quán)重的計(jì)算與當(dāng)前詞的上下文、以及歷史預(yù)測(cè)出的詞匯都相關(guān)取试，得到了更好的效果悬槽。

第三、端到端的學(xué)習(xí)網(wǎng)絡(luò)模型框架瞬浓。

鑒于圖初婆、文兩種不同領(lǐng)域特征建模方法的巨大差異，如何將兩個(gè)領(lǐng)域的特征空間進(jìn)行融合猿棉，如何建立機(jī)器學(xué)習(xí)學(xué)習(xí)訓(xùn)練模型磅叛，本身是一個(gè)很重要也非常具有挑戰(zhàn)的問(wèn)題。目前較為常見(jiàn)的網(wǎng)絡(luò)模型主要有谷歌的Show and talk和斯坦福大學(xué)的neural talk萨赁。

師弟的實(shí)驗(yàn)筆記：[NLP] 自己動(dòng)手跑Google的Image Caption模型

斯坦福大學(xué)的Neural Talk模型選擇了牛津大學(xué)的VGG作為圖像端的CNN編碼網(wǎng)絡(luò)弊琴、早期的Vanilla RNN作為文本端的RNN解碼網(wǎng)絡(luò)。通過(guò)將圖像輸入VGG網(wǎng)絡(luò)杖爽，得到網(wǎng)絡(luò)高級(jí)隱含層向量作為文本端RNN初始狀態(tài)的bias輸入敲董，再通過(guò)RNN解碼得到圖像描述。由于其開(kāi)源時(shí)間早慰安、直接使用python進(jìn)行實(shí)現(xiàn)腋寨，沒(méi)有依賴目前流行的各種深度網(wǎng)絡(luò)訓(xùn)練框架，因此成為了研究者關(guān)注的熱點(diǎn)泻帮。但隨著領(lǐng)域競(jìng)爭(zhēng)日趨激烈，Neural Talk模型由于其提出時(shí)間早计寇、選用的CNN和RNN網(wǎng)絡(luò)性能相對(duì)較弱锣杂，因此生成的圖片描述在常見(jiàn)的BLEU指標(biāo)上現(xiàn)在已經(jīng)相對(duì)落后，但其端到端的思想仍然是當(dāng)前各種模型發(fā)展的熱點(diǎn)方向番宁。
谷歌的Show and Tell模型與斯坦福的Neural Talk模型在思想上非常類似元莫，其選擇了自身開(kāi)發(fā)的的Inception V3作為圖像端的CNN編碼網(wǎng)絡(luò)、記憶能力更強(qiáng)的LSTM作為文本端的RNN解碼網(wǎng)絡(luò)蝶押。通過(guò)將圖像輸入Inception V3踱蠢，得到網(wǎng)絡(luò)高級(jí)隱含層向量作為文本端LSTM的初始隱狀態(tài)，再通過(guò)LSTM解碼得到圖像描述。由于其在圖像和文本端選用的深度網(wǎng)絡(luò)模型都是當(dāng)前性能最佳的模型之一茎截，因此生成的圖像描述在BLEU指標(biāo)上也名列前矛苇侵。但其也存在很多問(wèn)題，比如模型生成的句子存在重復(fù)程度高的問(wèn)題企锌。由于Show and Tell模型隱式地用隱含層保存之前生成的詞語(yǔ)信息榆浓，沒(méi)有顯式的約束。舉個(gè)例子撕攒，在單詞層面陡鹃，文本端的LSTM會(huì)認(rèn)為輸出一個(gè)物體A后很可能接著輸出“and”，在下一個(gè)時(shí)刻遇到“and”的時(shí)候認(rèn)為應(yīng)該輸出一個(gè)物體的詞抖坪，此時(shí)輸出的物體可能又是A萍鲸，也就是Show and Tell的LSTM模型并不能區(qū)分“and”前后的兩個(gè)物體其實(shí)是一樣的。同時(shí)在句子層面擦俐，Show and Tell模型生成的圖像描述重復(fù)程度也相當(dāng)高脊阴。

以上問(wèn)題都是當(dāng)前圖文關(guān)聯(lián)技術(shù)的難點(diǎn)和研究熱點(diǎn)。
但應(yīng)該不是全部捌肴，歡迎補(bǔ)充蹬叭。

最后編輯于：2017.12.04 11:54:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市状知，隨后出現(xiàn)的幾起案子秽五，更是在濱河造成了極大的恐慌，老刑警劉巖饥悴，帶你破解...
沈念sama閱讀 211,123評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件坦喘，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡西设，警方通過(guò)查閱死者的電腦和手機(jī)瓣铣，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)贷揽，“玉大人棠笑，你說(shuō)我怎么就攤上這事∏菪鳎” “怎么了蓖救？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0贊 345
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)印屁。經(jīng)常有香客問(wèn)我循捺，道長(zhǎng)，這世上最難降的妖魔是什么雄人？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任从橘，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘恰力。我一直安慰自己叉谜，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,412評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布牺勾。她就那樣靜靜地躺著正罢，像睡著了一般。火紅的嫁衣襯著肌膚如雪驻民。梳的紋絲不亂的頭發(fā)上翻具，一...
開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1贊 289
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音回还，去河邊找鬼裆泳。笑死，一個(gè)胖子當(dāng)著我的面吹牛柠硕，可吹牛的內(nèi)容都是我干的工禾。我是一名探鬼主播，決...
沈念sama閱讀 38,904評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼蝗柔，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼闻葵！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起癣丧，我...
開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤槽畔，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后胁编，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體厢钧，經(jīng)...
沈念sama閱讀 44,118評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,456評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年嬉橙，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了早直。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,599評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡市框，死狀恐怖霞扬，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情枫振，我是刑警寧澤喻圃，帶...
沈念sama閱讀 34,264評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站蒋得，受9級(jí)特大地震影響级及，放射性物質(zhì)發(fā)生泄漏乒疏。R本人自食惡果不足惜额衙，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,857評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧窍侧，春花似錦县踢、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0贊 21
一樁弒父案硼啤，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至斧账，卻和暖如春谴返，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背咧织。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工嗓袱，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人习绢。一個(gè)月前我還...
沈念sama閱讀 46,286評(píng)論 2贊 360
代替公主和親
正文我出身青樓渠抹，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親闪萄。傳聞我的和親對(duì)象是個(gè)殘疾皇子梧却，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,465評(píng)論 2贊 348

基于深度學(xué)習(xí)語(yǔ)義信息的通用圖文關(guān)聯(lián)技術(shù)

推薦閱讀更多精彩內(nèi)容