標(biāo)題:抽象學(xué)習(xí):神經(jīng)狀態(tài)機(jī)
論文資源:NeurIPS2019文獻(xiàn)全文 - 學(xué)術(shù)范 (xueshufan.com)
代碼:該項(xiàng)目為網(wǎng)友復(fù)現(xiàn)睛廊,可參考-->?https://github.com/ceyzaguirre4/NSM?
一脑题、問題提出
針對(duì)神經(jīng)網(wǎng)絡(luò)和符號(hào)網(wǎng)絡(luò)各自的優(yōu)缺點(diǎn),引入有限自動(dòng)機(jī)的思想,提出一種神經(jīng)狀態(tài)機(jī)赶掖,將各自的互補(bǔ)優(yōu)勢(shì)整合到視覺推理任務(wù)中博助。
首先基于給定的圖像麻削,使用一個(gè)場景圖抽取模型娇跟,得到對(duì)應(yīng)的概率場景圖。其中头遭,對(duì)象被轉(zhuǎn)化為節(jié)點(diǎn)寓免,并使用屬性表示表示特征癣诱;關(guān)系被轉(zhuǎn)化為邊,來捕獲對(duì)象之間的空間關(guān)系和語義關(guān)系袜香。此外撕予,對(duì)輸入的問題進(jìn)行語義理解,并轉(zhuǎn)化為一系列軟指令蜈首。在推理過程中实抡,概率場景圖被視為一個(gè)有限狀態(tài)機(jī),利用指令集合在其上執(zhí)行順序推理欢策,迭代遍歷它的節(jié)點(diǎn)吆寨,以回答一個(gè)給定的問題或得出一個(gè)新的推理。
不同于一些旨在將多模態(tài)數(shù)據(jù)進(jìn)行緊密交互的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)踩寇,神經(jīng)狀態(tài)機(jī)定義了一組語義概念embedding的概念啄清,其描述領(lǐng)域的不同實(shí)體和屬性,如各種對(duì)象姑荷、屬性和關(guān)系盒延。通過將視覺和語言形式轉(zhuǎn)換為基于語義概念的表示,有效地使兩種模態(tài)可以”說同一種語言“鼠冕,從而可以在抽象的語義空間中進(jìn)行綜合推理,這使得結(jié)構(gòu)從內(nèi)容中分離出來胯盯,實(shí)現(xiàn)模型的模塊化懈费,增強(qiáng)模型的透明度和可解釋性。
二博脑、主要思想
兩個(gè)階段:
建模:構(gòu)造狀態(tài)機(jī)憎乙。將視覺和語言形式都轉(zhuǎn)換成抽象的表示形式:圖像被分解成一個(gè)表示其語義的概率圖——描述的視覺場景中的對(duì)象、屬性和關(guān)系叉趣,問題被轉(zhuǎn)換成一系列推理指令泞边,通過執(zhí)行指令回答問題。
推理:模擬狀態(tài)機(jī)的操作疗杉。在問題的指導(dǎo)下對(duì)語義視覺場景執(zhí)行順序推理:通過迭代地向機(jī)器輸入指令并遍歷其狀態(tài)來模擬串行計(jì)算阵谚,以獲得答案。
定義:元組(C,S,E,riNi=0,p0,δ)(C,S,E,rii=0N,p0,δ)
(1)C:模型的概念詞匯表烟具,由一組屬性概念組成梢什。
(2)S:狀態(tài)集。
(3)E:有向邊的集合朝聋,指定狀態(tài)之間的有效轉(zhuǎn)換嗡午。
(4){ri}Ni=0{ri}i=0N:維數(shù)為d的指令序列,作為過渡函數(shù)δδ的輸入依次傳遞冀痕。
(5)p0p0:S→[0,1] 初始狀態(tài)的概率分布荔睹。
(6)δS,EδS,E:pi×?ri→?pi+1pi×?ri→?pi+1是狀態(tài)轉(zhuǎn)移函數(shù)狸演。實(shí)例化為神經(jīng)模塊,在每一步中僻他,考慮狀態(tài)分布pipi和輸入指令riri严沥,并使用它沿邊更新分布概率,產(chǎn)生一個(gè)更新的狀態(tài)分布pi+1pi+1中姜。
Part1:概念詞匯表Concept vocabulary C
用于捕獲和表示輸入圖像的語義內(nèi)容消玄。
L + 2個(gè)屬性:
一個(gè)對(duì)象主體CO=C0CO=C0?eg:cat
L個(gè)屬性CA=ULi=1CiCA=Ui=1LCi?eg:顏色、形狀丢胚、材質(zhì)
一種關(guān)系CR=CL+1CR=CL+1?eg:持有翩瓜、看
每個(gè)屬性類型定義了一組D維embedding。
Part2:狀態(tài)集 S 和 邊集 E
構(gòu)建一個(gè)概率場景圖携龟,提取給定圖像中的對(duì)象和關(guān)系兔跌,構(gòu)建機(jī)器的狀態(tài)圖。
此處使用了前人提出的場景圖生成模型和Mask R-CNN物體檢測(cè)器峡蟋。
場景圖的組成:
補(bǔ)充:
Part4:模型推理
Step2:得到指令的內(nèi)容坟桅,將其與所有的狀態(tài)和邊進(jìn)行比較,計(jì)算節(jié)點(diǎn)和邊的相關(guān)性分?jǐn)?shù):
Step3:將模型的注意力從現(xiàn)有狀態(tài)轉(zhuǎn)移到最相關(guān)的鄰居狀態(tài)(即下一個(gè)狀態(tài)):
(3)計(jì)算基于每個(gè)狀態(tài)自身屬性潛在轉(zhuǎn)移的概率蕊蝗,(4)則考慮到相對(duì)于當(dāng)前狀態(tài)仅乓、轉(zhuǎn)移到下一狀態(tài)的上下文相關(guān)性。最終通過加權(quán)平均概率得到下一狀態(tài)的概率分布蓬戚。
通過將該過程重復(fù)執(zhí)行N步夸楣,模擬神經(jīng)狀態(tài)機(jī)的推理步驟。
Part5:分類
為了預(yù)測(cè)問題子漩,使用兩次全連接層的softmax分類器豫喧,接收LSTM輸出的問題特征和最終指令rNrN引導(dǎo)下提取到的最終狀態(tài)聚合得到的信息m:
(6)先按照指令類型求平均值,之后加上了對(duì)最終狀態(tài)的注意力pNpN幢泼。
三紧显、實(shí)驗(yàn)
數(shù)據(jù)集:GQA VQA-CP
結(jié)果:
GQA:
VQA-CPv2:
模型泛化性能:
對(duì)GQA數(shù)據(jù)集進(jìn)行修改,泛化了內(nèi)容以及語法結(jié)構(gòu):內(nèi)容泛化:測(cè)試機(jī)包括訓(xùn)練集不存在的種類缕棵;結(jié)構(gòu)泛化:同中問題語法表達(dá)修改孵班。
可視化推理過程:
四、總結(jié)
本文提出了神經(jīng)狀態(tài)機(jī)NSM挥吵,其從圖像中抽取出一個(gè)圖結(jié)構(gòu)重父,并模擬有限自動(dòng)機(jī)的推理步驟,來執(zhí)行視覺推理任務(wù)忽匈。通過實(shí)驗(yàn)房午,證明了其有效性、魯棒性和很好的泛化性能丹允,此外也提高了可解釋性郭厌。
通過將有限狀態(tài)機(jī)的概念融入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)袋倔,使得符號(hào)和連接主義方法更加緊密的整合在一起,從而將神經(jīng)模型從感官和知覺任務(wù)提升到更高層次的抽象折柠、知識(shí)表征宾娜、組合性和推理領(lǐng)域。