綜述:深度學(xué)習(xí)算法在FAQ中的應(yīng)用(三)

CSRAN

本文介紹論文《Co-Stack Residual Affinity Networks with Multi-level Attention Refinement for Matching Text Sequences》的相關(guān)工作许师,本文是CAFE算法的擴(kuò)展版,CAFE算法只計(jì)算了one-layer,而本文作者則計(jì)算了multi-layer微渠。事實(shí)上簡(jiǎn)單的stacked layer并不會(huì)帶來太大效果的提升搭幻,甚至可能導(dǎo)致效果變差,為了訓(xùn)練深層次的網(wǎng)絡(luò)逞盆,常用的三種網(wǎng)絡(luò)結(jié)構(gòu)為highway net檀蹋、residual net、dense net云芦。本文參考三種網(wǎng)絡(luò)的設(shè)計(jì)方式俯逾,設(shè)計(jì)了一個(gè)網(wǎng)絡(luò)更深的CAFE。但是本人在復(fù)現(xiàn)論文效果的時(shí)候發(fā)現(xiàn)參考論文的方式舅逸,一直達(dá)不到論文的效果桌肴,因此對(duì)論文中的模型結(jié)構(gòu)稍作修改,將stacked-LSTM去掉琉历,然后直接用highway做多層的CAFE投影坠七,發(fā)現(xiàn)效果還不錯(cuò)。

Input Encoder

首先將word representation和character representation進(jìn)行拼接善已,然后經(jīng)過2層的highway network進(jìn)行特征非線性投影灼捂。

Multi-level Attention Refinement

這里就比較簡(jiǎn)單了,直接講上面講到的CAFE作為block换团,參考類似于residual network的方式悉稠,輸出為input + 6。6為CAFE中抽取的特征:inter-attention有3維艘包,intra-attention有3維的猛。

Co-Stack Residual Affinity

Co-Stacking

Co-Stacking模塊負(fù)責(zé)融合多層的特征輸出a、b想虎∝宰穑回想我們最常用的相似得分計(jì)算,本文對(duì)其進(jìn)行多層擴(kuò)展舌厨,在多層中選擇最大相似度的詞岂却。

Bidirectional Alignment

通過上面計(jì)算的相似矩陣,計(jì)算alignment representation裙椭。作者論文這里的描述較為模糊躏哩,感覺公式推導(dǎo)不過來,因此在實(shí)現(xiàn)的時(shí)候稍作修改揉燃,采用了alignment-pooling的方式進(jìn)行實(shí)現(xiàn)扫尺。


Matching and Aggregation Layer

最后對(duì)多層representation和多層alignment representation進(jìn)行特征增廣,然后通過時(shí)序模型進(jìn)行encode炊汤。這里作者只是單純的對(duì)時(shí)序模型輸出進(jìn)行求和正驻,本人實(shí)現(xiàn)的時(shí)候也稍作修改弊攘,參考之前的論文這里采用了MeanMax。

Output and Prediction Layer

這里通過2層的全連接神經(jīng)網(wǎng)絡(luò)抽取最終用于classification的representation姑曙,然后通過softmax進(jìn)行歸一襟交。

MwAN

本文介紹論文《Multiway Attention Networks for Modeling Sentence Pairs》的相關(guān)工作,本文的主要思路是如何利用不同attention所取得的representation來加強(qiáng)特征表示伤靠,作者這里采用了大量的attention計(jì)算用于對(duì)結(jié)果進(jìn)行加權(quán)求和婿着。1)作者采用4種不同的attention計(jì)算:concat-attention、dot-attention醋界、bilinear-attention和minus-attention;2)由attention計(jì)算得到的alignment representation拼接上原始的representation經(jīng)過一個(gè)gate控制信息傳播提完,接著經(jīng)過一個(gè)GRU網(wǎng)絡(luò)對(duì)拼接之后的特征編碼形纺,這個(gè)時(shí)候就會(huì)得到四種不同的特征;3)如何對(duì)這四種特征進(jìn)行融合徒欣,這里仍然采用attention進(jìn)行加權(quán)融合逐样;4):融合之后的特征再經(jīng)過一個(gè)GRU網(wǎng)絡(luò)進(jìn)行最后的編碼,GRU輸出的是每個(gè)詞的輸出打肝,因此需要對(duì)其進(jìn)行aggregate脂新;5)本文再次對(duì)文本Q計(jì)算attention加權(quán)聚合所有詞,最后通過該聚合后的特征對(duì)之前的GRU輸出做最后的attention加權(quán)輸出粗梭≌悖可以看到整個(gè)模型應(yīng)用的大量的attention計(jì)算,就是為了避免簡(jiǎn)單取max-pooling断医、mean-pooling導(dǎo)致信息損失的問題滞乙。原諒我的無(wú)能,參考作者的思路進(jìn)行實(shí)現(xiàn)鉴嗤,并未能取得作者的效果斩启。

Encoding Layer

本文encoding layer與之前稍有不同,本文拼接word embedding和context embedding作為input representation醉锅,其中context embedding通過ELMo預(yù)訓(xùn)練得到兔簇。然后對(duì)input representation通過GRU網(wǎng)絡(luò)進(jìn)行編碼。

Multiway Matching

本文針對(duì)2個(gè)文本中不同詞硬耍,設(shè)計(jì)了4種不同的attention函數(shù):concat attention垄琐、bilinear attention、dot attention和minus attention默垄。

文本P第t個(gè)詞與文本Q中每個(gè)詞計(jì)算一次attention此虑,然后通過該attention對(duì)文本Q進(jìn)行加權(quán)用于表示文本P第t個(gè)詞。

Aggregation

以concat attention為例口锭,對(duì)concat之后的特征通過一個(gè)gate決定concat之后的特征重要程度朦前,類似于信息控制介杆,然后經(jīng)過GRU網(wǎng)絡(luò)進(jìn)行特征編碼。

接下來需要對(duì)所有的attention輸出進(jìn)行混合聚合韭寸,本文采用attention機(jī)制對(duì)各個(gè)attention輸出進(jìn)行加權(quán)自適應(yīng)求和

然后春哨,將混合聚合后的特征采用GUR編碼

Prediction Layer

對(duì)文本Q的編碼特征通過attention-pooling選擇最要的信息。然后通過該特征與混合編碼特征計(jì)算co-attention恩伺,最后通過該co-attention對(duì)混合編碼特征加權(quán)求和

最后赴背,整個(gè)框架采用交叉熵作為損失函數(shù)


DRCN

本文介紹論文《Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information》的相關(guān)工作,本文網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單晶渠,主要參考了dense-net的網(wǎng)絡(luò)結(jié)構(gòu)凰荚,然后在concatenate時(shí)添加attentive information來加強(qiáng)多層網(wǎng)絡(luò)特征編碼能力。

Word Representation Layer

本文input representation由四部分組成:靜態(tài)word embedding褒脯、動(dòng)態(tài)更新word embedding便瑟、character embedding和句子間相同詞。

Densely connected Recurrent Networks

普通的stacked RNNs由上一層的輸出直接做為下一層的輸入番川,但是由于梯度消失和梯度爆炸的問題導(dǎo)致模型非常難以訓(xùn)練

為了避免上面的問題到涂,residual connection通過shortcut完成反向傳播。

然而求和運(yùn)算會(huì)阻礙信息的傳播颁督,參考densenet的網(wǎng)絡(luò)設(shè)計(jì)践啄,作者通過concatenate先前所有層的輸出作為下一層的輸入,concatenate運(yùn)算保證了先前隱層的所有特征沉御。

Densely-connected Co-attentive networks

作者通過編碼之后兩個(gè)句子向量計(jì)算co-attention


然后將co-attentive information屿讽、上一層rnn輸出和上一層rnn輸入concatenate


Bottleneck component

隨著網(wǎng)絡(luò)層數(shù)越深,網(wǎng)絡(luò)參數(shù)越來越大吠裆。為了避免這個(gè)問題聂儒,作者采用autoencoder對(duì)特征進(jìn)行壓縮,在減少特征數(shù)的同時(shí)還能保持原始的信息硫痰。

Interaction and Prediction Layer

在經(jīng)過多層網(wǎng)絡(luò)之后衩婚,作者通過max-pooling對(duì)特征進(jìn)行aggregate。然后對(duì)question和answer特征進(jìn)行組合效斑,最后通過2層的全連接層抽取用于classification的特征非春。

DMAN

本文介紹論文《Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference》的相關(guān)工作,文章涉及的內(nèi)容比較多包含了遷移學(xué)習(xí)缓屠、增強(qiáng)學(xué)習(xí)和NLI奇昙。首先通過特征遷移利用其他數(shù)據(jù)來豐富目前的特征;在多人標(biāo)注時(shí)敌完,通用的做法是少數(shù)服從多數(shù)储耐,例如:neural, neural, entailment, contradiction, neural,最終的標(biāo)簽是neural滨溉,非0即1的標(biāo)簽太過生硬未能體現(xiàn)出該條樣本的置信度什湘,作者這里采用預(yù)測(cè)標(biāo)簽在該條文本標(biāo)注集的占比做為reward长赞,因此最終的目標(biāo)是交叉熵?fù)p失最小,reward最大闽撤。

Sentence Encoder Model

首先定義source domain的網(wǎng)絡(luò)結(jié)構(gòu):通過BiLSTM對(duì)句子進(jìn)行編碼得哆,然后對(duì)編碼特征進(jìn)行抽取(max-pooling特征和最后時(shí)刻特征)




Discourse Marker Augmented Network

Encoding Layer
Interaction Layer

文本匹配模型常用的就是特征交叉哟旗,本文做特征交叉時(shí)考慮了source domain的特征

通過interaction matrix計(jì)算align representation


然后通過align representation做特征增廣

最后通過BiLSTM對(duì)特征編碼贩据,并對(duì)其輸出采用attention加權(quán)求和


Output Layer
Training

在訓(xùn)練階段時(shí),作者結(jié)合監(jiān)督學(xué)習(xí)的交叉熵?fù)p失和增強(qiáng)學(xué)習(xí)的reward共同優(yōu)化模型闸餐,其中reward為預(yù)測(cè)標(biāo)簽在標(biāo)注者中的占比饱亮。




SRL

本文介紹論文《I Know What You Want: Semantic Learning for Text Comprehension》的相關(guān)工作,通過對(duì)input sentence做語(yǔ)意角色標(biāo)注來訓(xùn)練tag embedding舍沙,然后通過該embedding加強(qiáng)詞的表征能力近尚,基礎(chǔ)模型采用的ESIM,不同之處在于用ELMo替換Glove embedding场勤,然后加入SRL embedding,其他模型結(jié)構(gòu)不變歼跟。最后作者通過實(shí)驗(yàn)對(duì)SRL embedding和媳、ELMo embedding帶來的收益進(jìn)行了詳細(xì)的評(píng)估,文章的大部分篇幅也是對(duì)SRL建模進(jìn)行了詳細(xì)的介紹哈街。

下面簡(jiǎn)單介紹一下文章中的SRL網(wǎng)絡(luò)結(jié)構(gòu)

Word Representation

word representation包含了兩部分:word embedding和SRL embedding留瞳,然后進(jìn)行concat得到最終的word representation。

Encoder

編碼層為BiLSTM組合highway network做多層的疊加(單獨(dú)疊加BiLSTM不一定能獲得模型效果提升骚秦,甚至?xí)硇阅軔夯ㄓ捎谔荻认Ш吞荻缺ǎ?/p>

Model Implementation

從最后的實(shí)驗(yàn)結(jié)果來看她倘,SRL embedding確實(shí)帶來了效果的提升

參考文獻(xiàn)

  • Co-Stack Residual Affinity Networks with Multi-level Attention Refinement for Matching Text Sequences
  • Multiway Attention Networks for Modeling Sentence Pairs
  • Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information
  • Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference
  • I Know What You Want: Semantic Learning for Text Comprehension
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市作箍,隨后出現(xiàn)的幾起案子硬梁,更是在濱河造成了極大的恐慌,老刑警劉巖胞得,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荧止,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡阶剑,警方通過查閱死者的電腦和手機(jī)跃巡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來牧愁,“玉大人素邪,你說我怎么就攤上這事≈戆耄” “怎么了兔朦?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵偷线,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我烘绽,道長(zhǎng)淋昭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任安接,我火速辦了婚禮翔忽,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘盏檐。我一直安慰自己歇式,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布胡野。 她就那樣靜靜地躺著材失,像睡著了一般。 火紅的嫁衣襯著肌膚如雪硫豆。 梳的紋絲不亂的頭發(fā)上龙巨,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音熊响,去河邊找鬼旨别。 笑死,一個(gè)胖子當(dāng)著我的面吹牛汗茄,可吹牛的內(nèi)容都是我干的秸弛。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼洪碳,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼递览!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瞳腌,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤绞铃,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后嫂侍,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體憎兽,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年吵冒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了纯命。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡痹栖,死狀恐怖亿汞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情揪阿,我是刑警寧澤疗我,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布咆畏,位于F島的核電站,受9級(jí)特大地震影響吴裤,放射性物質(zhì)發(fā)生泄漏旧找。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一麦牺、第九天 我趴在偏房一處隱蔽的房頂上張望钮蛛。 院中可真熱鬧,春花似錦剖膳、人聲如沸魏颓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)甸饱。三九已至祟印,卻和暖如春雄右,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背醉拓。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工墩瞳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留驼壶,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓矗烛,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親箩溃。 傳聞我的和親對(duì)象是個(gè)殘疾皇子瞭吃,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359