綜述：深度學(xué)習(xí)算法在FAQ中的應(yīng)用(三)

CSRAN

本文介紹論文《Co-Stack Residual Affinity Networks with Multi-level Attention Refinement for Matching Text Sequences》的相關(guān)工作许师，本文是CAFE算法的擴(kuò)展版，CAFE算法只計(jì)算了one-layer，而本文作者則計(jì)算了multi-layer微渠。事實(shí)上簡(jiǎn)單的stacked layer并不會(huì)帶來太大效果的提升搭幻，甚至可能導(dǎo)致效果變差，為了訓(xùn)練深層次的網(wǎng)絡(luò)逞盆，常用的三種網(wǎng)絡(luò)結(jié)構(gòu)為highway net檀蹋、residual net、dense net云芦。本文參考三種網(wǎng)絡(luò)的設(shè)計(jì)方式俯逾，設(shè)計(jì)了一個(gè)網(wǎng)絡(luò)更深的CAFE。但是本人在復(fù)現(xiàn)論文效果的時(shí)候發(fā)現(xiàn)參考論文的方式舅逸，一直達(dá)不到論文的效果桌肴，因此對(duì)論文中的模型結(jié)構(gòu)稍作修改，將stacked-LSTM去掉琉历，然后直接用highway做多層的CAFE投影坠七，發(fā)現(xiàn)效果還不錯(cuò)。

Input Encoder

首先將word representation和character representation進(jìn)行拼接善已，然后經(jīng)過2層的highway network進(jìn)行特征非線性投影灼捂。

Multi-level Attention Refinement

這里就比較簡(jiǎn)單了，直接講上面講到的CAFE作為block换团，參考類似于residual network的方式悉稠，輸出為input + 6。6為CAFE中抽取的特征：inter-attention有3維艘包，intra-attention有3維的猛。

Co-Stack Residual Affinity

Co-Stacking

Co-Stacking模塊負(fù)責(zé)融合多層的特征輸出a、b想虎∝宰穑回想我們最常用的相似得分計(jì)算，本文對(duì)其進(jìn)行多層擴(kuò)展舌厨，在多層中選擇最大相似度的詞岂却。

Bidirectional Alignment

通過上面計(jì)算的相似矩陣，計(jì)算alignment representation裙椭。作者論文這里的描述較為模糊躏哩，感覺公式推導(dǎo)不過來，因此在實(shí)現(xiàn)的時(shí)候稍作修改揉燃，采用了alignment-pooling的方式進(jìn)行實(shí)現(xiàn)扫尺。

Matching and Aggregation Layer

最后對(duì)多層representation和多層alignment representation進(jìn)行特征增廣，然后通過時(shí)序模型進(jìn)行encode炊汤。這里作者只是單純的對(duì)時(shí)序模型輸出進(jìn)行求和正驻，本人實(shí)現(xiàn)的時(shí)候也稍作修改弊攘，參考之前的論文這里采用了MeanMax。

Output and Prediction Layer

這里通過2層的全連接神經(jīng)網(wǎng)絡(luò)抽取最終用于classification的representation姑曙，然后通過softmax進(jìn)行歸一襟交。

MwAN

本文介紹論文《Multiway Attention Networks for Modeling Sentence Pairs》的相關(guān)工作，本文的主要思路是如何利用不同attention所取得的representation來加強(qiáng)特征表示伤靠，作者這里采用了大量的attention計(jì)算用于對(duì)結(jié)果進(jìn)行加權(quán)求和婿着。1）作者采用4種不同的attention計(jì)算：concat-attention、dot-attention醋界、bilinear-attention和minus-attention；2）由attention計(jì)算得到的alignment representation拼接上原始的representation經(jīng)過一個(gè)gate控制信息傳播提完，接著經(jīng)過一個(gè)GRU網(wǎng)絡(luò)對(duì)拼接之后的特征編碼形纺，這個(gè)時(shí)候就會(huì)得到四種不同的特征；3）如何對(duì)這四種特征進(jìn)行融合徒欣，這里仍然采用attention進(jìn)行加權(quán)融合逐样；4）：融合之后的特征再經(jīng)過一個(gè)GRU網(wǎng)絡(luò)進(jìn)行最后的編碼，GRU輸出的是每個(gè)詞的輸出打肝，因此需要對(duì)其進(jìn)行aggregate脂新；5）本文再次對(duì)文本Q計(jì)算attention加權(quán)聚合所有詞，最后通過該聚合后的特征對(duì)之前的GRU輸出做最后的attention加權(quán)輸出粗梭≌悖可以看到整個(gè)模型應(yīng)用的大量的attention計(jì)算，就是為了避免簡(jiǎn)單取max-pooling断医、mean-pooling導(dǎo)致信息損失的問題滞乙。原諒我的無(wú)能，參考作者的思路進(jìn)行實(shí)現(xiàn)鉴嗤，并未能取得作者的效果斩启。

Encoding Layer

本文encoding layer與之前稍有不同，本文拼接word embedding和context embedding作為input representation醉锅，其中context embedding通過ELMo預(yù)訓(xùn)練得到兔簇。然后對(duì)input representation通過GRU網(wǎng)絡(luò)進(jìn)行編碼。

Multiway Matching

本文針對(duì)2個(gè)文本中不同詞硬耍，設(shè)計(jì)了4種不同的attention函數(shù)：concat attention垄琐、bilinear attention、dot attention和minus attention默垄。

文本P第t個(gè)詞與文本Q中每個(gè)詞計(jì)算一次attention此虑，然后通過該attention對(duì)文本Q進(jìn)行加權(quán)用于表示文本P第t個(gè)詞。

Aggregation

以concat attention為例口锭，對(duì)concat之后的特征通過一個(gè)gate決定concat之后的特征重要程度朦前，類似于信息控制介杆，然后經(jīng)過GRU網(wǎng)絡(luò)進(jìn)行特征編碼。

接下來需要對(duì)所有的attention輸出進(jìn)行混合聚合韭寸，本文采用attention機(jī)制對(duì)各個(gè)attention輸出進(jìn)行加權(quán)自適應(yīng)求和

然后春哨，將混合聚合后的特征采用GUR編碼

Prediction Layer

對(duì)文本Q的編碼特征通過attention-pooling選擇最要的信息。然后通過該特征與混合編碼特征計(jì)算co-attention恩伺，最后通過該co-attention對(duì)混合編碼特征加權(quán)求和

最后赴背，整個(gè)框架采用交叉熵作為損失函數(shù)

DRCN

本文介紹論文《Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information》的相關(guān)工作，本文網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單晶渠，主要參考了dense-net的網(wǎng)絡(luò)結(jié)構(gòu)凰荚，然后在concatenate時(shí)添加attentive information來加強(qiáng)多層網(wǎng)絡(luò)特征編碼能力。

Word Representation Layer

本文input representation由四部分組成：靜態(tài)word embedding褒脯、動(dòng)態(tài)更新word embedding便瑟、character embedding和句子間相同詞。

Densely connected Recurrent Networks

普通的stacked RNNs由上一層的輸出直接做為下一層的輸入番川，但是由于梯度消失和梯度爆炸的問題導(dǎo)致模型非常難以訓(xùn)練

為了避免上面的問題到涂，residual connection通過shortcut完成反向傳播。

然而求和運(yùn)算會(huì)阻礙信息的傳播颁督，參考densenet的網(wǎng)絡(luò)設(shè)計(jì)践啄，作者通過concatenate先前所有層的輸出作為下一層的輸入，concatenate運(yùn)算保證了先前隱層的所有特征沉御。

Densely-connected Co-attentive networks

作者通過編碼之后兩個(gè)句子向量計(jì)算co-attention

然后將co-attentive information屿讽、上一層rnn輸出和上一層rnn輸入concatenate

Bottleneck component

隨著網(wǎng)絡(luò)層數(shù)越深，網(wǎng)絡(luò)參數(shù)越來越大吠裆。為了避免這個(gè)問題聂儒，作者采用autoencoder對(duì)特征進(jìn)行壓縮，在減少特征數(shù)的同時(shí)還能保持原始的信息硫痰。

Interaction and Prediction Layer

在經(jīng)過多層網(wǎng)絡(luò)之后衩婚，作者通過max-pooling對(duì)特征進(jìn)行aggregate。然后對(duì)question和answer特征進(jìn)行組合效斑，最后通過2層的全連接層抽取用于classification的特征非春。

DMAN

本文介紹論文《Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference》的相關(guān)工作，文章涉及的內(nèi)容比較多包含了遷移學(xué)習(xí)缓屠、增強(qiáng)學(xué)習(xí)和NLI奇昙。首先通過特征遷移利用其他數(shù)據(jù)來豐富目前的特征；在多人標(biāo)注時(shí)敌完，通用的做法是少數(shù)服從多數(shù)储耐，例如：neural, neural, entailment, contradiction, neural，最終的標(biāo)簽是neural滨溉，非0即1的標(biāo)簽太過生硬未能體現(xiàn)出該條樣本的置信度什湘，作者這里采用預(yù)測(cè)標(biāo)簽在該條文本標(biāo)注集的占比做為reward长赞，因此最終的目標(biāo)是交叉熵?fù)p失最小，reward最大闽撤。

Sentence Encoder Model

首先定義source domain的網(wǎng)絡(luò)結(jié)構(gòu)：通過BiLSTM對(duì)句子進(jìn)行編碼得哆，然后對(duì)編碼特征進(jìn)行抽取（max-pooling特征和最后時(shí)刻特征）

Discourse Marker Augmented Network

Encoding Layer

Interaction Layer

文本匹配模型常用的就是特征交叉哟旗，本文做特征交叉時(shí)考慮了source domain的特征

通過interaction matrix計(jì)算align representation

然后通過align representation做特征增廣

最后通過BiLSTM對(duì)特征編碼贩据，并對(duì)其輸出采用attention加權(quán)求和

Output Layer

Training

在訓(xùn)練階段時(shí)，作者結(jié)合監(jiān)督學(xué)習(xí)的交叉熵?fù)p失和增強(qiáng)學(xué)習(xí)的reward共同優(yōu)化模型闸餐，其中reward為預(yù)測(cè)標(biāo)簽在標(biāo)注者中的占比饱亮。

SRL

本文介紹論文《I Know What You Want: Semantic Learning for Text Comprehension》的相關(guān)工作，通過對(duì)input sentence做語(yǔ)意角色標(biāo)注來訓(xùn)練tag embedding舍沙，然后通過該embedding加強(qiáng)詞的表征能力近尚，基礎(chǔ)模型采用的ESIM，不同之處在于用ELMo替換Glove embedding场勤，然后加入SRL embedding，其他模型結(jié)構(gòu)不變歼跟。最后作者通過實(shí)驗(yàn)對(duì)SRL embedding和媳、ELMo embedding帶來的收益進(jìn)行了詳細(xì)的評(píng)估，文章的大部分篇幅也是對(duì)SRL建模進(jìn)行了詳細(xì)的介紹哈街。

下面簡(jiǎn)單介紹一下文章中的SRL網(wǎng)絡(luò)結(jié)構(gòu)

Word Representation

word representation包含了兩部分：word embedding和SRL embedding留瞳，然后進(jìn)行concat得到最終的word representation。

Encoder

編碼層為BiLSTM組合highway network做多層的疊加（單獨(dú)疊加BiLSTM不一定能獲得模型效果提升骚秦，甚至?xí)硇阅軔夯ㄓ捎谔荻认Ш吞荻缺ǎ?/p>

Model Implementation

從最后的實(shí)驗(yàn)結(jié)果來看她倘，SRL embedding確實(shí)帶來了效果的提升

參考文獻(xiàn)

Co-Stack Residual Affinity Networks with Multi-level Attention Refinement for Matching Text Sequences
Multiway Attention Networks for Modeling Sentence Pairs
Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information
Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference
I Know What You Want: Semantic Learning for Text Comprehension

最后編輯于：2019.01.02 19:46:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市作箍，隨后出現(xiàn)的幾起案子硬梁，更是在濱河造成了極大的恐慌，老刑警劉巖胞得，帶你破解...
沈念sama閱讀 221,548評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件荧止，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡阶剑，警方通過查閱死者的電腦和手機(jī)跃巡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來牧愁，“玉大人素邪，你說我怎么就攤上這事≈戆耄” “怎么了兔朦？”我有些...
開封第一講書人閱讀 167,990評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵偷线，是天一觀的道長(zhǎng)。經(jīng)常有香客問我烘绽，道長(zhǎng)淋昭，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,618評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任安接，我火速辦了婚禮翔忽，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘盏檐。我一直安慰自己歇式，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,618評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布胡野。她就那樣靜靜地躺著材失，像睡著了一般。火紅的嫁衣襯著肌膚如雪硫豆。梳的紋絲不亂的頭發(fā)上龙巨，一...
開封第一講書人閱讀 52,246評(píng)論 1贊 308
城市分裂傳說
那天，我揣著相機(jī)與錄音熊响，去河邊找鬼旨别。笑死，一個(gè)胖子當(dāng)著我的面吹牛汗茄，可吹牛的內(nèi)容都是我干的秸弛。我是一名探鬼主播，決...
沈念sama閱讀 40,819評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼洪碳，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼递览！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起瞳腌，我...
開封第一講書人閱讀 39,725評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤绞铃，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后嫂侍，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體憎兽，經(jīng)...
沈念sama閱讀 46,268評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,356評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年吵冒，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了纯命。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,488評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡痹栖，死狀恐怖亿汞，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情揪阿，我是刑警寧澤疗我，帶...
沈念sama閱讀 36,181評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布咆畏，位于F島的核電站，受9級(jí)特大地震影響吴裤，放射性物質(zhì)發(fā)生泄漏旧找。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,862評(píng)論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一麦牺、第九天我趴在偏房一處隱蔽的房頂上張望钮蛛。院中可真熱鬧，春花似錦剖膳、人聲如沸魏颓。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評(píng)論 0贊 24
一樁弒父案吱晒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)甸饱。三九已至祟印，卻和暖如春雄右，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背醉拓。一陣腳步聲響...
開封第一講書人閱讀 33,445評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工墩瞳，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留驼壶，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,897評(píng)論 3贊 376
代替公主和親
正文我出身青樓矗烛，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親箩溃。傳聞我的和親對(duì)象是個(gè)殘疾皇子瞭吃，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,500評(píng)論 2贊 359