LSTM模型在問答系統(tǒng)中的應(yīng)用

在問答系統(tǒng)的應(yīng)用中，用戶輸入一個(gè)問題，系統(tǒng)需要根據(jù)問題去尋找最合適的答案啄枕。

1：采用句子相似度的方式。根據(jù)問題的字面相似度選擇相似度最高的問題對(duì)應(yīng)的答案蚓耽，但是采用這種字面相似度的方式并不能有效的捕獲用戶意圖的能力有限渠牲。

2：IBM早期應(yīng)用在watson系統(tǒng)中的DeepQa算法。該算法通過人工抽取一系列的特征步悠，然后將這些特征輸入一個(gè)回歸模型签杈。該算法普適性較強(qiáng)，并且能有效的解決實(shí)際中的問題鼎兽，但是準(zhǔn)確率和召回率一般答姥。

3：深度學(xué)習(xí)算法。依然是IBM的watson研究人員在2015年發(fā)表了一篇用CNN算法解決問答系統(tǒng)中答案選擇問題的paper谚咬。通過深度學(xué)習(xí)算法不僅能夠避免了人工手動(dòng)抽取大量的問題特征的麻煩鹦付，并且取得了比DeepQa更好的效果。詳細(xì)的介紹可以點(diǎn)擊這里择卦，我們組的同學(xué)去年也針對(duì)該paper做了詳細(xì)的實(shí)驗(yàn)敲长，具體的描述可以在這里找到。

大量的實(shí)驗(yàn)證明秉继，在大數(shù)據(jù)量的情況下祈噪，深度學(xué)習(xí)算法和傳統(tǒng)的自然語言算法相比可以獲得更優(yōu)的結(jié)果。并且深度學(xué)習(xí)算法無需手動(dòng)抽取特征尚辑，因此實(shí)現(xiàn)相對(duì)簡(jiǎn)便钳降。其中CNN算法被大量的研究和使用，CNN算法的優(yōu)點(diǎn)在于實(shí)現(xiàn)簡(jiǎn)單（卷積）腌巾、并且能夠捕獲數(shù)據(jù)位置（單字成詞情況下遂填，一次窗口的卷積類似于一次切詞的操作）的特征信息。但是對(duì)于時(shí)序的數(shù)據(jù)澈蝙，LSTM算法比CNN算法更加適合吓坚。LSTM算法綜合考慮的問題時(shí)序上的特征，通過3個(gè)門函數(shù)對(duì)數(shù)據(jù)的狀態(tài)特征進(jìn)行計(jì)算灯荧，這里將針對(duì)LSTM在問答系統(tǒng)中的應(yīng)用進(jìn)行展開說明礁击。

2016年watson系統(tǒng)研究人員發(fā)表了“LSTM-BASED DEEP LEARNING MODELS FOR NON-FACTOID ANSWER SELECTION”，該論文詳細(xì)的闡述了LSTM算法在問答系統(tǒng)的中的應(yīng)用逗载，這里將針對(duì)文中所描述的算法進(jìn)行實(shí)驗(yàn)哆窿。

算法流程圖

實(shí)驗(yàn)步驟

1：本次實(shí)驗(yàn)采用insuranceQA數(shù)據(jù)，你可以在這里獲得厉斟。實(shí)驗(yàn)之前首先對(duì)問題和答案按字切詞挚躯，然后采用word2vec對(duì)問題和答案進(jìn)行預(yù)訓(xùn)練（這里采用按字切詞的方式避免的切詞的麻煩，并且同樣能獲得較高的準(zhǔn)確率）擦秽。

2：由于本次實(shí)驗(yàn)采用固定長(zhǎng)度的LSTM码荔，因此需要對(duì)問題和答案進(jìn)行截?cái)啵ㄟ^長(zhǎng)）或補(bǔ)充（過短）漩勤。

3：實(shí)驗(yàn)建模Input。本次實(shí)驗(yàn)采用問答對(duì)的形式進(jìn)行建模（q缩搅，a+越败，a-），q代表問題硼瓣，a+代表正向答案究飞，a-代表負(fù)向答案。insuranceQA里的訓(xùn)練數(shù)據(jù)已經(jīng)包含了問題和正向答案堂鲤，因此需要對(duì)負(fù)向答案進(jìn)行選擇噪猾，實(shí)驗(yàn)時(shí)我們采用隨機(jī)的方式對(duì)負(fù)向答案進(jìn)行選擇，組合成（q筑累，a+，a-）的形式丝蹭。

4：將問題和答案進(jìn)行Embedding（batch_size, sequence_len, embedding_size）表示慢宗。

5：對(duì)問題和答案采用相同的LSTM模型計(jì)算特征（sequence_len, batch_size, rnn_size）。

6：對(duì)時(shí)序的LSTM特征進(jìn)行選擇奔穿，這里采用max-pooling镜沽。

7：采用問題和答案最終計(jì)算的特征，計(jì)算目標(biāo)函數(shù)（cosine_similary）贱田。

目標(biāo)函數(shù)

參數(shù)設(shè)置

1:缅茉、這里優(yōu)化函數(shù)采用論文中使用的SGD（采用adam優(yōu)化函數(shù)時(shí)效果不如SGD）。

2男摧、學(xué)習(xí)速率為0.1蔬墩。

3:、訓(xùn)練150輪耗拓，大概需要1天的時(shí)間拇颅，從訓(xùn)練日志觀察得到，100輪左右基本達(dá)到穩(wěn)定乔询。

4樟插、margin這里采用0.1，其它參數(shù)也試過0.05竿刁、0.2效果一般黄锤。

5、這里訓(xùn)練沒有采用dropout和l2約束食拜，之前試過dropout和l2對(duì)實(shí)驗(yàn)效果沒有提升鸵熟，這里就沒有采用了。

6负甸、batch_size這里采用100旅赢。

7齿桃、rnn_size為300（繼續(xù)調(diào)大沒有明顯的效果提升，而且導(dǎo)致訓(xùn)練速度減慢）

8煮盼、目標(biāo)函數(shù)采用cosine_similary短纵，實(shí)驗(yàn)時(shí)也試過歐幾里德距離，但是效果不佳僵控。

實(shí)驗(yàn)效果對(duì)比

QA_CNN：0.62左右

QA_LSTM：0.66左右

QA_BILSTM：0.68左右

注：這里分別實(shí)驗(yàn)了單向的LSTM和雙向的LSTM算法香到。單向的LSTM算法只能捕獲當(dāng)前詞之前詞的特征，而雙向的LSTM算法則能夠同時(shí)捕獲前后詞的特征报破，實(shí)驗(yàn)證明雙向的LSTM比單向的LSTM算法效果更佳悠就。

如果有任何問題歡迎發(fā)送郵件到lirainbow0@163.com。

最后編輯于：2017.12.06 03:06:00

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末充易，一起剝皮案震驚了整個(gè)濱河市梗脾，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌盹靴，老刑警劉巖炸茧，帶你破解...
沈念sama閱讀 206,378評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異稿静，居然都是意外死亡梭冠，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,356評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門改备，熙熙樓的掌柜王于貴愁眉苦臉地迎上來控漠，“玉大人，你說我怎么就攤上這事悬钳⊙谓荩” “怎么了？”我有些...
開封第一講書人閱讀 152,702評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵默勾，是天一觀的道長(zhǎng)毙驯。經(jīng)常有香客問我，道長(zhǎng)灾测，這世上最難降的妖魔是什么爆价？我笑而不...
開封第一講書人閱讀 55,259評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮媳搪，結(jié)果婚禮上铭段，老公的妹妹穿的比我還像新娘。我一直安慰自己秦爆，他們只是感情好序愚，可當(dāng)我...
茶點(diǎn)故事閱讀 64,263評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著等限，像睡著了一般爸吮。火紅的嫁衣襯著肌膚如雪芬膝。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,036評(píng)論 1贊 285
城市分裂傳說
那天形娇，我揣著相機(jī)與錄音锰霜，去河邊找鬼。笑死桐早，一個(gè)胖子當(dāng)著我的面吹牛癣缅，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播哄酝，決...
沈念sama閱讀 38,349評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼友存，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了陶衅？” 一聲冷哼從身側(cè)響起屡立，我...
開封第一講書人閱讀 36,979評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎搀军，沒想到半個(gè)月后膨俐，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,469評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡奕巍，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,938評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了儒士。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片的止。...
茶點(diǎn)故事閱讀 38,059評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖着撩，靈堂內(nèi)的尸體忽然破棺而出诅福，到底是詐尸還是另有隱情，我是刑警寧澤拖叙，帶...
沈念sama閱讀 33,703評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布氓润，位于F島的核電站，受9級(jí)特大地震影響薯鳍，放射性物質(zhì)發(fā)生泄漏咖气。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,257評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一挖滤、第九天我趴在偏房一處隱蔽的房頂上張望崩溪。院中可真熱鬧，春花似錦斩松、人聲如沸伶唯。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,262評(píng)論 0贊 19
一樁弒父案惧盹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽乳幸。三九已至瞪讼，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間粹断，已是汗流浹背符欠。一陣腳步聲響...
開封第一講書人閱讀 31,485評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留姿染，地道東北人背亥。一個(gè)月前我還...
沈念sama閱讀 45,501評(píng)論 2贊 354
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像悬赏，于是被迫代替她去往敵國和親狡汉。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,792評(píng)論 2贊 345

LSTM模型在問答系統(tǒng)中的應(yīng)用

推薦閱讀更多精彩內(nèi)容