聊天機器人《RubyStar: A Non-Task-Oriented Mixture Model Dialog System》論文簡析

背景：這篇論文是卡耐基梅隆大學(xué)團隊構(gòu)建的一個名為RubyStar的聊天機器人系統(tǒng)。和亞馬遜的Alexa Prize有關(guān)系吻贿，就是那個智能音箱冤吨，亞馬遜舉辦了個類似比賽的東西，也類似基金的感覺我就不清楚了阵难。當(dāng)然這不代表這個系統(tǒng)就是alexa背后的機制有絕對關(guān)系岳枷。

自然語言理解部分（NLU）

這部分按照論文做了三件重要的事，話題檢測（Topic Detection）呜叫，意圖識別（Intent Analysis）空繁，實體鏈接（Entity Linking）

話題檢測

數(shù)據(jù)集使用Reddit評論，把用戶的輸入轉(zhuǎn)換為詞向量朱庆，然后經(jīng)過一個20棵樹的隨機森林盛泡，選出用戶輸入所在的話題，例如政治娱颊、生活傲诵、體育、娛樂箱硕、一般話題等等分類拴竹。

這個話題的分類也應(yīng)該會影響后續(xù)選擇如何回答用戶的分類依據(jù)。

意圖識別

意圖識別是從另一個角度來分類用戶輸入剧罩，就是判斷用戶可能想要的回答類型殖熟，例如：

是或否，類型的回答
尋求某個具體事實斑响，姚明的身高菱属？
尋求建議
喜歡的食物

實體鏈接

實體鏈接是從用戶輸入中提取重要實體，并把這個實體連接到某個類似知識圖譜的語義網(wǎng)結(jié)構(gòu)里舰罚，論文里是通過TAGME連接到wikipedia

這部分也是為了進(jìn)行一些模板式回答

例子（和論文里面的不一樣纽门，我隨便說的）

用戶輸入：我喜歡鋼鐵俠，你喜歡什么营罢？
實體：鋼鐵俠
超級英雄的知識圖譜例如包括三元組：<鋼鐵俠, has friend, 蜘蛛俠>
模板：我喜歡<entity>的朋友<has friend>
輸出：我喜歡鋼鐵俠的朋友蜘蛛俠

模板是針對<has friend>這個關(guān)系（relation）來做的赏陵，所以假設(shè)不是鋼鐵俠饼齿，而是其他的entity，只要有has friend蝙搔，也應(yīng)該能匹配到這個模板缕溉，例如：

用戶輸入：我喜歡炸醬面
實體：炸醬面
超級英雄的知識圖譜例如包括三元組：<炸醬面, has friend, 臘八蒜>
模板：我喜歡<entity>的朋友<has friend>
輸出：我喜歡炸醬面的朋友臘八蒜

多種回答模塊

模板式回答

就剛才實體鏈接里那樣，不重復(fù)

信息檢索

根據(jù)用戶輸入的實體吃型，和實體鏈接的結(jié)果证鸥，去推特上搜。然后去掉重復(fù)勤晚、拼寫錯誤枉层、比較無聊的推特之后，按照某個算法排序并返回推特的一句赐写、一段鸟蜡，或者什么，論文沒說的太細(xì)挺邀。

神經(jīng)網(wǎng)絡(luò)生成

使用sequence to sequence的深度學(xué)習(xí)模型揉忘，生成一個回答。

這種模型的缺點是端铛，經(jīng)常會生成“我不知道”癌淮，“謝謝你”，這樣比較沒用的模型（中文也類似沦补，我試過）

基本上也就是在沒啥好回答的時候乳蓄，隨便編排編排救個場。

選擇結(jié)果

就是從上面的那些不同模型夕膀，選一個答案出來虚倒。

論文對比測試了：邏輯回歸，線性SVM产舞，樸素貝葉斯三種模型魂奥，效果差不多

輸入是詞袋模型（bag of words）

最后用一個模型的confidence score作為上面的幾種回答模型的得分

上下文跟蹤（Context Tracking）

使用最近N條聊天記錄，和斯坦福的CoreNLP工具來追蹤上下文代指易猫，例如：

用戶：你知道中國嗎耻煤？
bot：我知道
用戶：你知道它的首都嗎？
bot：准颓？哈蝇？？（這里需要知道攘已，它炮赦，指的是中國）

結(jié)尾

整篇論文提到了不少數(shù)據(jù)集，方法样勃，和trick吠勘，還是蠻有趣的

不過很多的細(xì)節(jié)和trick都是針對為了通用域性芬，更擬人化，讓人覺得跟機器瞎聊不太無聊而設(shè)計的剧防。筆者覺得通用域聊天機器人沒什么太大意義植锉，所以很多trick對于垂直的聊天機器人沒什么參考意義。

不過整體構(gòu)建思路應(yīng)該還是值得參考的峭拘。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末俊庇，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子棚唆，更是在濱河造成了極大的恐慌暇赤，老刑警劉巖心例，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件宵凌，死亡現(xiàn)場離奇詭異，居然都是意外死亡止后，警方通過查閱死者的電腦和手機瞎惫，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來译株，“玉大人瓜喇，你說我怎么就攤上這事∏该樱” “怎么了乘寒？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長匪补。經(jīng)常有香客問我伞辛，道長，這世上最難降的妖魔是什么夯缺？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任蚤氏，我火速辦了婚禮，結(jié)果婚禮上踊兜，老公的妹妹穿的比我還像新娘竿滨。我一直安慰自己，他們只是感情好捏境，可當(dāng)我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布于游。她就那樣靜靜地躺著，像睡著了一般垫言。火紅的嫁衣襯著肌膚如雪曙砂。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天骏掀，我揣著相機與錄音鸠澈，去河邊找鬼柱告。笑死，一個胖子當(dāng)著我的面吹牛笑陈，可吹牛的內(nèi)容都是我干的际度。我是一名探鬼主播，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼涵妥，長吁一口氣：“原來是場噩夢啊……” “哼乖菱！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起蓬网，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤窒所，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后帆锋，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吵取，經(jīng)...
沈念sama閱讀 45,775評論 1贊 315
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年锯厢，在試婚紗的時候發(fā)現(xiàn)自己被綠了皮官。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡实辑，死狀恐怖捺氢，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情剪撬，我是刑警寧澤摄乒，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站残黑，受9級特大地震影響馍佑，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜萍摊，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一挤茄、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧冰木，春花似錦穷劈、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案歇终，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至逼龟，卻和暖如春评凝，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背腺律。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工奕短，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留宜肉，地道東北人。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓翎碑，卻偏偏與公主長得像谬返，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子日杈，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,037評論 2贊 355