聊天機器人《RubyStar: A Non-Task-Oriented Mixture Model Dialog System》論文簡析

背景:這篇論文是卡耐基梅隆大學(xué)團隊構(gòu)建的一個名為RubyStar的聊天機器人系統(tǒng)。和亞馬遜的Alexa Prize有關(guān)系吻贿,就是那個智能音箱冤吨,亞馬遜舉辦了個類似比賽的東西,也類似基金的感覺我就不清楚了阵难。當(dāng)然這不代表這個系統(tǒng)就是alexa背后的機制有絕對關(guān)系岳枷。

自然語言理解部分(NLU)

這部分按照論文做了三件重要的事,話題檢測(Topic Detection)呜叫,意圖識別(Intent Analysis)空繁,實體鏈接(Entity Linking)

話題檢測

數(shù)據(jù)集使用Reddit評論,把用戶的輸入轉(zhuǎn)換為詞向量朱庆,然后經(jīng)過一個20棵樹的隨機森林盛泡,選出用戶輸入所在的話題,例如政治娱颊、生活傲诵、體育、娛樂箱硕、一般話題等等分類拴竹。

這個話題的分類也應(yīng)該會影響后續(xù)選擇如何回答用戶的分類依據(jù)。

意圖識別

意圖識別是從另一個角度來分類用戶輸入剧罩,就是判斷用戶可能想要的回答類型殖熟,例如:

  • 是或否,類型的回答
  • 尋求某個具體事實斑响,姚明的身高菱属?
  • 尋求建議
  • 喜歡的食物

實體鏈接

實體鏈接是從用戶輸入中提取重要實體,并把這個實體連接到某個類似知識圖譜的語義網(wǎng)結(jié)構(gòu)里舰罚,論文里是通過TAGME連接到wikipedia

這部分也是為了進(jìn)行一些模板式回答

例子(和論文里面的不一樣纽门,我隨便說的)

用戶輸入:我喜歡鋼鐵俠,你喜歡什么营罢?
實體:鋼鐵俠
超級英雄的知識圖譜例如包括三元組:<鋼鐵俠, has friend, 蜘蛛俠>
模板:我喜歡<entity>的朋友<has friend>
輸出:我喜歡鋼鐵俠的朋友蜘蛛俠

模板是針對<has friend>這個關(guān)系(relation)來做的赏陵,所以假設(shè)不是鋼鐵俠饼齿,而是其他的entity,只要有has friend蝙搔,也應(yīng)該能匹配到這個模板缕溉,例如:

用戶輸入:我喜歡炸醬面
實體:炸醬面
超級英雄的知識圖譜例如包括三元組:<炸醬面, has friend, 臘八蒜>
模板:我喜歡<entity>的朋友<has friend>
輸出:我喜歡炸醬面的朋友臘八蒜

多種回答模塊

模板式回答

就剛才實體鏈接里那樣,不重復(fù)

信息檢索

根據(jù)用戶輸入的實體吃型,和實體鏈接的結(jié)果证鸥,去推特上搜。然后去掉重復(fù)勤晚、拼寫錯誤枉层、比較無聊的推特之后,按照某個算法排序并返回推特的一句赐写、一段鸟蜡,或者什么,論文沒說的太細(xì)挺邀。

神經(jīng)網(wǎng)絡(luò)生成

使用sequence to sequence的深度學(xué)習(xí)模型揉忘,生成一個回答。

這種模型的缺點是端铛,經(jīng)常會生成“我不知道”癌淮,“謝謝你”,這樣比較沒用的模型(中文也類似沦补,我試過)

基本上也就是在沒啥好回答的時候乳蓄,隨便編排編排救個場。

選擇結(jié)果

就是從上面的那些不同模型夕膀,選一個答案出來虚倒。

論文對比測試了:邏輯回歸,線性SVM产舞,樸素貝葉斯三種模型魂奥,效果差不多

輸入是詞袋模型(bag of words)

最后用一個模型的confidence score作為上面的幾種回答模型的得分

上下文跟蹤(Context Tracking)

使用最近N條聊天記錄,和斯坦福的CoreNLP工具來追蹤上下文代指易猫,例如:

用戶:你知道中國嗎耻煤?
bot:我知道
用戶:你知道它的首都嗎?
bot:准颓?哈蝇??(這里需要知道攘已,它炮赦,指的是中國)

結(jié)尾

整篇論文提到了不少數(shù)據(jù)集,方法样勃,和trick吠勘,還是蠻有趣的

不過很多的細(xì)節(jié)和trick都是針對為了通用域性芬,更擬人化,讓人覺得跟機器瞎聊不太無聊而設(shè)計的剧防。筆者覺得通用域聊天機器人沒什么太大意義植锉,所以很多trick對于垂直的聊天機器人沒什么參考意義。

不過整體構(gòu)建思路應(yīng)該還是值得參考的峭拘。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末俊庇,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子棚唆,更是在濱河造成了極大的恐慌暇赤,老刑警劉巖心例,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宵凌,死亡現(xiàn)場離奇詭異,居然都是意外死亡止后,警方通過查閱死者的電腦和手機瞎惫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來译株,“玉大人瓜喇,你說我怎么就攤上這事∏该樱” “怎么了乘寒?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長匪补。 經(jīng)常有香客問我伞辛,道長,這世上最難降的妖魔是什么夯缺? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任蚤氏,我火速辦了婚禮,結(jié)果婚禮上踊兜,老公的妹妹穿的比我還像新娘竿滨。我一直安慰自己,他們只是感情好捏境,可當(dāng)我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布于游。 她就那樣靜靜地躺著,像睡著了一般垫言。 火紅的嫁衣襯著肌膚如雪曙砂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天骏掀,我揣著相機與錄音鸠澈,去河邊找鬼柱告。 笑死,一個胖子當(dāng)著我的面吹牛笑陈,可吹牛的內(nèi)容都是我干的际度。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼涵妥,長吁一口氣:“原來是場噩夢啊……” “哼乖菱!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蓬网,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤窒所,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后帆锋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吵取,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年锯厢,在試婚紗的時候發(fā)現(xiàn)自己被綠了皮官。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡实辑,死狀恐怖捺氢,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情剪撬,我是刑警寧澤摄乒,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站残黑,受9級特大地震影響馍佑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜萍摊,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一挤茄、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧冰木,春花似錦穷劈、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至逼龟,卻和暖如春评凝,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背腺律。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工奕短, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留宜肉,地道東北人。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓翎碑,卻偏偏與公主長得像谬返,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子日杈,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識遣铝。這篇文章,甚至之后...
    我偏笑_NSNirvana閱讀 13,913評論 2 64
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理莉擒,服務(wù)發(fā)現(xiàn)酿炸,斷路器,智...
    卡卡羅2017閱讀 134,661評論 18 139
  • 這篇文章主要參考了[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計算機研究與發(fā)展,2016...
    我偏笑_NSNirvana閱讀 52,539評論 6 125
  • 2015 年,我開始嘗試三十天閱讀論文計劃蝇裤,從一開始的盲目閱讀廷支,都后期有目的搜尋频鉴,經(jīng)歷了搬家栓辜、換工作等情況,造成一...
    陳素封閱讀 1,352評論 1 10
  • 只要出發(fā)垛孔,就能到達(dá)——這是我偶然在簡書上看到大師姐寫的“從啞巴英語到全英文會議討論藕甩,我是么這么靠自學(xué)做到的”的結(jié)尾...
    田螺姑娘FZ閱讀 293評論 0 0