淺談聊天機器人

封閉領(lǐng)域和開放領(lǐng)域

聊天機器人分封閉領(lǐng)域和開放領(lǐng)域,這兩個主要從話題層面進行區(qū)分藻治,在開放語境下碘勉,用戶可以和聊天機器人聊任何話題,在封閉語境下桩卵, 只能聊機器人設(shè)定的話題验靡。

典型方法

  • 基于檢索式的模型
    檢索模型所使用的回復(fù)通常是預(yù)先存儲且知道的數(shù)據(jù),輸入一段上下文內(nèi)容雏节,和一個可能作為回復(fù)的候選答案胜嗓;模型的輸出是對這個候選答案打分。尋找最合適的回復(fù)內(nèi)容的過程:先對一堆候選答案進行打分及排序钩乍,最后選出分值最高的那個作為回復(fù)辞州。
  • 基于生成式的模型
    生成模型不依賴于任何預(yù)選定義好的響應(yīng)。經(jīng)典的生成模型是基于機器翻譯技術(shù)的寥粹, 只不過不是將一種語言翻譯成另一種語言变过, 而是將問句“翻譯”成回答(response) 。生成模型可以創(chuàng)新出嶄新的未知的的回復(fù)內(nèi)容涝涤,不需要預(yù)先存儲和定義的數(shù)據(jù)媚狰,比檢索模型更加靈活多變,更加智能阔拳。
    Seq2Seq模型是一個翻譯模型崭孤,把一個sequence翻譯成另一個sequence。 其基本思想是兩個RNN糊肠, 一個作為encoder, 另一個作為decoder辨宠。 作為encoder的RNN,用來把一個sequence壓縮表示成一個固定大小的向量(fixed-length vector representation)(可以理解為把一段文本進行語義表示)作為decoder的RNN罪针, 根據(jù)encoder的vector生成一個token序列,這個token序列就是另一個sequence黄伊。優(yōu)化時泪酱, 采用極大似然估計, 讓sequenceA被encoder后進行decoder得到的B的概率最大(A和B的長度可以不一樣長)


    1514276883(1).png

兩種模型優(yōu)缺點

基于檢索的模型,“回答集”是人工編寫的答案墓阀,幾乎不會有語法錯誤毡惜,但是無法處理沒有見過的問題,即數(shù)據(jù)庫中沒有的問題斯撮, 同時無法追溯上文中的實體信息经伙,例如上文中提到的人名、地名勿锅。
基于生成式模型的約束條件少帕膜,過于多變的模型會導(dǎo)致回復(fù)中出現(xiàn)一些語法錯誤和語義無關(guān)的內(nèi)容。生成模型需要海量的訓(xùn)練數(shù)據(jù)溢十,且難以優(yōu)化垮刹。

目前工業(yè)用的較多的還是基于檢索模型或者以生成模型作為補充的兩者結(jié)合。谷歌的Smart Reply 就是一個例子张弛。阿里小蜜結(jié)合檢索模型和生成模型各自的優(yōu)勢提出了一種新的融合模型荒典, 首先采用檢索模型從QA知識庫中找出候選答案集合,然后利用帶注意力的Seq2Seq模型對候選答案進行排序吞鸭,如果第一候選的得分超過某個閾值寺董,則作為最終答案輸出,否則利用生成模型生成答案刻剥。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末遮咖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子透敌,更是在濱河造成了極大的恐慌盯滚,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件酗电,死亡現(xiàn)場離奇詭異魄藕,居然都是意外死亡,警方通過查閱死者的電腦和手機撵术,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門背率,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人嫩与,你說我怎么就攤上這事寝姿。” “怎么了划滋?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵饵筑,是天一觀的道長。 經(jīng)常有香客問我处坪,道長根资,這世上最難降的妖魔是什么架专? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮玄帕,結(jié)果婚禮上部脚,老公的妹妹穿的比我還像新娘。我一直安慰自己裤纹,他們只是感情好委刘,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鹰椒,像睡著了一般锡移。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吹零,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天罩抗,我揣著相機與錄音,去河邊找鬼灿椅。 笑死套蒂,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的茫蛹。 我是一名探鬼主播操刀,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼婴洼!你這毒婦竟也來了骨坑?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤柬采,失蹤者是張志新(化名)和其女友劉穎欢唾,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體粉捻,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡礁遣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了肩刃。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片祟霍。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖盈包,靈堂內(nèi)的尸體忽然破棺而出沸呐,到底是詐尸還是另有隱情,我是刑警寧澤呢燥,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布崭添,位于F島的核電站,受9級特大地震影響叛氨,放射性物質(zhì)發(fā)生泄漏呼渣。R本人自食惡果不足惜根暑,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望徙邻。 院中可真熱鬧,春花似錦畸裳、人聲如沸缰犁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽帅容。三九已至,卻和暖如春伍伤,著一層夾襖步出監(jiān)牢的瞬間并徘,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工扰魂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留麦乞,地道東北人。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓劝评,卻偏偏與公主長得像姐直,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蒋畜,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容

  • chatbot的原理是什么声畏? 人機對話通常是靠背后的數(shù)據(jù)庫 & 文本檢索支撐,然而數(shù)據(jù)庫覆蓋不到海量人類對話怎么辦...
    LiuSRJ閱讀 1,961評論 0 3
  • 前面的文章主要從理論的角度介紹了自然語言人機對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識姻成。這篇文章插龄,甚至之后...
    我偏笑_NSNirvana閱讀 13,909評論 2 64
  • 近日,谷歌官方在 Github開放了一份神經(jīng)機器翻譯教程科展,該教程從基本概念實現(xiàn)開始均牢,首先搭建了一個簡單的NMT模型...
    MiracleJQ閱讀 6,373評論 1 11
  • 最近人工智能隨著AlphaGo戰(zhàn)勝李世乭這一事件的高關(guān)注度,重新掀起了一波新的關(guān)注高潮辛润,有的說人工智能將會如何超越...
    MiracleJQ閱讀 2,831評論 2 1
  • 很久以前我就想過這么一個問題:為什么現(xiàn)在還有這么多人在寫小說膨处、寫詩、寫雞湯砂竖、寫歌真椿、拍電影…… 古代不是已經(jīng)有了四大...
    就這樣吧路人閱讀 216評論 0 0