人機(jī)對(duì)話毙驯,是人工智能領(lǐng)域的一個(gè)子方向倒堕,通俗的講就是讓人可以通過(guò)人類(lèi)的語(yǔ)言即自然語(yǔ)言與計(jì)算機(jī)進(jìn)行交互。很多同學(xué)不清楚聊天爆价、問(wèn)答和任務(wù)驅(qū)動(dòng)型對(duì)話有什么區(qū)別垦巴,相信讀完這篇文章后會(huì)明白一些。
人機(jī)對(duì)話系統(tǒng)可以分為四個(gè)子問(wèn)題:閑聊允坚、任務(wù)驅(qū)動(dòng)的多輪對(duì)話魂那、問(wèn)答和推薦蛾号。閑聊分別與問(wèn)答和任務(wù)導(dǎo)向型對(duì)話都有交叉稠项,所以實(shí)際應(yīng)用基本上都包含多個(gè)子任務(wù)。其中鲜结,閑聊展运、問(wèn)答和任務(wù)驅(qū)動(dòng)的多輪對(duì)話都是用戶(hù)先挑起話題活逆,對(duì)話系統(tǒng)被動(dòng)的進(jìn)行響應(yīng)。而推薦是對(duì)話系統(tǒng)主動(dòng)向用戶(hù)推送一些用戶(hù)感興趣的信息或服務(wù)拗胜。
閑聊
在用戶(hù)的話語(yǔ)并無(wú)明確的信息或服務(wù)獲取需求的情況下蔗候,系統(tǒng)需要做出回應(yīng)。閑聊在現(xiàn)有的人機(jī)對(duì)話系統(tǒng)中埂软,主要起到拉近距離锈遥,建立信任關(guān)系,情感陪伴勘畔,順滑對(duì)話過(guò)程的作用所灸。
數(shù)據(jù)集
中文閑聊語(yǔ)料:https://github.com/codemayq/chinese_chatbot_corpus
中英文閑聊語(yǔ)料:https://github.com/candlewill/Dialog_Corpus
中文多輪閑聊語(yǔ)料:https://github.com/MarkWuNLP/MultiTurnResponseSelection-
比賽
-
ConAI2(Conversational Intelligence Challenge)
發(fā)布了訓(xùn)練和評(píng)估閑聊對(duì)話系統(tǒng)的數(shù)據(jù)集,并提供了評(píng)測(cè)標(biāo)準(zhǔn)炫七,是NIPS大會(huì)8個(gè)正式競(jìng)賽任務(wù)之一爬立。
PearAI基線代碼:https://github.com/facebookresearch/ParlAI/tree/master/projects/convai2
2017年冠軍代碼:https://github.com/sld/convai-bot-1337
2018年冠軍代碼:https://github.com/atselousov/transformer_chatbot -
Alex Prize
2017年冠軍資料:https://sounding-board.github.io/
-
ConAI2(Conversational Intelligence Challenge)
代碼
中文聊天:https://github.com/fate233/chatbot-zh-torch7
英文聊天:https://github.com/chenb67/neuralconvo
聊天機(jī)器人教程:https://github.com/warmheartli/ChatBotCourse
檢索式聊天機(jī)器人:https://github.com/dennybritz/chatbot-retrieval
任務(wù)驅(qū)動(dòng)的多輪對(duì)話
用戶(hù)具有明確的目的,希望得到滿足特定限制條件的信息或服務(wù)万哪,例如:訂餐侠驯,訂票,尋找音樂(lè)奕巍、電影或某種商品等等吟策。因?yàn)橛脩?hù)的需求可以比較復(fù)雜,可能需要分多輪進(jìn)行陳述的止,用戶(hù)也可能在對(duì)話過(guò)程中不斷修改或完善自己的需求踊挠。此外,當(dāng)用戶(hù)的陳述的需求不夠具體或明確的時(shí)候冲杀,機(jī)器也可以通過(guò)詢(xún)問(wèn)效床、澄清或確認(rèn)來(lái)幫助用戶(hù)找到滿意的結(jié)果。
數(shù)據(jù)集
哈工大整理的一份非常全面的任務(wù)型數(shù)據(jù)集匯總:https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey-
比賽
-
JDDC(JD Dialog Challenge)大賽权谁,全球首屆任務(wù)導(dǎo)向型對(duì)話系列挑戰(zhàn)賽
亞軍代碼:https://github.com/Dikea/Dialog-System-with-Task-Retrieval-and-Seq2seq:
季軍代碼:https://github.com/zengbin93/jddc_solution_4th
基線代碼一:https://github.com/SimonJYang/JDDC-Baseline-TFIDF
基線代碼二:https://github.com/SimonJYang/JDDC-Baseline-Seq2Seq - DST (Dialog System Technology Challenge) 對(duì)話系統(tǒng)技術(shù)挑戰(zhàn)賽剩檀,包括6個(gè)challenge,它要求參賽的AI模型依據(jù)給定的多輪對(duì)話歷史從上萬(wàn)個(gè)句子中選出正確的回復(fù)旺芽。
- SMP2018中文人機(jī)對(duì)話技術(shù)評(píng)測(cè)(The Evaluation of Chinese Human-Computer Dialogue Technology, SMP2018-ECDT),包括兩個(gè)任務(wù)沪猴,分別是用戶(hù)意圖領(lǐng)域分類(lèi)和特定域任務(wù)型人機(jī)對(duì)話在線評(píng)測(cè)
- SMP2019中文人機(jī)對(duì)話技術(shù)評(píng)測(cè)現(xiàn)在正在進(jìn)行中:http://conference.cipsc.org.cn/smp2019/evaluation.html
-
JDDC(JD Dialog Challenge)大賽权谁,全球首屆任務(wù)導(dǎo)向型對(duì)話系列挑戰(zhàn)賽
問(wèn)答
不同于信息檢索根據(jù)用戶(hù)的問(wèn)題給出一個(gè)相關(guān)鏈接,問(wèn)答系統(tǒng)直接給出精準(zhǔn)的答案采章。問(wèn)答系統(tǒng)和任務(wù)驅(qū)動(dòng)的多輪對(duì)話最根本的區(qū)別在于系統(tǒng)是否需要維護(hù)一個(gè)用戶(hù)目標(biāo)狀態(tài)的表示和是否需要一個(gè)決策過(guò)程來(lái)完成任務(wù)运嗜。目前,解決問(wèn)答的方法可以劃分為三種悯舟,基于信息檢索的問(wèn)答担租、基于知識(shí)圖譜的問(wèn)答和基于閱讀理解的問(wèn)答。
- 比賽
- Answer Sentence Selection : ACL舉辦的問(wèn)答比賽
- 基于閱讀理解的問(wèn)答
SQuAD:?jiǎn)屋唵?wèn)答
CoQA:多輪問(wèn)答
第三屆“訊飛杯”中文機(jī)器閱讀理解評(píng)測(cè)正在進(jìn)行中:
https://hfl-rc.github.io/cmrc2019/
推薦
推薦系統(tǒng)根據(jù)歷史聊天記錄或者用戶(hù)畫(huà)像為用戶(hù)主動(dòng)推薦用戶(hù)感興趣的信息或者服務(wù)抵怎。
小結(jié)
商業(yè)應(yīng)用的人機(jī)對(duì)話系統(tǒng)根據(jù)應(yīng)用的場(chǎng)景不同既可以是同時(shí)綜合問(wèn)答奋救、閑聊岭参、任務(wù)導(dǎo)向的多輪對(duì)話和推薦全部或部分任務(wù)的復(fù)雜系統(tǒng),也可以是單純解決其中一類(lèi)問(wèn)題的系統(tǒng)尝艘。例如大家熟知的蘋(píng)果Siri演侯、微軟Cortana、百度度秘等語(yǔ)音助手類(lèi)產(chǎn)品就是集合上述四類(lèi)問(wèn)題綜合系統(tǒng)背亥,但是主要研究發(fā)展任務(wù)導(dǎo)向型對(duì)話秒际,其中Siri和Cortana的聊天功能并不能算開(kāi)放域,而是人工為高頻的問(wèn)題編輯了對(duì)應(yīng)的回答狡汉,當(dāng)用戶(hù)的聊天不在預(yù)先配置的范圍內(nèi)時(shí)程癌,系統(tǒng)則回復(fù)“我聽(tīng)不懂”之類(lèi)的固定答案。而度秘的開(kāi)放域聊天則是應(yīng)用了更先進(jìn)的基于海量數(shù)據(jù)的檢索式聊天技術(shù)轴猎。目前的智能客服類(lèi)系統(tǒng)則多以解決問(wèn)答和推薦類(lèi)問(wèn)題為主嵌莉;微軟小冰主要發(fā)展EQ,研究開(kāi)放域聊天捻脖;而許多訂票锐峭,訂酒店類(lèi)的對(duì)話系統(tǒng)則是任務(wù)驅(qū)動(dòng)的多輪對(duì)話的典型應(yīng)用。
參考資料
[1] Li, F. L., Qiu, M., Chen, H., Wang, X., Gao, X., & Huang, J., et al. (2018). Alime assist: an intelligent assistant for creating an innovative e-commerce experience.
[2] Chen, H., Liu, X., Yin, D., & Tang, J. (2017). A survey on dialogue systems: recent advances and new frontiers. Acm Sigkdd Explorations Newsletter, 19(2).
[3] https://www.leiphone.com/news/201704/8ofqhd0UEJVjgWHv.html
[4] https://www.leiphone.com/news/201707/tNC1efxsThNirUvx.html
[5] https://www.xenonstack.com/blog/data-science/ai-nlp-big-deep-learning/
[6] https://www.jiqizhixin.com/articles/2018-10-22-14
[7] 第一張圖片引自知乎用戶(hù)悟忌(找不到鏈接了)
注:本文旨在分享交流可婶,如有錯(cuò)誤之處沿癞,請(qǐng)批評(píng)指正。后期將不斷更新~