1. 簡稱
論文《A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications》,作者Mengyang Chen(ByteDance Corporation, China)
弧烤,經(jīng)典的NLU論文(Semantic Frame)
岔激。
2. 摘要
無
3. 引言
口語理解(SLU)是面向目標的對話系統(tǒng)中的重要組成部分啃匿。它通常涉及識別說話者的意圖并從用戶話語中提取語義槽位柱嫌,這被稱為意圖檢測(ID)和空位填充(SF)谒养。表I展示了一個來自航空旅行信息系統(tǒng)(ATIS)語料庫的示例游岳。
近年來沥潭,人們對SLU問題進行了深入研究邀泉。但是,這些方法只是在語法上限制了SF結(jié)果钝鸽,獨立地解決了ID和SF汇恤,或者沒有充分利用兩個任務的相互影響。本文提出了一個具有條件隨機場(CRF)層和先驗掩碼的多頭自注意力模型拔恰。
實驗表明啡氢,與最新模型相比照宝,我們模型的有效性叁巨。同時避诽,最近幾年中國的在線教育取得了長足的進步。但是饭冬,很少有用于學生學習外語的智能教育對話應用程序使鹅。因此,我們設(shè)計了一個智能對話機器人昌抠,該機器人配備了不同的場景設(shè)置患朱,可以幫助學生學習交流技能。
我們提出了一個聯(lián)合模型炊苫,該模型使用多頭局部自注意來提取共享特征裁厅,使用掩碼門控機制來探索輸出的相關(guān)性,并使用CRF來約束SF輸出侨艾,以完美地解決該問題执虹。
4. 核心
我們在本節(jié)中介紹我們的模型,概述為圖一唠梨。第一層將輸入序列映射成向量袋励,通過把詞級別嵌入
和從BI-LSTM中獲取字級別的嵌入
連接起來。其中
是序列中單詞索引当叭。由于上下文信息(尤其是相鄰單詞)在序列標記中很有用茬故,因此我們采用多頭局部自注意來提取上下文感知特征
。局部上下文特征是
和注意力輸出計算公式為:
其中和
是用于第
個詞和第
個頭的局部自注意力的第一層和第二層權(quán)重蚁鳖。Bi-LSTM層產(chǎn)生
磺芭,將其用于使用多層完全連接分類器對意圖
進行分類。
在訓練期間使用了交叉熵損失醉箕,并且意圖標簽對應于在預測期間給出最高概率的索引钾腺。
隱藏狀態(tài)也被發(fā)送到類似的多頭本地自我關(guān)注結(jié)構(gòu)以生成徙垫。由于在不同意圖下的槽分布是不同的,我們采用一個先驗掩碼放棒,它是一個由意圖
給出槽的條件概率分布姻报。我們將掩碼和意圖輸出相乘,將結(jié)果與
連接起來哨查,最后放入一個CRF層去獲取受約束的槽結(jié)果
逗抑,我們把
當做注意力的輸出矩陣的得分剧辐。
表示第
個詞的
標簽的得分寒亥,我們定義得分函數(shù)為:
所有可能的標簽序列上的softmax產(chǎn)生序列的概率。我們在訓練過程中最大化正確標簽序列的對數(shù)概率荧关。解碼時溉奕,對得分最高的輸出序列進行預測。
5. 實驗
為了評估所提出模型的效率忍啤,我們對ATIS和Snips數(shù)據(jù)集進行了實驗加勤,這些數(shù)據(jù)集被廣泛用作SLU研究的基準。 ATIS包含預訂機票的人的錄音同波。片段是從個人語音助手收集的鳄梅。
插槽填充任務的性能由F1分數(shù)衡量,而意圖檢測任務則以預測精度進行評估未檩。表II中列出了針對其他方法的模型結(jié)果戴尸。與最新方法相比,我們的方法在兩個數(shù)據(jù)集上的ID分別提高了0.14%和0.49%冤狡,在SF中分別提高了0.02%和0.04%孙蒙。
6. 實際應用
在過去的很長一段時間里,非英語母語的學生在語法或閱讀理解上花費了太多的時間悲雳,以至于他們要么專注于言語影子挎峦,要么專注于簡單的對話,而沒有復雜的對話狀態(tài)跟蹤合瓢,從而不能幫助學生流利地表達和處理復雜場景下的對話坦胶。
為了幫助K12學生更好地處理旅行、購物和點餐等現(xiàn)實場景晴楔,我們設(shè)計了一個對話應用程序顿苇。該框架實際上是一個標準的面向目標的對話系統(tǒng),如圖4所示滥崩。首先岖圈,Agent采用前面討論的SLU方法來分析學生的意圖和槽值。其次钙皮,利用基于規(guī)則的對話跟蹤技術(shù)記錄會話狀態(tài)變化蜂科,并做出相應的動作顽决。最后,使用預定義的模板生成響應导匣。
由于本文討論的主題是SLU才菠,為了方便起見,我們?nèi)サ袅薃SR和TTS模塊贡定,使用了一個簡化的版本(實際使用的是百度語音API)赋访。
圖2顯示了一個購物示例,圖3是DST的偽代碼和決策邏輯缓待。
當學生不知道如何回應時蚓耽,可以通過在APP中選擇“幫助”來獲取提示。
7. EVIDENCE OF POTENTIAL IMPACTS
教育是全世界人民都非常重視的領(lǐng)域旋炒。
相關(guān)研究表明步悠,中國只有四分之一的學生可以進入本科學習,這遠遠少于發(fā)達國家瘫镇。幸運的是鼎兽,在過去的幾年里,教育行業(yè)取得了很大的進步铣除。2013年以來谚咬,中國K12市場規(guī)模增速保持在30%以上。然而尚粘,由于巨大的租金和教師工資成本择卦,傳統(tǒng)公司遇到了利潤問題。他們將重點轉(zhuǎn)向在線教育方案
背苦,其中CR4(四家公司集中率)低于5%互捌,目前還沒有大型公司存在。此外行剂,中國還制定了政府計劃秕噪,鼓勵新興市場力量進入這一領(lǐng)域。對于父母來說厚宰,他們高度重視英語學習腌巾,并愿意為加強孩子的口語和聽力技能買單。然而铲觉,流行的應用澈蝙,如VIPKID,主要集中在語音陰影上撵幽,不能完全滿足他們的需求灯荧。事實上,學習外語的核心目標是在日常對話中流利地說和聽盐杂。
只有幾家公司專注于情景對話
逗载,他們只使用簡單的邏輯來跟蹤對話狀態(tài)哆窿。換句話說,如果沒有預定義的用戶話語厉斟,對話將無法繼續(xù)挚躯。學生們可能會對這樣的模式感到厭倦。基于我們的方法設(shè)計的會話機器人提供了更大的交談自由度擦秽,并跟蹤不同意圖和槽值之間的對話狀態(tài)轉(zhuǎn)換码荔。
我們從北京當?shù)刂行W抽取了50名K12學生,進行了一項用戶研究感挥。他們中的大多數(shù)人認為這種模式很新鮮缩搅,并表現(xiàn)出極大的熱情繼續(xù)與機器人交談。
這款應用目前正在進行內(nèi)部測試链快,稍后將發(fā)布誉己。
8. 概述
在本文中,我們提出了SLU任務的聯(lián)合學習模型域蜗。執(zhí)行局部自我注意和嵌入以提取句子特征,將其發(fā)送到雙向LSTM以捕獲單詞之間的關(guān)系噪猾。然后霉祸,使用共享特征在面罩門控機制中執(zhí)行意圖分類和縫隙填充任務。此外袱蜡,我們應用了CRF層來約束時隙的輸出并獲得合理的結(jié)果丝蹭。我們還基于提出的SLU方法,基于規(guī)則的跟蹤技能和基于模板的語言生成技能坪蚁,設(shè)計了一種教育性APP奔穿,以幫助學生在實踐中很好地說和聽。
此外敏晤,我們建立了幾個常見場景對話的數(shù)據(jù)集贱田。我們將繼續(xù)擴大數(shù)據(jù)集并在以后發(fā)布。
9. 重點論文
- Zhang, Xiaodong, and Houfeng Wang. "A Joint Model of Intent Determination and Slot Filling for Spoken Language Understanding." IJCAI. 2016.
- Liu, Bing, and Ian Lane. "Attention-based recurrent neural network models for joint intent detection and slot filling." arXiv preprint arXiv:1609.01454 (2016).
- Goo, Chih-Wen, et al. "Slot-gated modeling for joint slot filling and intent prediction." Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). Vol. 2. 2018.
- Li, Changliang, Liang Li, and Ji Qi. "A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding." Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.
- Xu, Puyang, and Ruhi Sarikaya. "Convolutional neural network based triangular crf for joint intent detection and slot filling." 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2013.
10. 代碼編寫
# 后續(xù)追加代碼分析
參考文獻
- Chen, M., Zeng, J., & Lou, J. (2019). A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications. CoRR.