1. 簡(jiǎn)稱
論文《A Bi-model based RNN Semantic Frame Parsing Model for Intent Detection and Slot Filling》簡(jiǎn)稱Bi-Model
,作者Yu Wang(Samsung Research America)
屯碴,經(jīng)典的NLU論文(Semantic Frame)
精堕。
2. 摘要
意圖檢測(cè)和時(shí)隙填充是構(gòu)建口語理解(SLU)系統(tǒng)的兩個(gè)主要任務(wù)≡俗迹基于多種深度學(xué)習(xí)的模型已經(jīng)在這些任務(wù)上展示了良好的結(jié)果。最有效的算法是基于序列到序列模型(或“編碼器-解碼器”模型)的結(jié)構(gòu),并使用單獨(dú)的模型生成意圖和語義標(biāo)簽((Yao等人豺撑,2014; Mesnil等人等人(2015; Peng和Yao黔牵,2015; Kurata等聪轿,2016; Hahn等,2011))或聯(lián)合模型((Liu和Lane猾浦,2016a; Hakkani-Tu?r等陆错,2016; Guo等)等人灯抛,2014年))。
然而音瓷,大多數(shù)先前的研究要么將意圖檢測(cè)和插槽填充視為兩個(gè)單獨(dú)的并行任務(wù)对嚼,要么使用序列到序列的模型以生成語義標(biāo)簽和意圖。這些方法大多數(shù)都使用一個(gè)(聯(lián)合)基于NN的模型(包括編碼器-解碼器結(jié)構(gòu))來對(duì)兩個(gè)任務(wù)進(jìn)行建模绳慎,因此可能無法充分利用它們之間的交叉影響纵竖。在本文中,新的基于Bi-Model的RNN語義框架解析網(wǎng)絡(luò)結(jié)構(gòu)旨在通過使用兩個(gè)相關(guān)的雙向LSTM(BLSTM)相互考慮相互影響來共同執(zhí)行意圖檢測(cè)和時(shí)隙填充任務(wù)杏愤。
我們的帶解碼器的Bi-Model結(jié)構(gòu)在基準(zhǔn)ATIS數(shù)據(jù)上獲得了最先進(jìn)的結(jié)果(Hemphill等磨确,1990; Tur等声邦,2010)乏奥,意圖精度提高了約0.5%,插槽填充提高了0.9%改善亥曹。
3. 引言
在過去的幾十年中邓了,對(duì)口頭語言理解(SLU)系統(tǒng)的研究進(jìn)展非常迅速。 SLU系統(tǒng)中的兩個(gè)重要任務(wù)是意圖檢測(cè)和插槽填充媳瞪。這兩個(gè)任務(wù)通常被視為并行任務(wù)骗炉,但可能會(huì)相互影響。意圖檢測(cè)被視為話語分類問題蛇受,可以使用傳統(tǒng)的分類器句葵,包括回歸,支持向量機(jī)(SVM)
甚至是深層神經(jīng)網(wǎng)絡(luò)
兢仰≌д桑可以將時(shí)隙填充任務(wù)表述為序列標(biāo)記問題,而性能最佳的最受歡迎方法是使用條件隨機(jī)字段(CRF)
和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)
作為最近的工作把将。
一些工作還建議使用一個(gè)聯(lián)合RNN模型轻专,通過利用序列到序列的模型(或編碼器-解碼器)模型來一起生成兩個(gè)任務(wù)的結(jié)果,這也提供了不錯(cuò)的結(jié)果察蹲。
本文提出了一種基于雙模型的RNN結(jié)構(gòu)请垛,以考慮兩個(gè)任務(wù)之間的交叉影響,從而可以進(jìn)一步提高SLU系統(tǒng)建模的性能洽议。這些模型可以為每種話語同時(shí)生成意圖和語義標(biāo)簽宗收。在我們的Bi-Model結(jié)構(gòu)中,構(gòu)建了兩個(gè)任務(wù)網(wǎng)絡(luò)以實(shí)現(xiàn)意圖檢測(cè)和插槽填充亚兄。每個(gè)任務(wù)網(wǎng)絡(luò)都包含一個(gè)帶有或不帶有LSTM解碼器的BLSTM混稽。
4. 核心
盡管基于RNN的序列到序列(或編碼器/解碼器)模型在兩個(gè)任務(wù)上都取得了成功,但是文獻(xiàn)中的大多數(shù)方法仍對(duì)每個(gè)任務(wù)或兩個(gè)任務(wù)都使用一個(gè)單個(gè)RNN模型。他們將意圖檢測(cè)和插槽填充視為兩個(gè)單獨(dú)的任務(wù)荚坞。在本節(jié)中挑宠,提出了兩個(gè)新的Bi-Model結(jié)構(gòu),以考慮它們的交叉影響颓影,從而進(jìn)一步提高其性能各淀。
一種結(jié)構(gòu)采用解碼器結(jié)構(gòu)的優(yōu)勢(shì),而另一種則不需要诡挂∷榻剑基于兩個(gè)模型的成本函數(shù)的異步培訓(xùn)方法旨在適應(yīng)這些新結(jié)構(gòu)。
4.1 Bi-model RNN Structures
圖1顯示了兩個(gè)帶解碼器和不帶解碼器的Bi-Model結(jié)構(gòu)璃俗。這兩個(gè)結(jié)構(gòu)彼此非常相似奴璃,不同之處在于圖1(a)包含基于LSTM的解碼器,因此存在一個(gè)額外的解碼器狀態(tài)城豁。除了編碼器狀態(tài)
之外苟穆,還可以級(jí)聯(lián)。
備注:
使用來自多模型/多模式的信息來獲得更好的性能的概念已在深度學(xué)習(xí)
中得到了廣泛使用以及最近的強(qiáng)化學(xué)習(xí)領(lǐng)域
唱星。在本文中雳旅,我們沒有使用集體信息,而是引入了一種全新的方法间聊,即通過共享內(nèi)部狀態(tài)信息來異步訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)攒盈。
4.1.1 Bi-model structure with a decoder
具有解碼器的雙模型結(jié)構(gòu)如圖1(a)所示。結(jié)構(gòu)中有兩個(gè)相互連接的雙向LSTM(BLSTM)哎榴,一個(gè)用于意圖檢測(cè)型豁,另一個(gè)用于插槽填充。每個(gè)BLSTM向前和向后讀入輸入話語序列驼壶,并生成兩個(gè)隱藏狀態(tài)序列
和
氏豌。
和
的串聯(lián)形成一個(gè)BLSTM狀態(tài)
在時(shí)間步
時(shí)刻喉酌。因此热凹,我們的雙向LSTM
生成一個(gè)隱藏狀態(tài)序列
,其中
用于意圖檢測(cè)任務(wù)泪电,
是用于插槽填充任務(wù)般妙。
為了檢測(cè)意圖,將隱藏狀態(tài)與來自另一個(gè)雙向LSTM
的
組合到時(shí)隙填充任務(wù)網(wǎng)絡(luò)中相速,以在時(shí)間步
生成
碟渺,
的狀態(tài):
其中包含最后一個(gè)時(shí)間步驟
的所有意圖標(biāo)簽的預(yù)測(cè)概率。
對(duì)于時(shí)隙填充任務(wù)突诬,使用BLSTM 和LSTM
構(gòu)建類似的網(wǎng)絡(luò)結(jié)構(gòu)苫拍。通過讀取一個(gè)單詞序列作為輸入芜繁,
與
相同。區(qū)別在于绒极,對(duì)于
骏令,每個(gè)時(shí)間步長(zhǎng)
都會(huì)有一個(gè)輸出
,因?yàn)檫@是一個(gè)序列標(biāo)記問題垄提。在每個(gè)步驟
:
其中是時(shí)間步
的預(yù)測(cè)語義標(biāo)簽榔袋。
4.1.2 Bi-Model structure without a decoder
沒有解碼器的雙模型結(jié)構(gòu)如圖1(b)所示。在此模型中铡俐,沒有以前的模型中的LSTM解碼器凰兑。
對(duì)于意圖任務(wù),在BLSTM 處僅生成一個(gè)預(yù)測(cè)輸出標(biāo)簽
审丘。
最后一個(gè)時(shí)間步長(zhǎng)吏够,其中
是話語的長(zhǎng)度。同樣滩报,狀態(tài)值
和輸出意圖標(biāo)簽生成為:
對(duì)于插槽填充任務(wù)稿饰,其基本結(jié)構(gòu)BLSTM 與意圖設(shè)計(jì)相似,檢測(cè)任務(wù)
,只不過有一個(gè)插槽標(biāo)簽在每個(gè)時(shí)間步
生成的標(biāo)簽
露泊。它也是從兩個(gè)BLSTM
獲取隱藏狀態(tài)喉镰,然后
,即
和
惭笑,加上輸出標(biāo)簽
一起生成其下一個(gè)狀態(tài)值
和插槽標(biāo)簽
侣姆。將此數(shù)學(xué)表示為一個(gè)函數(shù):
4.1.3 Asynchronous training
Bi-Model結(jié)構(gòu)的主要區(qū)別之一是其異步訓(xùn)練,該訓(xùn)練以異步方式根據(jù)其自身的成本函數(shù)訓(xùn)練兩個(gè)任務(wù)網(wǎng)絡(luò)沉噩。意向檢測(cè)任務(wù)網(wǎng)絡(luò)的損失函數(shù)為捺宗,插槽填充的損失函數(shù)為
。使用交叉熵將
和
定義為:
或
其中是意圖標(biāo)簽類型的數(shù)量川蒙,
是語義標(biāo)簽類型的數(shù)量蚜厉,
是單詞序列中單詞的數(shù)量。在每次訓(xùn)練迭代中畜眨,意圖檢測(cè)和時(shí)隙填充網(wǎng)絡(luò)都將根據(jù)先前迭代中的模型生成一組隱藏狀態(tài)
和
昼牛。意圖檢測(cè)任務(wù)網(wǎng)絡(luò)批量讀取輸入數(shù)據(jù)
和隱藏狀態(tài)
的總和,并生成估計(jì)的意圖標(biāo)簽
康聂。意圖檢測(cè)任務(wù)網(wǎng)絡(luò)根據(jù)功能
計(jì)算其成本并對(duì)其進(jìn)行訓(xùn)練贰健。然后,將同一批數(shù)據(jù)
與意圖任務(wù)網(wǎng)絡(luò)的隱藏狀態(tài)
一起饋入插槽填充任務(wù)網(wǎng)絡(luò)恬汁,并為每個(gè)時(shí)間步生成一批輸出
伶椿。然后根據(jù)成本函數(shù)
計(jì)算其成本值,并對(duì)其進(jìn)行進(jìn)一步訓(xùn)練。
使用異步訓(xùn)練方法的原因是脊另,對(duì)于不同的任務(wù)导狡,必須保留兩個(gè)單獨(dú)的成本函數(shù)。這樣做有兩個(gè)主要優(yōu)點(diǎn):
- 通過捕獲更多有用的信息并克服一種模型的結(jié)構(gòu)限制偎痛,與僅使用一種聯(lián)合模型相比烘豌,它可以過濾掉兩項(xiàng)任務(wù)之間的負(fù)面影響。
- 只能通過共享兩個(gè)模型的隱藏狀態(tài)來學(xué)習(xí)兩個(gè)任務(wù)之間的交叉影響看彼,這兩個(gè)模型分別使用兩個(gè)成本函數(shù)進(jìn)行訓(xùn)練廊佩。
5. 實(shí)驗(yàn)
在本節(jié)中,我們?cè)趦蓚€(gè)數(shù)據(jù)集上對(duì)我們提出的新的雙模型結(jié)構(gòu)進(jìn)行了訓(xùn)練和測(cè)試靖榕,一個(gè)是包含航班預(yù)定錄音的公共ATIS數(shù)據(jù)集
标锄,另一個(gè)是我們自行收集的數(shù)據(jù)集在三個(gè)不同的領(lǐng)域中:食物,家庭和電影
茁计。本文使用的ATIS數(shù)據(jù)集遵循與相同的格式料皇。訓(xùn)練集包含4978個(gè)發(fā)聲,測(cè)試集包含893個(gè)發(fā)聲星压,總共有18個(gè)意圖類別和127個(gè)插槽標(biāo)簽践剂。我們的自收集數(shù)據(jù)集的數(shù)據(jù)數(shù)量將在相應(yīng)的實(shí)驗(yàn)部分中給出,并提供更詳細(xì)的說明娜膘⊙犯基于意圖檢測(cè)任務(wù)的分類準(zhǔn)確性和針對(duì)插槽填充任務(wù)的F1分?jǐn)?shù)對(duì)性能進(jìn)行評(píng)估。
5.1 Training Setup
在我們的模型中竣贪,LSTM和BLSTM網(wǎng)絡(luò)的層大小均選擇為200军洼。基于數(shù)據(jù)集的大小演怎,隱藏層的數(shù)量選擇為2匕争,而Adam
優(yōu)化的使用方式為。單詞嵌入的大小為300爷耀,在實(shí)驗(yàn)開始時(shí)會(huì)隨機(jī)初始化甘桑。
5.2 Performance on the ATIS dataset
我們的第一個(gè)實(shí)驗(yàn)是在ATIS基準(zhǔn)數(shù)據(jù)集上進(jìn)行的,并通過評(píng)估其意圖檢測(cè)準(zhǔn)確性和廣告位填充F1得分與現(xiàn)有方法進(jìn)行了比較歹叮。
表1給出了詳細(xì)的比較跑杭。某些模型是為單槽填充任務(wù)設(shè)計(jì)的,因此僅給出F1分?jǐn)?shù)盗胀∷姨#可以觀察到,新提出的Bi-Model結(jié)構(gòu)在意圖檢測(cè)和插槽填充任務(wù)方面均勝過當(dāng)前最新技術(shù)票灰,并且在我們的ATIS數(shù)據(jù)集上,具有解碼器的Bi-Model也勝過沒有解碼器的Bi-Model 。當(dāng)前帶有解碼器的Bi-Model顯示了ATIS基準(zhǔn)數(shù)據(jù)集的最新性能屑迂,F(xiàn)1得分提高了0.9%浸策,意圖準(zhǔn)確性提高了0.5%。
備注:
- 值得注意的是惹盼,基于編解碼器的模型通常比沒有使用編解碼器結(jié)構(gòu)的模型復(fù)雜度更高庸汗,因?yàn)槭褂昧藘蓚€(gè)網(wǎng)絡(luò),需要更新更多的參數(shù)手报。
這也是為什么我們使用兩個(gè)有/沒有使用編解碼器結(jié)構(gòu)的模型來演示新的雙模型結(jié)構(gòu)設(shè)計(jì)的另一個(gè)原因蚯舱。還可以觀察到,帶解碼器的模型由于其更高的復(fù)雜度而給出了更好的結(jié)果掩蛤。
- 表中還顯示中的聯(lián)合模型實(shí)現(xiàn)了在意圖檢測(cè)任務(wù)上具有更好的性能枉昏,而在插槽填充上的性能略有下降,
因此對(duì)于兩個(gè)任務(wù)來說揍鸟,聯(lián)合模型不一定總是更好兄裂。雙模型方法通過分別生成兩個(gè)任務(wù)的結(jié)果來解決此問題。
5.3 on multi-domain data
在本實(shí)驗(yàn)中阳藻,我們?cè)谌齻€(gè)方面的食物(家庭,電影)中對(duì)Bi-Model的結(jié)構(gòu)進(jìn)行了進(jìn)一步測(cè)試腥泥,這些結(jié)構(gòu)是從我們的用戶收集的內(nèi)部數(shù)據(jù)集中進(jìn)行的匾南。每個(gè)領(lǐng)域有3個(gè)意圖,食品領(lǐng)域有15個(gè)語義標(biāo)簽蛔外,家庭領(lǐng)域有16個(gè)語義標(biāo)簽午衰,電影領(lǐng)域有14個(gè)語義標(biāo)簽。表2列出了每個(gè)域的數(shù)據(jù)大小冒萄,對(duì)于訓(xùn)練而言臊岸,拆分為70%,對(duì)于驗(yàn)證尊流,為10%帅戒,對(duì)于測(cè)試,為20%崖技。
由于篇幅所限逻住,文獻(xiàn)中僅對(duì)ATIS數(shù)據(jù)集執(zhí)行最佳的語義框架解析模型∮祝基于注意力的BiRNN用于與我們的Bi-Model結(jié)構(gòu)進(jìn)行比較瞎访。表2顯示了在三個(gè)數(shù)據(jù)域中性能進(jìn)行比較。帶有解碼器的雙模型結(jié)構(gòu)基于其意圖準(zhǔn)確性和時(shí)隙填充F1分?jǐn)?shù)在所有情況下均具有最佳性能吁恍。意向準(zhǔn)確性至少提高了0.5%扒秸,不同領(lǐng)域的F1分?jǐn)?shù)提高了大約1%至3%伍伤。
6. 重點(diǎn)論文
- Daniel Guo, Gokhan Tur, Wen-tau Yih, and Geoffrey Zweig. 2014. Joint semantic utterance classification and slot filling with recursive neural networks. In Spoken Language Technology Workshop (SLT), 2014 IEEE. IEEE, pages 554–559.
- Dilek Hakkani-Tu ?r, Go ?khan Tu ?r, Asli Celikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye- Yi Wang. 2016. Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In INTER- SPEECH. pages 715–719.
- Diederik Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 .
- Bing Liu and Ian Lane. 2015. Recurrent neural network structured output prediction for spoken language understanding. In Proc. NIPS Workshop on Machine Learning for Spoken Language Understanding and Interactions.
- Bing Liu and Ian Lane. 2016a. Attention-based recurrent neural network models for joint intent detection and slot filling. Interspeech 2016 pages 685–689.
- Gre ?goire Mesnil, Yann Dauphin, Kaisheng Yao, Yoshua Bengio, Li Deng, Dilek Hakkani-Tur, Xi- aodong He, Larry Heck, Gokhan Tur, Dong Yu, et al. 2015. Using recurrent neural networks for slot filling in spoken language understanding. IEEE/ACM Transactions on Audio, Speech and Language Pro- cessing (TASLP) 23(3):530–539.
- Xiaodong Zhang and Houfeng Wang. 2016. A joint model of intent determination and slot filling for spoken language understanding. In Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. AAAI Press, pages 2993– 2999.
7. 代碼編寫
# 后續(xù)追加代碼分析
參考文獻(xiàn)
- Wang, Y., Shen, Y., & Jin, H. (2018). A Bi-Model Based RNN Semantic Frame Parsing Model for Intent Detection and Slot Filling. Naacl-Hlt.