1.簡稱
論文《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》簡稱Slot-Gated Atten
玖喘,作者:Chih-Wen Goo(National Taiwan University),經(jīng)典的SLU論文(Semantic Frame)
。
2. 摘要
基于注意力的遞歸神經(jīng)網(wǎng)絡(luò)模型用于聯(lián)合意圖檢測和空位填充桌肴,具有最先進(jìn)的性能序芦,同時(shí)具有獨(dú)立的注意力權(quán)重。
考慮到時(shí)隙和意圖之間存在很強(qiáng)的關(guān)系价涝,本文提出一種時(shí)隙門
炮赦,其重點(diǎn)是學(xué)習(xí)意圖和時(shí)隙注意向量之間的關(guān)系,以便通過全局優(yōu)化獲得更好的語義框架結(jié)果向叉。實(shí)驗(yàn)表明锥腻,與基準(zhǔn)ATIS和Snips數(shù)據(jù)集上的注意力模型相比,我們提出的模型顯著提高了句子級(jí)語義框架的準(zhǔn)確性母谎,相對(duì)注意模型分別提高了4.2%和1.9%瘦黑。
3. 引言
口語理解(SLU)是口語對(duì)話系統(tǒng)的重要組成部分。 SLU旨在形成一個(gè)語義框架奇唤,以捕獲用戶話語或查詢的語義供璧。它通常涉及兩個(gè)任務(wù):意圖檢測和插槽填充(Tur和De Mori,2011)冻记。這兩項(xiàng)任務(wù)著重于預(yù)測說話者的意圖并提取語義概念作為自然語言的約束睡毒。以與電影相關(guān)的話語為例,“find comedies by James Cameron”冗栗,如圖1所示演顾。話語中的每個(gè)單詞都有不同的插槽標(biāo)簽供搀,整個(gè)話語都有特定的意圖。
插槽填充可以看作是序列標(biāo)記任務(wù)钠至,它將輸入單詞序列映射到相應(yīng)的插槽標(biāo)簽序列y^S =(y_1S棉钧,...屿脐,y_TS),并且意圖檢測可以看作是決定意圖標(biāo)簽
的分類問題宪卿。時(shí)隙填充的流行方法包括條件隨機(jī)場
(CRF)
和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)
(Yao等人的诵,2014),以及不同的分類方法佑钾,如支持向量機(jī)(SVM)
和RNN
西疤,已被用于意圖預(yù)測。
考慮到流水線方法由于其獨(dú)立模型而通常會(huì)遭受錯(cuò)誤傳播
休溶,因此提出了一種用于時(shí)隙填充和意圖檢測的聯(lián)合模型代赁,以通過兩個(gè)任務(wù)之間的相互增強(qiáng)來改善句子級(jí)語義(Guo等人,2014兽掰; Hakkani -Tür等人芭碍,2016; Chen等人孽尽,2016)窖壕。此外,注意力機(jī)制(Bahdanau等人泻云,2014)被引入并利用到模型中,以提供精確的焦點(diǎn)狐蜕,這使網(wǎng)絡(luò)可以了解每個(gè)輸出在輸入順序中應(yīng)注意的地方標(biāo)簽(Liu and Lane宠纯,2015,2016)层释。 Liu和Lane(2016)提出的注意力模型實(shí)現(xiàn)了聯(lián)合縫隙填充和意圖預(yù)測的最新性能婆瓜,
其中縫隙填充和意圖預(yù)測的參數(shù)在具有共同的目標(biāo)。但是贡羔,先前的工作并未“明確”為意圖和廣告位之間的關(guān)系建模廉白。相反,它應(yīng)用了聯(lián)合損失函數(shù)來“隱式”考慮這兩個(gè)線索乖寒。由于插槽通常高度依賴于意圖猴蹂,因此本工作著重于如何通過引入插槽門控機(jī)制來建模插槽與意圖向量之間的顯式關(guān)系。
貢獻(xiàn)是三方面的:1)所提出的槽位-門控方法比基于注意力的模型具有更好的性能楣嘁; 2)在兩個(gè)SLU數(shù)據(jù)集上的實(shí)驗(yàn)表明了所提出的槽位門的一般性和有效性磅轻; 3)門控結(jié)果有助于我們分析插槽意圖關(guān)系珍逸。
4. 核心
本節(jié)首先說明我們基于注意力的RNN模型,然后介紹用于聯(lián)合插槽填充和意圖預(yù)測的插槽門機(jī)制聋溜。模型架構(gòu)如圖2所示谆膳,其中有兩個(gè)不同的模型。 (a)是一個(gè)既有插槽注意又有意圖注意撮躁,(b)是只有意圖注意漱病。
4.1 Attention-Based RNN Model
雙向的長-短期記憶網(wǎng)絡(luò)(BLSTM)模型將一個(gè)單詞序列作為輸入,然后生成前向隱層狀態(tài)和后向隱藏狀態(tài)把曼。最后的隱藏狀態(tài)
是第
個(gè)時(shí)間步前后向的關(guān)聯(lián)杨帽。
Slot Filling
:對(duì)于插槽填充,映射到其相應(yīng)的插槽標(biāo)簽序列
。對(duì)于每個(gè)隱藏狀態(tài)
型雳,我們計(jì)算插槽上下文向量
作為LSTM隱藏狀態(tài)
的加權(quán)總和纠俭,通過可學(xué)習(xí)的注意力權(quán)重
:
插槽注意力權(quán)重計(jì)算如下:
是激活函數(shù)沿量,
是前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣。然后冤荆,隱藏狀態(tài)和插槽上下文向量是用于槽位填充朴则。
其中是輸入的第
個(gè)單詞的插槽標(biāo)簽,
是權(quán)重矩陣钓简。插槽注意力在圖2(a)中顯示為藍(lán)色部分乌妒。
Intent Prediction
:意圖上下文向量也可以與
相同的方式進(jìn)行計(jì)算,
但是意圖檢測部分僅采用BLSTM的最后一個(gè)隱藏狀態(tài)
外邓。意圖預(yù)測的模型類似:
4.2 Slot-Gated Mechanism
本節(jié)描述了在圖2的紅色部分中提出的的插槽門控機(jī)制撤蚊。提出的插槽門控模型引入了一個(gè)附加門,該門利用意圖上下文向量對(duì)插槽與意圖之間的關(guān)系進(jìn)行建模损话,
以提高插槽填充性能侦啸。首先,將時(shí)隙上下文向量和意圖上下文向量
合并在一起(
在時(shí)間維度上廣播丧枪,以使與
形狀相同)通過時(shí)隙門控如圖3所示:
其中和
分別是可訓(xùn)練的向量和矩陣光涂。在一個(gè)時(shí)間步中對(duì)元素求和。
可以看作是聯(lián)合上下文向量(
和
)的加權(quán)特征拧烦。我們使用
在
和
之間加權(quán)以得出
并替換(4.1.3)如下:
較大的g表示槽位上下文向量和意圖上下文向量注意輸入序列的相同部分忘闻,這還可以推斷出槽位和意圖之間的相關(guān)性更強(qiáng),并且上下文向量對(duì)貢獻(xiàn)更“可靠”預(yù)測結(jié)果恋博。
為了比較具有注意機(jī)制的時(shí)隙門控的功能服赎,我們還提出了一種僅具有專心注意的縫隙門控模型葵蒂,其中將(4.2.1)和(4.2.2)分別改寫為(4.2.3)和(4.2.4)(如圖所示) 2(b)):
此版本允許槽位和意圖共享注意力機(jī)制。
4.3 Joint Optimization
為了同時(shí)獲得槽位填充和意圖預(yù)測重虑,目標(biāo)制定為:
其中是在給定輸入單詞序列的情況下理解結(jié)果的條件概率(時(shí)隙填充和意圖預(yù)測),并且對(duì)于SLU最大化缺厉。
5. 實(shí)驗(yàn)
為了評(píng)估提出的模型永高,我們對(duì)基準(zhǔn)數(shù)據(jù)集,ATIS(航空旅行信息系統(tǒng))和Snips進(jìn)行了實(shí)驗(yàn)提针。統(tǒng)計(jì)信息如表1所示命爬。
5.1 Setup
ATIS(航空公司旅行信息系統(tǒng))數(shù)據(jù)集(Tur等人,2010)被廣泛用于SLU研究辐脖。數(shù)據(jù)集包含預(yù)訂航班的人員的錄音饲宛。訓(xùn)練集包含4,478語音,測試集包含893語音嗜价。我們將另外500種話語用于開發(fā)集艇抠。訓(xùn)練集中有120種插槽標(biāo)簽和21種意圖類型。
為了證明所提出模型的一般性久锥,我們使用Snips收集的另一個(gè)NLU數(shù)據(jù)集custom-Intent-engines(https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines)進(jìn)行模型評(píng)估家淤。該數(shù)據(jù)集是從Snips個(gè)人語音助手收集的,其中每個(gè)意圖的樣本數(shù)量大致相同瑟由。訓(xùn)練集包含13,084語音絮重,測試集包含700語音。我們將另外700種話語用作開發(fā)集歹苦。有72個(gè)插槽標(biāo)簽和7種意圖類型青伤。
與單域ATIS數(shù)據(jù)集相比,Snips的復(fù)雜程度更高殴瘦,主要原因是意圖多樣性和詞匯量大
狠角。
表2顯示了意圖和相關(guān)的話語示例。關(guān)于意圖的多樣性痴施,例如擎厢,Snips中的GetWeather
和BookRestaurant
來自不同的主題究流,因此產(chǎn)生了更大的詞匯量辣吃。另一方面,ATIS中的意圖都是關(guān)于飛行信息芬探,并且它們之間具有相似的詞匯神得。此外,ATIS的意圖高度不平衡偷仿,其中atis flight
約占培訓(xùn)數(shù)據(jù)的74%哩簿,而atis cheapest
的僅出現(xiàn)一次宵蕉。兩個(gè)數(shù)據(jù)集之間的比較可以在表1中找到。
在所有實(shí)驗(yàn)中节榜,我們將隱藏向量的大小設(shè)置為64羡玛,優(yōu)化器為adam,報(bào)告的數(shù)目在20次運(yùn)行中取平均值宗苍,ATIS和Snips的最大歷時(shí)分別設(shè)置為10和20稼稿,并early-stop(提前停止)
策略。
5.2 Results and Analysis
我們使用F1分?jǐn)?shù)評(píng)估關(guān)于時(shí)隙填充的SLU性能讳窟,使用準(zhǔn)確性評(píng)估意圖預(yù)測让歼,以及使用整體幀準(zhǔn)確性評(píng)估句子級(jí)語義幀解析。實(shí)驗(yàn)結(jié)果顯示在表3中丽啡,其中槽填充和意圖預(yù)測的比較基線包括使用雙向LSTM的基于序列的最新模型(Hakkani-Tu?r等人)(2016年)和基于注意力的模型(Liu和Lane谋右,2016年)。我們通過統(tǒng)計(jì)顯著性檢驗(yàn)驗(yàn)證了性能提升在所有實(shí)驗(yàn)中补箍,執(zhí)行單尾t檢驗(yàn)以衡量所提出模型的結(jié)果是否明顯優(yōu)于基線結(jié)果改执。帶有星形標(biāo)記的數(shù)字表明改善顯著,p <0.05馏予。
表3表明天梧,在充分注意的情況下,所提出的時(shí)隙門控機(jī)制明顯優(yōu)于兩個(gè)數(shù)據(jù)集的基線霞丧,其中幾乎所有任務(wù)(時(shí)隙填充呢岗,意圖預(yù)測和語義框架)都得到了改善,表明了顯式建模插槽和意圖之間的緊密關(guān)系可以有效地使SLU受益蛹尝。
在ATIS數(shù)據(jù)集中后豫,所提出的僅出于意圖注意的時(shí)隙選通模型以較少的參數(shù)(從284K到251K)實(shí)現(xiàn)了更好的性能。但是突那,它無法在Snips數(shù)據(jù)集中獲得更好的結(jié)果挫酿。考慮到這些數(shù)據(jù)集的復(fù)雜程度不同愕难,可能的原因是早龟,更簡單的SLU任務(wù)(如ATIS)不需要額外的插槽注意即可獲得良好的結(jié)果,并且插槽門能夠提供足夠的提示來填充插槽猫缭。另一方面葱弟,Snips更復(fù)雜,因此需要注意插槽猜丹,以便更好地建模插槽填充(以及語義框架結(jié)果)芝加。
顯然,我們提出的模型尤其在句子級(jí)語義框架結(jié)果上表現(xiàn)更好射窒,其中ATIS和Snips的相對(duì)改進(jìn)分別約為4.1%和1.9%藏杖。
它可以歸功于提出的插槽門将塑,該插槽門學(xué)習(xí)了插槽意圖關(guān)系,從而為聯(lián)合模型的全局優(yōu)化提供了有用的信息蝌麸〉懔龋總之,對(duì)于聯(lián)合時(shí)隙填充和意圖預(yù)測来吩,實(shí)驗(yàn)表明开财,由于全局考慮,利用由時(shí)隙門控機(jī)制控制的顯式時(shí)隙意圖關(guān)系可以有效地實(shí)現(xiàn)更好的句子級(jí)語義框架性能误褪。
6. 重點(diǎn)論文
- Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
- Daniel Guo, Gokhan Tur, Wen-tau Yih, and Geoffrey Zweig. 2014. Joint semantic utterance classification and slot filling with recursive neural networks. In Proceedings of 2014 IEEE Spoken Language Technology Workshop, pages 554–559. IEEE.
- Dilek Hakkani-Tu ?r, Go ?khan Tu ?r, Asli Celikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye- Yi Wang. 2016. Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In Proceedings of INTERSPEECH, pages 715–719.
- Bing Liu and Ian Lane. 2015. Recurrent neural net- work structured output prediction for spoken language understanding. In Proc. NIPS Workshop on Machine Learning for Spoken Language Under- standing and Interactions.
- Bing Liu and Ian Lane. 2016. Attention-based recur- rent neural network models for joint intent detection and slot filling. In Proceedings of INTERSPEECH.
- Gre ?goire Mesnil, Yann Dauphin, Kaisheng Yao, Yoshua Bengio, Li Deng, Dilek Hakkani-Tur, Xiaodong He, Larry Heck, Gokhan Tur, Dong Yu, et al. 2015. Using recurrent neural networks for slot fill- ing in spoken language understanding. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 23(3):530–539.
7. 代碼編寫
本文源碼的地址:https://github.com/MiuLab/SlotGated-SLU
# 后續(xù)追加代碼分析
參考文獻(xiàn)
- Goo, C.-W., Gao, G., Hsu, Y.-K., Huo, C.-L., Chen, T.-C., Hsu, K.-W., & Chen, Y.-N. (2018). Slot-Gated Modeling for Joint Slot Filling and Intent Prediction. Naacl-Hlt.