論文-Slot-Gated Modeling for Joint Slot Filling and Intent Prediction(Slot-Gated Atten)

1.簡稱

論文《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》簡稱Slot-Gated Atten玖喘,作者:Chih-Wen Goo(National Taiwan University),經(jīng)典的SLU論文(Semantic Frame)

2. 摘要

基于注意力的遞歸神經(jīng)網(wǎng)絡(luò)模型用于聯(lián)合意圖檢測和空位填充桌肴,具有最先進(jìn)的性能序芦,同時(shí)具有獨(dú)立的注意力權(quán)重。

考慮到時(shí)隙和意圖之間存在很強(qiáng)的關(guān)系价涝,本文提出一種時(shí)隙門炮赦,其重點(diǎn)是學(xué)習(xí)意圖和時(shí)隙注意向量之間的關(guān)系,以便通過全局優(yōu)化獲得更好的語義框架結(jié)果向叉。實(shí)驗(yàn)表明锥腻,與基準(zhǔn)ATIS和Snips數(shù)據(jù)集上的注意力模型相比,我們提出的模型顯著提高了句子級(jí)語義框架的準(zhǔn)確性母谎,相對(duì)注意模型分別提高了4.2%和1.9%瘦黑。

3. 引言

口語理解(SLU)是口語對(duì)話系統(tǒng)的重要組成部分。 SLU旨在形成一個(gè)語義框架奇唤,以捕獲用戶話語或查詢的語義供璧。它通常涉及兩個(gè)任務(wù):意圖檢測和插槽填充(Tur和De Mori,2011)冻记。這兩項(xiàng)任務(wù)著重于預(yù)測說話者的意圖并提取語義概念作為自然語言的約束睡毒。以與電影相關(guān)的話語為例,“find comedies by James Cameron”冗栗,如圖1所示演顾。話語中的每個(gè)單詞都有不同的插槽標(biāo)簽供搀,整個(gè)話語都有特定的意圖。


插槽填充可以看作是序列標(biāo)記任務(wù)钠至,它將輸入單詞序列x =(x_1葛虐,...,x_T)映射到相應(yīng)的插槽標(biāo)簽序列y^S =(y_1S棉钧,...屿脐,y_TS),并且意圖檢測可以看作是決定意圖標(biāo)簽y^I的分類問題宪卿。時(shí)隙填充的流行方法包括條件隨機(jī)場(CRF)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)(Yao等人的诵,2014),以及不同的分類方法佑钾,如支持向量機(jī)(SVM)RNN西疤,已被用于意圖預(yù)測。

考慮到流水線方法由于其獨(dú)立模型而通常會(huì)遭受錯(cuò)誤傳播休溶,因此提出了一種用于時(shí)隙填充和意圖檢測的聯(lián)合模型代赁,以通過兩個(gè)任務(wù)之間的相互增強(qiáng)來改善句子級(jí)語義(Guo等人,2014兽掰; Hakkani -Tür等人芭碍,2016; Chen等人孽尽,2016)窖壕。此外,注意力機(jī)制(Bahdanau等人泻云,2014)被引入并利用到模型中,以提供精確的焦點(diǎn)狐蜕,這使網(wǎng)絡(luò)可以了解每個(gè)輸出在輸入順序中應(yīng)注意的地方標(biāo)簽(Liu and Lane宠纯,2015,2016)层释。 Liu和Lane(2016)提出的注意力模型實(shí)現(xiàn)了聯(lián)合縫隙填充和意圖預(yù)測的最新性能婆瓜,其中縫隙填充和意圖預(yù)測的參數(shù)在具有共同的目標(biāo)。但是贡羔,先前的工作并未“明確”為意圖和廣告位之間的關(guān)系建模廉白。相反,它應(yīng)用了聯(lián)合損失函數(shù)來“隱式”考慮這兩個(gè)線索乖寒。由于插槽通常高度依賴于意圖猴蹂,因此本工作著重于如何通過引入插槽門控機(jī)制來建模插槽與意圖向量之間的顯式關(guān)系。貢獻(xiàn)是三方面的:1)所提出的槽位-門控方法比基于注意力的模型具有更好的性能楣嘁; 2)在兩個(gè)SLU數(shù)據(jù)集上的實(shí)驗(yàn)表明了所提出的槽位門的一般性和有效性磅轻; 3)門控結(jié)果有助于我們分析插槽意圖關(guān)系珍逸。

4. 核心

本節(jié)首先說明我們基于注意力的RNN模型,然后介紹用于聯(lián)合插槽填充和意圖預(yù)測的插槽門機(jī)制聋溜。模型架構(gòu)如圖2所示谆膳,其中有兩個(gè)不同的模型。 (a)是一個(gè)既有插槽注意又有意圖注意撮躁,(b)是只有意圖注意漱病。

4.1 Attention-Based RNN Model

雙向的長-短期記憶網(wǎng)絡(luò)(BLSTM)模型將一個(gè)單詞序列X=(x_1,...,x_T)作為輸入,然后生成前向隱層狀態(tài)和后向隱藏狀態(tài)把曼。最后的隱藏狀態(tài)h_i是第i個(gè)時(shí)間步前后向的關(guān)聯(lián)杨帽。

Slot Filling:對(duì)于插槽填充,X映射到其相應(yīng)的插槽標(biāo)簽序列y =(y_1^S祝迂,...睦尽,y_T^S)。對(duì)于每個(gè)隱藏狀態(tài)h_i型雳,我們計(jì)算插槽上下文向量c^S_i作為LSTM隱藏狀態(tài)h_1当凡,...,h_T的加權(quán)總和纠俭,通過可學(xué)習(xí)的注意力權(quán)重\alpha_{i,j}^S

c_i^S=\sum_{j=1}^T\alpha _{i,j}^Sh_j\tag{4.1.1}

插槽注意力權(quán)重計(jì)算如下:
\alpha _{i,j}^S=\frac{exp(e_{i,j})}{\sum_{k=1}^Texp(e_{i,k})} \\e_{i,k}=\sigma(W_{he}^Sh_k) \tag{4.1.2}

\sigma是激活函數(shù)沿量,W_{he}^S是前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣。然后冤荆,隱藏狀態(tài)和插槽上下文向量是用于槽位填充朴则。

y_i^S=softmax(W_{hy}^S(h_i+c_i^S))\tag{4.1.3}

其中y_i^S是輸入的第i個(gè)單詞的插槽標(biāo)簽,W_{hy}^S是權(quán)重矩陣钓简。插槽注意力在圖2(a)中顯示為藍(lán)色部分乌妒。

Intent Prediction:意圖上下文向量c^I也可以與c^S相同的方式進(jìn)行計(jì)算,但是意圖檢測部分僅采用BLSTM的最后一個(gè)隱藏狀態(tài)外邓。意圖預(yù)測的模型類似:
y_I=softmax(W_{hy}^I(h_T+c^I))\tag{4.1.4}

4.2 Slot-Gated Mechanism

本節(jié)描述了在圖2的紅色部分中提出的的插槽門控機(jī)制撤蚊。提出的插槽門控模型引入了一個(gè)附加門,該門利用意圖上下文向量對(duì)插槽與意圖之間的關(guān)系進(jìn)行建模损话,以提高插槽填充性能侦啸。首先,將時(shí)隙上下文向量c^S_i和意圖上下文向量c^I合并在一起(c^I在時(shí)間維度上廣播丧枪,以使與c^S_i形狀相同)通過時(shí)隙門控如圖3所示:

g=\sum v·tanh(c_i^S+W·c^I)\tag{4.2.1}

其中vW分別是可訓(xùn)練的向量和矩陣光涂。在一個(gè)時(shí)間步中對(duì)元素求和。 g可以看作是聯(lián)合上下文向量(c^S_ic^I)的加權(quán)特征拧烦。我們使用gh_ic^S_i之間加權(quán)以得出y_i^S并替換(4.1.3)如下:

y_i^S=softmax(W_{hy}^S(h_i+c_i^S·g))\tag{4.2.2}

較大的g表示槽位上下文向量和意圖上下文向量注意輸入序列的相同部分忘闻,這還可以推斷出槽位和意圖之間的相關(guān)性更強(qiáng),并且上下文向量對(duì)貢獻(xiàn)更“可靠”預(yù)測結(jié)果恋博。

為了比較具有注意機(jī)制的時(shí)隙門控的功能服赎,我們還提出了一種僅具有專心注意的縫隙門控模型葵蒂,其中將(4.2.1)和(4.2.2)分別改寫為(4.2.3)和(4.2.4)(如圖所示) 2(b)):

g=\sum v·tanh(h_i+W·c^I)\tag{4.2.1}
y_i^S=softmax(W_{hy}^S(h_i+h_i·g))\tag{4.2.2}

此版本允許槽位和意圖共享注意力機(jī)制。

4.3 Joint Optimization

為了同時(shí)獲得槽位填充和意圖預(yù)測重虑,目標(biāo)制定為:
P(y^S,y^I|x) \\ =P(y^I|x)\prod_{t=1}^Tp(y_t^S|x) \\ =P(y^I|x_1,...,x_T)\prod_{t=1}^Tp(y_t^S|x_1,...,x_T) \tag{4.3.1}

其中p(y^S践付,y^I | x)是在給定輸入單詞序列的情況下理解結(jié)果的條件概率(時(shí)隙填充和意圖預(yù)測),并且對(duì)于SLU最大化缺厉。

5. 實(shí)驗(yàn)

為了評(píng)估提出的模型永高,我們對(duì)基準(zhǔn)數(shù)據(jù)集,ATIS(航空旅行信息系統(tǒng))和Snips進(jìn)行了實(shí)驗(yàn)提针。統(tǒng)計(jì)信息如表1所示命爬。


5.1 Setup

ATIS(航空公司旅行信息系統(tǒng))數(shù)據(jù)集(Tur等人,2010)被廣泛用于SLU研究辐脖。數(shù)據(jù)集包含預(yù)訂航班的人員的錄音饲宛。訓(xùn)練集包含4,478語音,測試集包含893語音嗜价。我們將另外500種話語用于開發(fā)集艇抠。訓(xùn)練集中有120種插槽標(biāo)簽和21種意圖類型。

為了證明所提出模型的一般性久锥,我們使用Snips收集的另一個(gè)NLU數(shù)據(jù)集custom-Intent-engines(https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines)進(jìn)行模型評(píng)估家淤。該數(shù)據(jù)集是從Snips個(gè)人語音助手收集的,其中每個(gè)意圖的樣本數(shù)量大致相同瑟由。訓(xùn)練集包含13,084語音絮重,測試集包含700語音。我們將另外700種話語用作開發(fā)集歹苦。有72個(gè)插槽標(biāo)簽和7種意圖類型青伤。

與單域ATIS數(shù)據(jù)集相比,Snips的復(fù)雜程度更高殴瘦,主要原因是意圖多樣性和詞匯量大狠角。

表2顯示了意圖和相關(guān)的話語示例。關(guān)于意圖的多樣性痴施,例如擎厢,Snips中的GetWeatherBookRestaurant來自不同的主題究流,因此產(chǎn)生了更大的詞匯量辣吃。另一方面,ATIS中的意圖都是關(guān)于飛行信息芬探,并且它們之間具有相似的詞匯神得。此外,ATIS的意圖高度不平衡偷仿,其中atis flight約占培訓(xùn)數(shù)據(jù)的74%哩簿,而atis cheapest的僅出現(xiàn)一次宵蕉。兩個(gè)數(shù)據(jù)集之間的比較可以在表1中找到。

在所有實(shí)驗(yàn)中节榜,我們將隱藏向量的大小設(shè)置為64羡玛,優(yōu)化器為adam,報(bào)告的數(shù)目在20次運(yùn)行中取平均值宗苍,ATIS和Snips的最大歷時(shí)分別設(shè)置為10和20稼稿,并early-stop(提前停止)策略。

5.2 Results and Analysis

我們使用F1分?jǐn)?shù)評(píng)估關(guān)于時(shí)隙填充的SLU性能讳窟,使用準(zhǔn)確性評(píng)估意圖預(yù)測让歼,以及使用整體幀準(zhǔn)確性評(píng)估句子級(jí)語義幀解析。實(shí)驗(yàn)結(jié)果顯示在表3中丽啡,其中槽填充和意圖預(yù)測的比較基線包括使用雙向LSTM的基于序列的最新模型(Hakkani-Tu?r等人)(2016年)和基于注意力的模型(Liu和Lane谋右,2016年)。我們通過統(tǒng)計(jì)顯著性檢驗(yàn)驗(yàn)證了性能提升在所有實(shí)驗(yàn)中补箍,執(zhí)行單尾t檢驗(yàn)以衡量所提出模型的結(jié)果是否明顯優(yōu)于基線結(jié)果改执。帶有星形標(biāo)記的數(shù)字表明改善顯著,p <0.05馏予。

表3表明天梧,在充分注意的情況下,所提出的時(shí)隙門控機(jī)制明顯優(yōu)于兩個(gè)數(shù)據(jù)集的基線霞丧,其中幾乎所有任務(wù)(時(shí)隙填充呢岗,意圖預(yù)測和語義框架)都得到了改善,表明了顯式建模插槽和意圖之間的緊密關(guān)系可以有效地使SLU受益蛹尝。在ATIS數(shù)據(jù)集中后豫,所提出的僅出于意圖注意的時(shí)隙選通模型以較少的參數(shù)(從284K到251K)實(shí)現(xiàn)了更好的性能。但是突那,它無法在Snips數(shù)據(jù)集中獲得更好的結(jié)果挫酿。考慮到這些數(shù)據(jù)集的復(fù)雜程度不同愕难,可能的原因是早龟,更簡單的SLU任務(wù)(如ATIS)不需要額外的插槽注意即可獲得良好的結(jié)果,并且插槽門能夠提供足夠的提示來填充插槽猫缭。另一方面葱弟,Snips更復(fù)雜,因此需要注意插槽猜丹,以便更好地建模插槽填充(以及語義框架結(jié)果)芝加。

顯然,我們提出的模型尤其在句子級(jí)語義框架結(jié)果上表現(xiàn)更好射窒,其中ATIS和Snips的相對(duì)改進(jìn)分別約為4.1%和1.9%藏杖。

它可以歸功于提出的插槽門将塑,該插槽門學(xué)習(xí)了插槽意圖關(guān)系,從而為聯(lián)合模型的全局優(yōu)化提供了有用的信息蝌麸〉懔龋總之,對(duì)于聯(lián)合時(shí)隙填充和意圖預(yù)測来吩,實(shí)驗(yàn)表明开财,由于全局考慮,利用由時(shí)隙門控機(jī)制控制的顯式時(shí)隙意圖關(guān)系可以有效地實(shí)現(xiàn)更好的句子級(jí)語義框架性能误褪。

6. 重點(diǎn)論文

  • Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
  • Daniel Guo, Gokhan Tur, Wen-tau Yih, and Geoffrey Zweig. 2014. Joint semantic utterance classification and slot filling with recursive neural networks. In Proceedings of 2014 IEEE Spoken Language Technology Workshop, pages 554–559. IEEE.
  • Dilek Hakkani-Tu ?r, Go ?khan Tu ?r, Asli Celikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye- Yi Wang. 2016. Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In Proceedings of INTERSPEECH, pages 715–719.
  • Bing Liu and Ian Lane. 2015. Recurrent neural net- work structured output prediction for spoken language understanding. In Proc. NIPS Workshop on Machine Learning for Spoken Language Under- standing and Interactions.
  • Bing Liu and Ian Lane. 2016. Attention-based recur- rent neural network models for joint intent detection and slot filling. In Proceedings of INTERSPEECH.
  • Gre ?goire Mesnil, Yann Dauphin, Kaisheng Yao, Yoshua Bengio, Li Deng, Dilek Hakkani-Tur, Xiaodong He, Larry Heck, Gokhan Tur, Dong Yu, et al. 2015. Using recurrent neural networks for slot fill- ing in spoken language understanding. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 23(3):530–539.

7. 代碼編寫

本文源碼的地址:https://github.com/MiuLab/SlotGated-SLU

# 后續(xù)追加代碼分析

參考文獻(xiàn)

  1. Goo, C.-W., Gao, G., Hsu, Y.-K., Huo, C.-L., Chen, T.-C., Hsu, K.-W., & Chen, Y.-N. (2018). Slot-Gated Modeling for Joint Slot Filling and Intent Prediction. Naacl-Hlt.
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末责鳍,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子兽间,更是在濱河造成了極大的恐慌历葛,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嘀略,死亡現(xiàn)場離奇詭異恤溶,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)帜羊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門咒程,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人讼育,你說我怎么就攤上這事帐姻。” “怎么了奶段?”我有些...
    開封第一講書人閱讀 158,207評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵饥瓷,是天一觀的道長。 經(jīng)常有香客問我痹籍,道長呢铆,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評(píng)論 1 284
  • 正文 為了忘掉前任蹲缠,我火速辦了婚禮棺克,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘线定。我一直安慰自己娜谊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評(píng)論 6 386
  • 文/花漫 我一把揭開白布渔肩。 她就那樣靜靜地躺著因俐,像睡著了一般拇惋。 火紅的嫁衣襯著肌膚如雪周偎。 梳的紋絲不亂的頭發(fā)上抹剩,一...
    開封第一講書人閱讀 50,050評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音蓉坎,去河邊找鬼澳眷。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蛉艾,可吹牛的內(nèi)容都是我干的钳踊。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼勿侯,長吁一口氣:“原來是場噩夢啊……” “哼拓瞪!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起助琐,我...
    開封第一講書人閱讀 37,882評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤祭埂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后兵钮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蛆橡,經(jīng)...
    沈念sama閱讀 44,330評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評(píng)論 2 327
  • 正文 我和宋清朗相戀三年掘譬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了泰演。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,789評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡葱轩,死狀恐怖睦焕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情靴拱,我是刑警寧澤复亏,帶...
    沈念sama閱讀 34,477評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站缭嫡,受9級(jí)特大地震影響缔御,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜妇蛀,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評(píng)論 3 317
  • 文/蒙蒙 一耕突、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧评架,春花似錦眷茁、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春登刺,著一層夾襖步出監(jiān)牢的瞬間籽腕,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評(píng)論 1 267
  • 我被黑心中介騙來泰國打工纸俭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留皇耗,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,598評(píng)論 2 362
  • 正文 我出身青樓揍很,卻偏偏與公主長得像郎楼,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子窒悔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評(píng)論 2 351