論文-Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling(At...

1. 簡稱

論文《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》簡稱Attention BiRNN雕旨,作者Bing Liu(Electrical and Computer Engineering, Carnegie Mellon University)劝萤。經(jīng)典的NLU論文(Semantic Frame)查近。

2. 摘要

基于注意力的編解碼器神經(jīng)網(wǎng)絡(luò)模型最近在機器翻譯和語音識別中顯示出令人鼓舞的結(jié)果劣纲。

在這項工作中痕檬,我們提出了一種基于注意力的神經(jīng)網(wǎng)絡(luò)模型,用于聯(lián)合意圖檢測和插槽填充,這對于許多語音理解和對話系統(tǒng)都是至關(guān)重要的步驟。與機器翻譯和語音識別不同歧强,對齊在插槽填充中是顯式的。我們探索將對齊信息整合到編碼器-解碼器框架中的不同策略为肮。從編碼器-解碼器模型中的注意力機制中學(xué)習(xí)摊册,我們進一步建議將注意力引入基于對齊的RNN模型。

這種關(guān)注為意圖分類和插槽標(biāo)簽預(yù)測提供了更多信息颊艳。我們的獨立任務(wù)模型在基準(zhǔn)ATIS任務(wù)上實現(xiàn)了最新的意圖檢測錯誤率和插槽填充F1分?jǐn)?shù)茅特。與獨立任務(wù)模型相比,我們的聯(lián)合訓(xùn)練模型在意圖檢測上進一步獲得了0.56%的絕對(相對值23.8%的)相對誤差減少棋枕,在插槽填充上的絕對增益為0.23%白修。

3. 引言

口語理解(SLU)系統(tǒng)是口語對話系統(tǒng)中的重要組成部分。 SLU系統(tǒng)通常涉及識別說話者的意圖并從自然語言查詢中提取語義成分重斑,這兩項任務(wù)常常被稱為意圖檢測和插槽填充兵睛。

意圖檢測和插槽填充通常分別進行。意圖檢測可以看作是語義話語分類問題,可以應(yīng)用流行的分類器祖很,例如支持向量機(SVM)和深度神經(jīng)網(wǎng)絡(luò)方法累盗。插槽填充可以視為序列標(biāo)記任務(wù)。解決序列標(biāo)記問題的流行方法包括最大熵馬爾可夫模型(MEMM)突琳,條件隨機場(CRF)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。文獻也提出了用于意圖檢測和縫隙填充的聯(lián)合模型符相。這種聯(lián)合模型簡化了SLU系統(tǒng)拆融,因為只需訓(xùn)練和微調(diào)一個模型即可完成兩項任務(wù)。

最近啊终,編解碼器神經(jīng)網(wǎng)絡(luò)模型已成功應(yīng)用于許多序列學(xué)習(xí)問題镜豹,例如機器翻譯語音識別。編碼器-解碼器模型背后的主要思想是將輸入序列編碼為密集向量蓝牲,然后使用該向量生成相應(yīng)的輸出序列趟脂。引入的注意力機制使編碼器-解碼器體系結(jié)構(gòu)能夠?qū)W會同時對齊和解碼。

在這項工作中例衍,我們研究了SLU模型如何從序列模型的強大建模能力中受益昔期。當(dāng)沒有給出對齊信息時,基于注意力的編碼器-解碼器模型能夠映射具有不同長度的序列佛玄。但是硼一,在插槽填充中,對齊是顯式的梦抢,因此基于對齊的RNN模型通嘲阍簦可以很好地工作。我們想研究基于注意和基于對齊的方法的組合奥吩。具體來說哼蛆,我們想探索如何在編碼器-解碼器模型中最佳地利用插槽填充中的對齊信息,另一方面霞赫,是否可以通過以下關(guān)注機制進一步改善基于對齊的RNN縫隙填充模型:由編碼器-解碼器體系結(jié)構(gòu)引入腮介。此外,我們想研究如何在這種方案下共同模擬時隙填充和意圖檢測绩脆。

4. 背景

4.1 RNN for Slot Filling

插槽填充被當(dāng)做一個序列標(biāo)注問題萤厅,我們有訓(xùn)練樣本\{(x^{(n)},y^{(n)}):n=1,...,N\}并且我們想要去學(xué)習(xí)一個函數(shù)f:X->Y,將一個輸入序列X映射到相關(guān)聯(lián)的標(biāo)簽序列Y靴迫。在插槽填充中惕味,輸入序列和標(biāo)簽序列時相同長度,因此是顯示對齊的玉锌。

RNN已廣泛用于許多序列建模問題名挥。在時隙填充的每個時間步,RNN都會讀取一個單詞作為輸入主守,并根據(jù)輸入和發(fā)出的輸出序列中的所有可用信息來預(yù)測其對應(yīng)的時隙標(biāo)簽禀倔。對模型進行訓(xùn)練以找到最佳的參數(shù)集榄融,該參數(shù)集使可能性最大化:

\argmax_{\theta}\prod_{t=1}^TP(y_t|y_1^{t-1},x;\theta)\tag{4.1.1}

其中x代表輸入單詞序列,y_1^{t-1}代表時間步t之前的輸出標(biāo)簽序列救湖。在推斷過程中愧杯,我們希望在給定輸入序列x的情況下找到最佳標(biāo)簽序列y
\hat{y}=\argmax_yP(y|x)\tag{4.1.2}

4.2 RNN Encoder-Decoder

編碼器和解碼器是兩個單獨的RNN。編碼器讀取向量c的輸入序列(x_1鞋既,...力九,x_T)。該向量對整個源序列的信息進行編碼邑闺,并在解碼器中用于生成目標(biāo)輸出序列跌前。解碼器將輸出序列的概率定義為:

P(y)=\prod_{t=1}^TP(y_t|y_1^{t-1},c)\tag{4.2.1}

y_1^{t-1}代表時間步t之前的輸出標(biāo)簽序列。與用于序列標(biāo)記的RNN模型相比陡舅,RNN編碼器/解碼器模型能夠?qū)⑿蛄杏成涞骄哂胁煌L度的序列抵乓。源序列和目標(biāo)序列之間沒有明確的比對。稍后在引入的注意力機制使編碼器/解碼器模型能夠?qū)W習(xí)軟對齊并同時進行解碼靶衍。

5. 核心

在本節(jié)中灾炭,我們首先描述將對齊信息集成到編碼器-解碼器體系結(jié)構(gòu)以進行時隙填充和意圖檢測的方法。接下來摊灭,我們描述了將注意力機制從編碼器-解碼器架構(gòu)引入基于對齊的RNN模型的方法咆贬。

5.1 Encoder-Decoder Model with Aligned Inputs

用于聯(lián)合意圖檢測和時隙填充的編碼器-解碼器模型如圖2所示。在編碼器側(cè)帚呼,我們使用雙向RNN掏缎。雙向RNN已成功應(yīng)用于語音識別和`口語理解。我們使用LSTM 作為基本的遞歸網(wǎng)絡(luò)單元煤杀,因為它具有比簡單RNN更好地建模長期依賴關(guān)系的能力眷蜈。

在時隙填充中,我們希望將單詞序列x =(x_1沈自,...酌儒,x_T)映射到其相應(yīng)的空位標(biāo)簽序列y =(y_1,...枯途,y_T)忌怎。雙向RNN編碼器向前和向后讀取源字序列。前向RNN以其原始順序讀取單詞序列酪夷,并在每個時間步生成隱藏狀態(tài)fh_i榴啸。類似地,后向RNN以相反的順序讀取單詞序列晚岭,并生成一系列隱藏狀態(tài)(bh_T鸥印,...,bh_1)。在每個時間步驟i库说,最終的編碼器隱藏狀態(tài)h_i是前向狀態(tài)fh_i和后向隱藏狀態(tài)bh_i狂鞋,即h_i =[fh_i,bh_i]的串聯(lián)潜的。

前向和后向編碼器RNN的最后狀態(tài)攜帶整個源序列的信息骚揍。我們使用后向編碼器RNN的最后狀態(tài)來計算初始解碼器隱藏狀態(tài)。解碼器是單向RNN啰挪。同樣疏咐,我們將LSTM單元用作基本RNN單元。在每個解碼步驟i中脐供,根據(jù)先前解碼器狀態(tài)s_{i-1},先前發(fā)出的標(biāo)簽y{i-1}借跪,對齊的編碼器隱藏狀態(tài)h_i和上下文向量c_i來計算解碼器狀態(tài)s_i
s_i=f(s_{i-1},y_{y-1},h_i,c_i)\tag{5.1.1}

其中上下文向量c_i是作為編碼器狀態(tài)h =(h_1政己,...,h_T)的加權(quán)和而計算的:

c_i=\sum_{j=1}^T\alpha_{i,j}h_j\tag{5.1.2}

并且:

\alpha_{i,j}=\frac{exp(e_{i,j})}{\sum_{k=1}^T exp(e_{i,k})} \\ e_{i,k}=g(s_{i-1},h_k) \tag{5.1.3}

g是一個前向神經(jīng)網(wǎng)絡(luò)掏愁。在每個解碼步驟歇由,顯式對齊的輸入為編碼器狀態(tài)h_i。上下文向量c_i為解碼器提供了額外的信息果港,并且可以看作是一連串的加權(quán)特征(h_1沦泌,...,h_T)辛掠。

對于意圖檢測和時隙填充的聯(lián)合建模谢谦,我們添加了用于意圖檢測(或意圖分類)任務(wù)的附加解碼器,該解碼器與時隙填充解碼器共享同一編碼器萝衩。在模型訓(xùn)練期間回挽,兩個解碼器的成本都將反向傳播到編碼器。意圖解碼器僅生成一個輸出猩谊,該輸出是句子的意圖類別分布千劈,因此不需要對齊。目標(biāo)解碼器狀態(tài)是共享的初始解碼器狀態(tài)s_0(對整個源序列的信息進行編碼)和上下文向量c_{intent}(其表示源解碼器要注意的部分源序列)的函數(shù)牌捷。

5.2 Attention-Based RNN Model

用于聯(lián)合意圖檢測和時隙填充的基于注意力的RNN模型如圖3所示墙牌。


在用于序列標(biāo)記的雙向RNN中,每個時間步的隱藏狀態(tài)都攜帶整個序列的信息暗甥,但是信息可能會隨著向前和向后傳播而逐漸丟失喜滨。因此,在進行時隙標(biāo)簽預(yù)測時淋袖,我們不僅希望在每個步驟中僅使用對齊的隱藏狀態(tài)h_i鸿市,還希望查看是否使用上下文向量c_i為我們提供了任何其他支持信息,尤其是那些需要長期依賴的信息未被隱藏狀態(tài)完全捕獲。

在提出的模型中焰情,雙向RNN(BiRNN)沿正向和反向讀取源序列陌凳。我們將LSTM單元用作基本RNN單元。插槽標(biāo)簽依賴關(guān)系在前向RNN中建模内舟。類似于上述編碼器-解碼器體系結(jié)構(gòu)中的編碼器模塊合敦,每個步驟的隱藏狀態(tài)h_i是前向狀態(tài)fh_i和后向狀態(tài)bh_i的串聯(lián),h_i =[fh_i验游,bh_i]充岛。每個隱藏狀態(tài)h_i都包含整個輸入單詞序列的信息,并在步驟i著重關(guān)注單詞周圍的部分耕蝉。然后將此隱藏狀態(tài)h_i與上下文向量c_i組合以產(chǎn)生標(biāo)簽分布崔梗,其中上下文向量c_i計算為RNN隱藏狀態(tài)h =(h_1,...垒在,h_T)的加權(quán)平均值蒜魄。

對于意圖檢測和時隙填充的聯(lián)合建模,我們重用了雙向RNN的預(yù)先計算的隱藏狀態(tài)h來生成意圖類分布场躯。如果不注意谈为,我們對隱藏狀態(tài)h隨時間應(yīng)用最大池化,然后進行邏輯回歸以進行意圖分類踢关。如果啟用了注意力伞鲫,我們將取隱藏狀態(tài)h隨時間的加權(quán)平均值。

與利用顯式對齊輸入的基于注意力的編碼器/解碼器模型相比签舞,基于注意力的RNN模型具有更高的計算效率秕脓。在模型訓(xùn)練期間,編碼器-解碼器插槽填充模型兩次讀取輸入序列儒搭,而基于注意力的RNN模型只讀取一次輸入序列撒会。

6. 實驗

6.1 Data

ATIS(航空公司旅行信息系統(tǒng))數(shù)據(jù)集被廣泛用于SLU研究中。數(shù)據(jù)集包含預(yù)訂航班的人員的錄音师妙。在這項工作中诵肛,我們遵循中使用的ATIS 語料設(shè)置。訓(xùn)練集包含來自ATIS-2和ATIS-3語料庫的4978語音默穴,而測試集包含來自ATIS-3 NOV93和DEC94數(shù)據(jù)集的893語音怔檩。共有127個不同的插槽標(biāo)簽和18個不同的意圖類型。我們使用F1分?jǐn)?shù)評估系統(tǒng)在插槽填充方面的性能蓄诽,并使用分類錯誤率評估意圖檢測的性能薛训。

我們獲得了用于SLU評估的另一個ATIS文本語料庫。該語料庫包含5138話語仑氛,并標(biāo)注了意圖和插槽標(biāo)簽乙埃≌⒂ⅲ總共有110種不同的插槽標(biāo)簽和21種意圖類型。我們使用10倍交叉驗證設(shè)置介袜。

6.2 Training Procedure

LSTM單元用作實驗中的基本RNN單元甫何。給定數(shù)據(jù)集的大小,我們將LSTM單元的單位數(shù)設(shè)置為128遇伞。默認(rèn)的遺忘門偏置設(shè)置為1辙喂。我們在提出的模型中僅使用LSTM的一層,而通過堆疊LSTM層的更深層模型將在以后的工作中進行探索鸠珠。

大小為128的單詞嵌入在批量大小為16的小批量訓(xùn)練過程中被隨機初始化和微調(diào)巍耗。在模型訓(xùn)練過程中,對非經(jīng)常性連接應(yīng)用Dropout 為0.5渐排,以進行正則化炬太。梯度裁剪的最大范數(shù)設(shè)置為5。

6.3 Independent Training Model Results:Slot Filling

我們首先在獨立的任務(wù)訓(xùn)練模型上報告結(jié)果驯耻。表1顯示了使用我們提出的架構(gòu)的插槽填充F1分?jǐn)?shù)娄琉。表2將我們建議的插槽填充模型性能與先前報告的結(jié)果進行了比較。


在表1中吓歇,第一組結(jié)果是針對5.1節(jié)中描述的編碼器-解碼器模型的變化。不足為奇的是票腰,沒有利用顯式對齊信息的純基于關(guān)注的槽位填充模型的效果很差城看。讓模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)對準(zhǔn)似乎不適用于插槽填充任務(wù)。第2行和第3行顯示了利用對齊輸入的非注意力和基于注意力的編碼-解碼器模型的F1分?jǐn)?shù)杏慰。

在平均和最佳分?jǐn)?shù)上测柠,基于注意力的模型給出的F1得分要比基于非注意力模型的F1得分略好。通過調(diào)查模型學(xué)習(xí)到的注意力缘滥,我們發(fā)現(xiàn)注意力權(quán)重更有可能在源序列中的各個單詞之間平均分配轰胁。在少數(shù)情況下,我們會觀察到解碼器對輸入序列的關(guān)注(圖4)朝扼,這可能部分解釋了啟用注意力后所觀察到的性能提升赃阀。


表1中的第二組結(jié)果是針對3.2節(jié)中描述的雙向RNN模型的。與之前的結(jié)果類似擎颖,我們在使用注意力的模型上觀察到F1分?jǐn)?shù)略有提高榛斯。上下文向量對時隙填充的貢獻不是很明顯。似乎對于這種級別的序列長度(此ATIS語料庫的平均句子長度為11)搂捧,雙向RNN產(chǎn)生的隱藏狀態(tài)h_i能夠編碼制作該時隙所需的大多數(shù)信息用于標(biāo)簽預(yù)測驮俗。

表2將我們的槽位填充模型與以前的方法進行了比較。我們兩種模型架構(gòu)的結(jié)果均優(yōu)于先前報告的最佳F1分?jǐn)?shù)允跑。


6.4 Independent Training Model Results:Intent Detection

表3比較了我們的意圖模型和先前方法之間的意圖分類錯誤率王凑。我們提出的模型的意向錯誤率大大優(yōu)于最新結(jié)果搪柑。基于注意力的編解碼器意圖模型改進了雙向RNN模型索烹。這可能歸因于從編碼器傳遞的序列級別信息以及解碼器RNN中的非線性附加層工碾。

6.5 Joint Model Results

表4顯示了我們與先前報告的結(jié)果相比,在意圖檢測和插槽填充方面的聯(lián)合訓(xùn)練模型性能术荤。


為了進一步驗證我們的聯(lián)合訓(xùn)練模型的性能倚喂,我們將提出的模型應(yīng)用于其他ATIS數(shù)據(jù)集,并通過10倍交叉驗證對它們進行評估瓣戚。編碼器-解碼器和基于注意力的RNN方法均取得了可喜的結(jié)果端圈。


7. 重點論文

  • P. Haffner, G. Tur, and J. H. Wright, “Optimizing svms for complex call classification,” in Acoustics, Speech, and Signal Process- ing, 2003. Proceedings.(ICASSP’03). 2003 IEEE International Conference on, vol. 1. IEEE, 2003, pp. I–632.
  • R. Sarikaya, G. E. Hinton, and B. Ramabhadran, “Deep belief nets for natural language call-routing,” in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. IEEE, 2011, pp. 5680–5683.
  • A. McCallum, D. Freitag, and F. C. Pereira, “Maximum entropy markov models for information extraction and segmentation.” in ICML, vol. 17, 2000, pp. 591–598.
  • C. Raymond and G. Riccardi, “Generative and discriminative algorithms for spoken language understanding.” in INTERSPEECH, 2007, pp. 1605–1608.
  • I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” in Advances in neural information processing systems, 2014, pp. 3104–3112.
  • W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell,” arXiv preprint arXiv:1508.01211, 2015.
  • D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014.
  • X.Zhang,J.Zhao,andY.LeCun,“Character-levelconvolutional networks for text classification,” in Advances in Neural Informa- tion Processing Systems, 2015, pp. 649–657.

8. 代碼編寫

# 后續(xù)追加代碼分析

參考文獻

  1. Liu, B., & Lane, I. (2016). Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling. Interspeech.
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市子库,隨后出現(xiàn)的幾起案子舱权,更是在濱河造成了極大的恐慌,老刑警劉巖仑嗅,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宴倍,死亡現(xiàn)場離奇詭異,居然都是意外死亡仓技,警方通過查閱死者的電腦和手機鸵贬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來脖捻,“玉大人阔逼,你說我怎么就攤上這事〉鼐冢” “怎么了嗜浮?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長摩疑。 經(jīng)常有香客問我危融,道長,這世上最難降的妖魔是什么雷袋? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任吉殃,我火速辦了婚禮,結(jié)果婚禮上楷怒,老公的妹妹穿的比我還像新娘寨腔。我一直安慰自己,他們只是感情好率寡,可當(dāng)我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布迫卢。 她就那樣靜靜地躺著,像睡著了一般冶共。 火紅的嫁衣襯著肌膚如雪乾蛤。 梳的紋絲不亂的頭發(fā)上每界,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天,我揣著相機與錄音家卖,去河邊找鬼眨层。 笑死上荡,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的酪捡。 我是一名探鬼主播,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼逛薇,長吁一口氣:“原來是場噩夢啊……” “哼捺疼!你這毒婦竟也來了永罚?” 一聲冷哼從身側(cè)響起啤呼,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤呢袱,失蹤者是張志新(化名)和其女友劉穎官扣,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體羞福,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了恋昼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡挟炬,死狀恐怖嗦哆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情老速,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布额湘,位于F島的核電站,受9級特大地震影響锋华,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜毯焕,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一纳猫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧续担,春花似錦、人聲如沸乖仇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽诗舰。三九已至,卻和暖如春蜀铲,著一層夾襖步出監(jiān)牢的瞬間属百,已是汗流浹背记劝。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留族扰,地道東北人。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓怒竿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親耕驰。 傳聞我的和親對象是個殘疾皇子录豺,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容