1. 簡稱
論文《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》簡稱Attention BiRNN雕旨,作者Bing Liu(Electrical and Computer Engineering, Carnegie Mellon University)劝萤。經(jīng)典的NLU論文(Semantic Frame)查近。
2. 摘要
基于注意力的編解碼器神經(jīng)網(wǎng)絡(luò)模型最近在機器翻譯和語音識別中顯示出令人鼓舞的結(jié)果劣纲。
在這項工作中痕檬,我們提出了一種基于注意力的神經(jīng)網(wǎng)絡(luò)模型,用于聯(lián)合意圖檢測和插槽填充,這對于許多語音理解和對話系統(tǒng)都是至關(guān)重要的步驟。與機器翻譯和語音識別不同歧强,對齊在插槽填充中是顯式的。我們探索將對齊信息整合到編碼器-解碼器框架中的不同策略为肮。
從編碼器-解碼器模型中的注意力機制中學(xué)習(xí)摊册,我們進一步建議將注意力引入基于對齊的RNN模型。
這種關(guān)注為意圖分類和插槽標(biāo)簽預(yù)測提供了更多信息颊艳。我們的獨立任務(wù)模型在基準(zhǔn)ATIS任務(wù)上實現(xiàn)了最新的意圖檢測錯誤率和插槽填充F1分?jǐn)?shù)茅特。與獨立任務(wù)模型相比,我們的聯(lián)合訓(xùn)練模型在意圖檢測上進一步獲得了0.56%的絕對(相對值23.8%的)相對誤差減少棋枕,在插槽填充上的絕對增益為0.23%白修。
3. 引言
口語理解(SLU)系統(tǒng)是口語對話系統(tǒng)中的重要組成部分。 SLU系統(tǒng)通常涉及識別說話者的意圖并從自然語言查詢中提取語義成分重斑,這兩項任務(wù)常常被稱為意圖檢測和插槽填充兵睛。
意圖檢測和插槽填充通常分別進行。意圖檢測可以看作是語義話語分類問題,可以應(yīng)用流行的分類器祖很,例如支持向量機(SVM)和深度神經(jīng)網(wǎng)絡(luò)方法
累盗。插槽填充可以視為序列標(biāo)記任務(wù)。解決序列標(biāo)記問題的流行方法包括最大熵馬爾可夫模型(MEMM)
突琳,條件隨機場(CRF)
和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)
。文獻也提出了用于意圖檢測和縫隙填充的聯(lián)合模型符相。這種聯(lián)合模型簡化了SLU系統(tǒng)拆融,因為只需訓(xùn)練和微調(diào)一個模型即可完成兩項任務(wù)。
最近啊终,編解碼器神經(jīng)網(wǎng)絡(luò)模型已成功應(yīng)用于許多序列學(xué)習(xí)問題镜豹,例如機器翻譯
和語音識別
。編碼器-解碼器模型背后的主要思想是將輸入序列編碼為密集向量蓝牲,然后使用該向量生成相應(yīng)的輸出序列趟脂。引入的注意力機制使編碼器-解碼器體系結(jié)構(gòu)能夠?qū)W會同時對齊和解碼。
在這項工作中例衍,我們研究了SLU模型如何從序列模型的強大建模能力中受益昔期。當(dāng)沒有給出對齊信息時,基于注意力的編碼器-解碼器模型能夠映射具有不同長度的序列佛玄。但是硼一,在插槽填充中,對齊是顯式的梦抢,因此基于對齊的RNN模型通嘲阍簦可以很好地工作。我們想研究基于注意和基于對齊的方法的組合奥吩。具體來說哼蛆,我們想探索如何在編碼器-解碼器模型中最佳地利用插槽填充中的對齊信息,另一方面霞赫,是否可以通過以下關(guān)注機制進一步改善基于對齊的RNN縫隙填充模型:由編碼器-解碼器體系結(jié)構(gòu)引入腮介。此外,我們想研究如何在這種方案下共同模擬時隙填充和意圖檢測绩脆。
4. 背景
4.1 RNN for Slot Filling
插槽填充被當(dāng)做一個序列標(biāo)注問題萤厅,我們有訓(xùn)練樣本并且我們想要去學(xué)習(xí)一個函數(shù),將一個輸入序列映射到相關(guān)聯(lián)的標(biāo)簽序列靴迫。在插槽填充中惕味,輸入序列和標(biāo)簽序列時相同長度,因此是顯示對齊的玉锌。
RNN已廣泛用于許多序列建模問題名挥。在時隙填充的每個時間步,RNN都會讀取一個單詞作為輸入主守,并根據(jù)輸入和發(fā)出的輸出序列中的所有可用信息來預(yù)測其對應(yīng)的時隙標(biāo)簽禀倔。對模型進行訓(xùn)練以找到最佳的參數(shù)集榄融,該參數(shù)集使可能性最大化:
其中代表輸入單詞序列,代表時間步之前的輸出標(biāo)簽序列救湖。在推斷過程中愧杯,我們希望在給定輸入序列的情況下找到最佳標(biāo)簽序列:
4.2 RNN Encoder-Decoder
編碼器和解碼器是兩個單獨的RNN。編碼器讀取向量c的輸入序列。該向量對整個源序列的信息進行編碼邑闺,并在解碼器中用于生成目標(biāo)輸出序列跌前。解碼器將輸出序列的概率定義為:
代表時間步之前的輸出標(biāo)簽序列。與用于序列標(biāo)記的RNN模型相比陡舅,RNN編碼器/解碼器模型能夠?qū)⑿蛄杏成涞骄哂胁煌L度的序列抵乓。源序列和目標(biāo)序列之間沒有明確的比對。稍后在引入的注意力機制使編碼器/解碼器模型能夠?qū)W習(xí)軟對齊并同時進行解碼靶衍。
5. 核心
在本節(jié)中灾炭,我們首先描述將對齊信息集成到編碼器-解碼器體系結(jié)構(gòu)以進行時隙填充和意圖檢測的方法。接下來摊灭,我們描述了將注意力機制從編碼器-解碼器架構(gòu)引入基于對齊的RNN模型的方法咆贬。
5.1 Encoder-Decoder Model with Aligned Inputs
用于聯(lián)合意圖檢測和時隙填充的編碼器-解碼器模型如圖2所示。在編碼器側(cè)帚呼,我們使用雙向RNN掏缎。雙向RNN已成功應(yīng)用于語音識別
和`口語理解。我們使用LSTM 作為基本的遞歸網(wǎng)絡(luò)單元煤杀,因為它具有比簡單RNN更好地建模長期依賴關(guān)系的能力眷蜈。
在時隙填充中,我們希望將單詞序列映射到其相應(yīng)的空位標(biāo)簽序列忌怎。雙向RNN編碼器向前和向后讀取源字序列。前向RNN以其原始順序讀取單詞序列酪夷,并在每個時間步生成隱藏狀態(tài)榴啸。類似地,后向RNN以相反的順序讀取單詞序列晚岭,并生成一系列隱藏狀態(tài)。在每個時間步驟库说,最終的編碼器隱藏狀態(tài)是前向狀態(tài)和后向隱藏狀態(tài)狂鞋,即的串聯(lián)潜的。
前向和后向編碼器RNN的最后狀態(tài)攜帶整個源序列的信息骚揍。我們使用后向編碼器RNN的最后狀態(tài)來計算初始解碼器隱藏狀態(tài)。解碼器是單向RNN啰挪。同樣疏咐,我們將LSTM單元用作基本RNN單元。在每個解碼步驟中脐供,根據(jù)先前解碼器狀態(tài),先前發(fā)出的標(biāo)簽借跪,對齊的編碼器隱藏狀態(tài)和上下文向量來計算解碼器狀態(tài):
其中上下文向量是作為編碼器狀態(tài)的加權(quán)和而計算的:
并且:
是一個前向神經(jīng)網(wǎng)絡(luò)掏愁。在每個解碼步驟歇由,顯式對齊的輸入為編碼器狀態(tài)。上下文向量為解碼器提供了額外的信息果港,并且可以看作是一連串的加權(quán)特征辛掠。
對于意圖檢測和時隙填充的聯(lián)合建模谢谦,我們添加了用于意圖檢測(或意圖分類)任務(wù)的附加解碼器,該解碼器與時隙填充解碼器共享同一編碼器萝衩。在模型訓(xùn)練期間回挽,兩個解碼器的成本都將反向傳播到編碼器。意圖解碼器僅生成一個輸出猩谊,該輸出是句子的意圖類別分布千劈,因此不需要對齊。目標(biāo)解碼器狀態(tài)是共享的初始解碼器狀態(tài)(對整個源序列的信息進行編碼)和上下文向量(其表示源解碼器要注意的部分源序列)的函數(shù)牌捷。
5.2 Attention-Based RNN Model
用于聯(lián)合意圖檢測和時隙填充的基于注意力的RNN模型如圖3所示墙牌。
在用于序列標(biāo)記的雙向RNN中,每個時間步的隱藏狀態(tài)都攜帶整個序列的信息暗甥,但是信息可能會隨著向前和向后傳播而逐漸丟失喜滨。因此,在進行時隙標(biāo)簽預(yù)測時淋袖,我們不僅希望在每個步驟中僅使用對齊的隱藏狀態(tài)鸿市,還希望查看是否使用上下文向量為我們提供了任何其他支持信息,尤其是那些需要長期依賴的信息未被隱藏狀態(tài)完全捕獲。
在提出的模型中焰情,雙向RNN(BiRNN)沿正向和反向讀取源序列陌凳。我們將LSTM單元用作基本RNN單元。插槽標(biāo)簽依賴關(guān)系在前向RNN中建模内舟。類似于上述編碼器-解碼器體系結(jié)構(gòu)中的編碼器模塊合敦,每個步驟的隱藏狀態(tài)是前向狀態(tài)和后向狀態(tài)的串聯(lián),充岛。每個隱藏狀態(tài)都包含整個輸入單詞序列的信息,并在步驟著重關(guān)注單詞周圍的部分耕蝉。然后將此隱藏狀態(tài)與上下文向量組合以產(chǎn)生標(biāo)簽分布崔梗,其中上下文向量計算為RNN隱藏狀態(tài)的加權(quán)平均值蒜魄。
對于意圖檢測和時隙填充的聯(lián)合建模,我們重用了雙向RNN的預(yù)先計算的隱藏狀態(tài)來生成意圖類分布场躯。如果不注意谈为,我們對隱藏狀態(tài)隨時間應(yīng)用最大池化
,然后進行邏輯回歸以進行意圖分類踢关。如果啟用了注意力伞鲫,我們將取隱藏狀態(tài)隨時間的加權(quán)平均值。
與利用顯式對齊輸入的基于注意力的編碼器/解碼器模型相比签舞,基于注意力的RNN模型具有更高的計算效率秕脓。在模型訓(xùn)練期間,編碼器-解碼器插槽填充模型兩次讀取輸入序列儒搭,而基于注意力的RNN模型只讀取一次輸入序列撒会。
6. 實驗
6.1 Data
ATIS(航空公司旅行信息系統(tǒng))數(shù)據(jù)集被廣泛用于SLU研究中。數(shù)據(jù)集包含預(yù)訂航班的人員的錄音师妙。在這項工作中诵肛,我們遵循中使用的ATIS 語料設(shè)置。訓(xùn)練集包含來自ATIS-2和ATIS-3語料庫的4978語音默穴,而測試集包含來自ATIS-3 NOV93和DEC94數(shù)據(jù)集的893語音怔檩。共有127個不同的插槽標(biāo)簽和18個不同的意圖類型。我們使用F1分?jǐn)?shù)評估系統(tǒng)在插槽填充方面的性能蓄诽,并使用分類錯誤率評估意圖檢測的性能薛训。
我們獲得了用于SLU評估的另一個ATIS文本語料庫。該語料庫包含5138話語仑氛,并標(biāo)注了意圖和插槽標(biāo)簽乙埃≌⒂ⅲ總共有110種不同的插槽標(biāo)簽和21種意圖類型。我們使用10倍交叉驗證設(shè)置介袜。
6.2 Training Procedure
LSTM單元用作實驗中的基本RNN單元甫何。給定數(shù)據(jù)集的大小,我們將LSTM單元的單位數(shù)設(shè)置為128遇伞。默認(rèn)的遺忘門偏置設(shè)置為1辙喂。我們在提出的模型中僅使用LSTM的一層,而通過堆疊LSTM層的更深層模型將在以后的工作中進行探索鸠珠。
大小為128的單詞嵌入在批量大小為16的小批量訓(xùn)練過程中被隨機初始化和微調(diào)巍耗。在模型訓(xùn)練過程中,對非經(jīng)常性連接應(yīng)用Dropout 為0.5渐排,以進行正則化炬太。梯度裁剪的最大范數(shù)設(shè)置為5。
6.3 Independent Training Model Results:Slot Filling
我們首先在獨立的任務(wù)訓(xùn)練模型上報告結(jié)果驯耻。表1顯示了使用我們提出的架構(gòu)的插槽填充F1分?jǐn)?shù)娄琉。表2將我們建議的插槽填充模型性能與先前報告的結(jié)果進行了比較。
在表1中吓歇,第一組結(jié)果是針對5.1節(jié)中描述的編碼器-解碼器模型的變化。不足為奇的是票腰,沒有利用顯式對齊信息的純基于關(guān)注的槽位填充模型的效果很差城看。
讓模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)對準(zhǔn)似乎不適用于插槽填充任務(wù)。第2行和第3行顯示了利用對齊輸入的非注意力和基于注意力的編碼-解碼器模型的F1分?jǐn)?shù)杏慰。
在平均和最佳分?jǐn)?shù)上测柠,基于注意力的模型給出的F1得分要比基于非注意力模型的F1得分略好。通過調(diào)查模型學(xué)習(xí)到的注意力缘滥,我們發(fā)現(xiàn)注意力權(quán)重更有可能在源序列中的各個單詞之間平均分配轰胁。在少數(shù)情況下,我們會觀察到解碼器對輸入序列的關(guān)注(圖4)朝扼,這可能部分解釋了啟用注意力后所觀察到的性能提升赃阀。
表1中的第二組結(jié)果是針對3.2節(jié)中描述的雙向RNN模型的。與之前的結(jié)果類似擎颖,我們在使用注意力的模型上觀察到F1分?jǐn)?shù)略有提高榛斯。上下文向量對時隙填充的貢獻不是很明顯。似乎對于這種級別的序列長度(此ATIS語料庫的平均句子長度為11)搂捧,雙向RNN產(chǎn)生的隱藏狀態(tài)能夠編碼制作該時隙所需的大多數(shù)信息用于標(biāo)簽預(yù)測驮俗。
表2將我們的槽位填充模型與以前的方法進行了比較。我們兩種模型架構(gòu)的結(jié)果均優(yōu)于先前報告的最佳F1分?jǐn)?shù)允跑。
6.4 Independent Training Model Results:Intent Detection
表3比較了我們的意圖模型和先前方法之間的意圖分類錯誤率王凑。我們提出的模型的意向錯誤率大大優(yōu)于最新結(jié)果搪柑。基于注意力的編解碼器意圖模型改進了雙向RNN模型索烹。這可能歸因于從編碼器傳遞的序列級別信息以及解碼器RNN中的非線性附加層工碾。
6.5 Joint Model Results
表4顯示了我們與先前報告的結(jié)果相比,在意圖檢測和插槽填充方面的聯(lián)合訓(xùn)練模型性能术荤。
為了進一步驗證我們的聯(lián)合訓(xùn)練模型的性能倚喂,我們將提出的模型應(yīng)用于其他ATIS數(shù)據(jù)集,并通過10倍交叉驗證對它們進行評估瓣戚。編碼器-解碼器和基于注意力的RNN方法均取得了可喜的結(jié)果端圈。
7. 重點論文
- P. Haffner, G. Tur, and J. H. Wright, “Optimizing svms for complex call classification,” in Acoustics, Speech, and Signal Process- ing, 2003. Proceedings.(ICASSP’03). 2003 IEEE International Conference on, vol. 1. IEEE, 2003, pp. I–632.
- R. Sarikaya, G. E. Hinton, and B. Ramabhadran, “Deep belief nets for natural language call-routing,” in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. IEEE, 2011, pp. 5680–5683.
- A. McCallum, D. Freitag, and F. C. Pereira, “Maximum entropy markov models for information extraction and segmentation.” in ICML, vol. 17, 2000, pp. 591–598.
- C. Raymond and G. Riccardi, “Generative and discriminative algorithms for spoken language understanding.” in INTERSPEECH, 2007, pp. 1605–1608.
- I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” in Advances in neural information processing systems, 2014, pp. 3104–3112.
- W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell,” arXiv preprint arXiv:1508.01211, 2015.
- D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014.
- X.Zhang,J.Zhao,andY.LeCun,“Character-levelconvolutional networks for text classification,” in Advances in Neural Informa- tion Processing Systems, 2015, pp. 649–657.
8. 代碼編寫
# 后續(xù)追加代碼分析
參考文獻
- Liu, B., & Lane, I. (2016). Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling. Interspeech.