摘要:
基于方面(方面級(jí))的情感分析是在細(xì)粒度情感分析中非常重要的子任務(wù)源哩,旨在自動(dòng)推斷出某一方面在其上下文中的情緒稽物。之前的研究已經(jīng)表明奄毡,利用注意力為基礎(chǔ)的方法可以有效地提高基于方面的情感分析的精度。盡管有了卓越的進(jìn)步,基于方面的情緒分析現(xiàn)實(shí)中幾個(gè)方面
挑戰(zhàn)贝或。
(1)目前基于注意力的方法可能會(huì)導(dǎo)致某一方面的注意力不正確地集中在與句法無關(guān)的詞上吼过。
(2)傳統(tǒng)的方法無法將情感與特殊的句子結(jié)構(gòu)區(qū)分開來,如雙重否定咪奖。
(3)大多數(shù)研究只利用一個(gè)向量來表示上下文和目標(biāo)盗忱。然而,利用一個(gè)向量來表示句子是有限的羊赵,因?yàn)樽匀徽Z言是精致和復(fù)雜的趟佃。
然而,利用一個(gè)向量來表示句子是有限的昧捷,因?yàn)樽匀徽Z言是微妙而復(fù)雜的闲昭。在本文中,我們提出了一種知識(shí)導(dǎo)向膠囊網(wǎng)絡(luò)(KGCapsAN)靡挥,可以解決上述問題的缺陷序矩。我們的方法由兩部分組成,即Bi-LSTM網(wǎng)絡(luò)和膠囊關(guān)注網(wǎng)絡(luò)跋破。膠囊關(guān)注網(wǎng)絡(luò)通過關(guān)注機(jī)制實(shí)現(xiàn)路由方式簸淀。此外 ,我們利用兩個(gè)先驗(yàn)知識(shí)來指導(dǎo)膠囊注意過程幔烛,即句法結(jié)構(gòu)和n-gram結(jié)構(gòu)啃擦。廣泛的實(shí)驗(yàn)了六個(gè)數(shù)據(jù)集,結(jié)果表明,該方法達(dá)到了最好標(biāo)準(zhǔn)
1.介紹
基于方面情感分析(Aspect-based sentiment analysis, ABSA)是一個(gè)細(xì)粒度的情緒分析任務(wù)饿悬。它旨在識(shí)別句子或文件中意見目標(biāo)的情感極性(例如令蛉,陰性,中性狡恬,或陽性)珠叔。大多數(shù)句子或文檔來自在線帖子,比如亞馬遜評(píng)論或Twitter弟劲。最近幾年ABSA越來越受歡迎祷安,它在現(xiàn)實(shí)世界中有著廣泛的應(yīng)用。例如兔乞,它可以幫助提高洞察力在消費(fèi)者的需求或他們的產(chǎn)品經(jīng)驗(yàn)汇鞭,引導(dǎo)生產(chǎn)者改進(jìn)他們的產(chǎn)品凉唐。
基于方面的情感分析可以被分類成兩個(gè)子任務(wù),分別是ACSA(方面目錄情感分析),ATSA(方面術(shù)語情感分析)霍骄。ACSA目標(biāo)是識(shí)別給定方面的情感極性台囱,通常是一些已經(jīng)定義好的目錄,然而ATSA是預(yù)測(cè)在文本中出現(xiàn)的方面術(shù)語的情感極性读整,可以是一個(gè)詞或者短語簿训。舉例來說:“The food price is reasonable although the service is poor”表達(dá)了食品價(jià)格方面的積極情感和服務(wù)方面的消極情感。作為方面術(shù)語使用的不同單詞的數(shù)量可能超過1000個(gè)米间,這帶來了更多的挑戰(zhàn)强品。在這里,我們集中在ATSA在這篇論文屈糊。
現(xiàn)有的ATSA方法可以分為兩類的榛。傳統(tǒng)方法主要利用統(tǒng)計(jì)方法通過設(shè)計(jì)一系列手工特征去訓(xùn)練一個(gè)分類器來分類不同方面的情感,如SVM逻锐。但是困曙,大量的手工制作的特征的準(zhǔn)備是勞動(dòng)密集和成本昂貴的。受最近深度學(xué)習(xí)在自然語言處理中的性能突破的啟發(fā)谦去,深度神經(jīng)網(wǎng)絡(luò)(比如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN))在文獻(xiàn)中占據(jù)了主導(dǎo)地位。這是因?yàn)檫@些方法可以自動(dòng)生成方面和上下文有用的低維并且達(dá)到顯著的效果蹦哼,不需要細(xì)心特性工程鳄哭。最近,一些研究試圖使用基于深度學(xué)習(xí)方法來進(jìn)行ATSA問題處理纲熏。
盡管前期有效的研究妆丘,將他們應(yīng)用到實(shí)際生活中還是存在一些挑戰(zhàn):
(1)目前的注意力機(jī)制可能引起一個(gè)給定的方面錯(cuò)誤的關(guān)注在語義不相關(guān)的詞上面
(2)傳統(tǒng)的方法不能很好地處理特殊結(jié)構(gòu)的句子
(3)現(xiàn)有的模型很大程度上依賴于實(shí)例表示的質(zhì)量。傳統(tǒng)的方法主要用向量表示上下文和方面局劲。例如勺拣,一些研究利用方面術(shù)語作為查詢來使用上下文的注意方法來獲取表示向量。然而鱼填,利用一個(gè)向量來表示實(shí)例是有限的药有,因?yàn)樽匀徽Z言是精致和復(fù)雜的。
在這個(gè)文章中苹丸。我們提出來另一個(gè)只是引導(dǎo)膠囊注意力網(wǎng)絡(luò)愤惰,我們的模型靈感來源于先驗(yàn)知識(shí)比如語義知識(shí)可以幫助我們識(shí)別出方面詞語義相關(guān)的知識(shí)以及理解特殊的句子結(jié)構(gòu),在圖一中我們觀察到語義知識(shí)可以幫助我們識(shí)別出面向方面詞情感相關(guān)的詞赘理。在KGCapsAN中宦言,我們首先提出用bi-lstm網(wǎng)絡(luò)來給文本建模,然后商模,我們發(fā)展出膠囊注意力網(wǎng)絡(luò)來提升句子和方面的表達(dá)奠旺、膠囊網(wǎng)絡(luò)提出用于建模低層網(wǎng)絡(luò)和高層網(wǎng)絡(luò)之間的部分與整體關(guān)系蜘澜。CapsNet利用動(dòng)態(tài)路由機(jī)制傳輸信息,通過迭代更新上下兩層膠囊之間的耦合系數(shù)响疚。它的目的是通過控制自循環(huán)的數(shù)量來擴(kuò)展多跳注意機(jī)制鄙信,實(shí)現(xiàn)單注意層的多步注意。
CAN利用了動(dòng)態(tài)路由的想法稽寒,把bilstm獲得的隱藏層狀態(tài)看作是低層膠囊扮碧。CANcap擴(kuò)展了傳統(tǒng)的多跳注意機(jī)制,將句法杏糙、句子結(jié)構(gòu)等高級(jí)信息作為注意查詢慎王,以指導(dǎo)注意過程,提高ATSA的性能宏侍。具體來說赖淤,第一個(gè)部分目的是利用語義知識(shí)。我們將每句話的依存樹送入送入來獲得語義關(guān)系谅河;然后我們針對(duì)每個(gè)句子建立一個(gè)小的圖咱旱,節(jié)點(diǎn)和邊表示語義關(guān)系;之后GCN被用來學(xué)習(xí)圖的表達(dá)绷耍,它是一種有效的基于圖的神經(jīng)網(wǎng)絡(luò)吐限,通過捕獲高階鄰域信息來實(shí)現(xiàn)圖的表示,從而捕獲語法上相關(guān)的詞褂始。第二部分設(shè)計(jì)來捕獲特殊情感短語诸典。為此,我們開發(fā)了一個(gè)基于cnn的局部n-gram層崎苗,它可以利用信息性詞(1-gram)或短語(n-gram)作為第二次部分來引導(dǎo)注意機(jī)制狐粱。
這篇論文的主要貢獻(xiàn)點(diǎn)可以被歸納為以下幾點(diǎn):
我們提出KGCAPSAN一個(gè)對(duì)于ATSA任務(wù)全新的框架,利用注意力機(jī)制來模擬膠囊網(wǎng)絡(luò)胆数,KGCapsAN利用多重查詢來指導(dǎo)注意過程肌蜻,并為輸出的膠囊提供更多的信息,有效地提高了情緒分類必尼。
我們提出多知識(shí)引導(dǎo)基于注意力的膠囊來指引注意力的過程蒋搜,利用帶有n-gram的句法和情感作為先驗(yàn)知識(shí),學(xué)習(xí)句法感知和局部n-gram感知表示胰伍。
為了評(píng)估我們的方法的有效性齿诞,我們?cè)谖鍌€(gè)廣泛使用的數(shù)據(jù)及上進(jìn)行了大量實(shí)驗(yàn)。甚至我們收集了特別的特殊句子結(jié)構(gòu)的數(shù)據(jù)(SPATSA)比如條件句和虛擬語氣ATSA骂租。實(shí)驗(yàn)結(jié)果表明我們提出的CAN模型可以更好地利用語義信息來提高文本表達(dá)祷杈。這因此使我們的模型更好的適應(yīng)ATSA復(fù)雜的句子結(jié)構(gòu)。這個(gè)結(jié)果同時(shí)證明我們的模型達(dá)到了SOTA
2相關(guān)工作
A方面層級(jí)情感分析
之前在情感分類方面的研究已近實(shí)現(xiàn)了可觀的結(jié)果在句子級(jí)或者文檔級(jí)渗饮。然而但汞,這些方法通常產(chǎn)生完整文本的情感分類宿刮,與方面無關(guān)
最近ABSA吸引了更多的注意力,更多的方法被發(fā)展出來私蕾。這些方法可以被分類為傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于神經(jīng)網(wǎng)絡(luò)的方法僵缺。傳統(tǒng)的機(jī)器學(xué)習(xí)方法關(guān)注在抽取一系列手工定義的特征比如情感詞來訓(xùn)練基于情感統(tǒng)計(jì)的分類器。然而類似的方法很大的依賴于人工構(gòu)建的特征這是非常昂貴并且人工密集的踩叭。
在基于注意力的深度神經(jīng)網(wǎng)絡(luò)顯著進(jìn)步的驅(qū)動(dòng)下磕潮,許多研究情感分類的放大都被發(fā)展起來。例如容贝,Tang開發(fā)了一個(gè)記憶網(wǎng)絡(luò)自脯,利用多跳注意機(jī)制來學(xué)習(xí)上下文詞的權(quán)重,并使用加權(quán)和來計(jì)算特定方面的文本表示斤富。Tang提出TD-LSTM擴(kuò)展標(biāo)準(zhǔn)結(jié)構(gòu)膏潮,使用兩個(gè)獨(dú)立的lstm分別對(duì)目標(biāo)詞的左上下文和右上下文建模。Li利用分層注意網(wǎng)絡(luò)識(shí)別對(duì)目標(biāo)的信息性情感詞來指導(dǎo)分類器满力。馬提出了用兩種注意網(wǎng)絡(luò)交互地學(xué)習(xí)目標(biāo)和上下文的表示焕参。
B基于注意力的膠囊網(wǎng)絡(luò)
膠囊網(wǎng)絡(luò)第一次被hinton提出,他介紹了一個(gè)膠囊的概念油额,通過轉(zhuǎn)移矩陣來讓網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)整體與部分的關(guān)系叠纷。
隨后,Sabour提出了一種基于路由的膠囊網(wǎng)絡(luò)方法潦嘶。每個(gè)膠囊是神經(jīng)元的集合讲岁,代表一個(gè)特定特征的各種屬性。這些屬性表示不同的實(shí)例化參數(shù)衬以,比如相對(duì)位置。因此校摩,膠囊網(wǎng)絡(luò)比傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的文本表示能力看峻。進(jìn)一步的研究擴(kuò)展了基于路由的膠囊網(wǎng)絡(luò)用于自然語言處理的應(yīng)用。
動(dòng)態(tài)路由方法類似于多跳注意方法衙吩,通過自迭代耦合系數(shù)更新將低層膠囊聚合到上層互妓。為了提高運(yùn)算速度和并行能力,一些研究利用注意機(jī)制擴(kuò)展了基于動(dòng)態(tài)路由的膠囊方法坤塞。周介紹了一種基于包的視覺答題注意力方法冯勉,并取得了顯著的效果。膠囊注意采用多跳注意機(jī)制摹芙,將注意權(quán)重表示為耦合系數(shù)灼狰。Wang提出了一種基于rnn的句子級(jí)情緒分析膠囊網(wǎng)絡(luò)。給出一個(gè)由標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)編碼的隱藏向量作為注意力查詢浮禾,利用典型的注意力機(jī)制可以得到膠囊表示交胚。設(shè)計(jì)了方面-目標(biāo)層的膠囊模型份汗,將目標(biāo)信息集成到單個(gè)膠囊單元中,取得了顯著的進(jìn)展蝴簇。Yang等人開發(fā)了一種查詢引導(dǎo)的膠囊網(wǎng)絡(luò)杯活,將膠囊路由機(jī)制集成到多頭注意結(jié)構(gòu)中,在情緒識(shí)別準(zhǔn)確率方面有顯著的性能提升熬词。
C圖神經(jīng)網(wǎng)絡(luò)
最近圖形神經(jīng)網(wǎng)絡(luò)在NLP任務(wù)中得到了越來越多的關(guān)注旁钧。隨著深度的發(fā)展學(xué)習(xí)方法,許多研究已經(jīng)擴(kuò)展了深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可用于任意結(jié)構(gòu)化圖。其中,K和W提出圖卷積網(wǎng)絡(luò)(GCN)互拾。這在許多基準(zhǔn)測(cè)試數(shù)據(jù)集上產(chǎn)生了顯著的結(jié)果歪今。隨后,許多其他研究將GCN擴(kuò)展到各種任務(wù)摩幔,如機(jī)器翻譯和文本分類彤委。最近的研究探索了圖形神經(jīng)網(wǎng)絡(luò)的文本分類。例如,graph-CNN方法提出了將文本轉(zhuǎn)換為圖結(jié)構(gòu)可以捕獲非連續(xù)長(zhǎng)途語義或衡。在[27]中焦影,將文檔和單詞表示為節(jié)點(diǎn),構(gòu)造異構(gòu)圖封断,然后使用GCN進(jìn)行分類斯辰。這種方法不需要文檔之間的關(guān)系,但是它可以實(shí)現(xiàn)最先進(jìn)的文本分類結(jié)果坡疼。
3KGCapsAN 模型
KGCapsAN目的是解決ATSA中基于注意力的傳統(tǒng)方法的不足速兔。其中夷狰,膠囊注意網(wǎng)絡(luò)(CAN)是KGCapsAN的核心組件,它通過基于膠囊的注意機(jī)制實(shí)現(xiàn)了CapsNet結(jié)構(gòu)的動(dòng)態(tài)路由過程。具體來說唤蔗,CAN使用句法知識(shí)和n-gram信息作為查詢來引導(dǎo)注意力,然后將這些知識(shí)與表示向量相結(jié)合沾瓦,增強(qiáng)表示能力朱转。
如圖2所示,KGCapsAN由兩部分組成授翻,即Bi-LSTM網(wǎng)絡(luò)和膠囊注意網(wǎng)絡(luò)或悲,用于提高ATSA的性能。我們將在第三節(jié)中給出任務(wù)定義和模型的概述堪唐。然后巡语,我們?cè)谠敿?xì)描述了Bi-LSTM網(wǎng)絡(luò)和CAN。最后淮菠,訓(xùn)練過程將在第iii節(jié)中討論男公。
A任務(wù)定義
ATSA任務(wù)可以表述如下。給定一個(gè)句子x包含一個(gè)相關(guān)的方面詞,w表示句子中的每個(gè)單詞和m表示方面術(shù)語的長(zhǎng)度合陵。每個(gè)句子都有一個(gè)情緒標(biāo)簽y理澎。ATSA的目的是預(yù)測(cè)輸入句子x對(duì)給定方面術(shù)語的情緒標(biāo)簽逞力。本文用上標(biāo)“c”、“a”分別表示上下文詞和方面詞糠爬。為了清楚起見寇荧,本文中使用的符號(hào)歸納在表1中
B框架概覽
如圖2所示,KGCapsAN包含兩個(gè)主要組件:Bi-LSTM網(wǎng)絡(luò)和膠囊注意網(wǎng)絡(luò)。Bi-LSTM網(wǎng)絡(luò)采用基本Bi-LSTM結(jié)構(gòu)訓(xùn)練文本功能执隧。它包含一個(gè)嵌入層和一個(gè)用于捕獲文本的順序特性的Bi-LSTM層揩抡。CAN包含四層。第一層是句法層镀琉,它使用使用句法依賴樹構(gòu)造的句法圖來獲取句法查詢峦嗤。第二層是局部n-gram層,它使用CNN來捕捉n-gram的信息性特征屋摔。第三層是方面查詢層烁设,利用方面術(shù)語學(xué)習(xí)整個(gè)句子的方面信息。在CAN中钓试,這三層都表示為膠囊注意力層的注意查詢装黑,可以有效的引導(dǎo)注意。
C. Bi-LSTM Network
D. Capsule Attention Network
在迭代路由過程中弓熏,采用傳統(tǒng)的膠囊網(wǎng)絡(luò)捕捉部分-整體關(guān)系恋谭。通過迭代更新耦合系數(shù),將下層的膠囊變換聚合到上層挽鞠,從而將下層的膠囊轉(zhuǎn)移到上層疚颊。每個(gè)膠囊是神經(jīng)元的集合,其中每個(gè)神經(jīng)元表示文本中出現(xiàn)的特殊特性的多個(gè)屬性信认。這些屬性可以是實(shí)例化參數(shù)的種類材义,例如單詞和它在句子中的位置之間的句法關(guān)系。
然而嫁赏,在ATSA中直接使用這種膠囊網(wǎng)絡(luò)存在兩個(gè)缺點(diǎn)母截。首先,膠囊網(wǎng)絡(luò)在推斷情感的同時(shí)橄教,不能專注于方面詞語。其次喘漏,原有的動(dòng)態(tài)路由機(jī)制獨(dú)立于反向傳播階段护蝶,耗時(shí)長(zhǎng),無法并行化翩迈。
為了緩解上述問題持灰,我們提出了CAN,即利用注意機(jī)制來實(shí)現(xiàn)膠囊結(jié)構(gòu)负饲。合理利用,膠囊基礎(chǔ)結(jié)構(gòu)來表示句子,因?yàn)樗梢垣@得更多的信息,而不是只使用一個(gè)向量的傳統(tǒng)基于注意力的方法堤魁。CAN的發(fā)展基于兩個(gè)特點(diǎn):1)使用句法信息可以有效地解決在短時(shí)間或長(zhǎng)時(shí)間內(nèi)不正確地關(guān)注與句法無關(guān)的詞的問題喂链。2) n-gram學(xué)習(xí)能力的提高可以幫助模型準(zhǔn)確理解復(fù)雜的結(jié)構(gòu),如“不錯(cuò)”可以看作是一個(gè)整體妥泉。
接下來椭微,我們將分別介紹每個(gè)組件。
1)句法層:學(xué)習(xí)語法相關(guān)的詞匯語法層向目標(biāo)方面通過依賴樹,廣泛用于NLP的任務(wù),可以有效地識(shí)別單詞之間的關(guān)系盲链。給出一個(gè)句子x蝇率,我們首先建立一個(gè)句法圖(s -圖)來描述這個(gè)句子的句法關(guān)系。s -圖利用這些詞作為節(jié)點(diǎn)刽沾。它根據(jù)句法關(guān)系構(gòu)造加權(quán)邊緣本慕。我們表示A為s圖的鄰接矩陣。在得到句子H∈Rn×d的隱藏狀態(tài)后侧漓,我們將其輸入到一個(gè)雙層GCN中锅尘。
2)局部n-Gram層:對(duì)于ATSA來說,網(wǎng)絡(luò)學(xué)習(xí)感知攜帶n-Gram的特征布蔗,如“不錯(cuò)”是很重要的藤违。因此,我們開發(fā)了一個(gè)n-gram層來提高n-gram特征的學(xué)習(xí)能力何鸡。語法層由兩個(gè)卷積層組成纺弊,通過卷積操作提取輸入序列的n-gram特征。由于這兩個(gè)卷積層共享類似的結(jié)構(gòu)骡男,所以我們只給出其中一個(gè)卷積層的細(xì)節(jié)淆游。令W∈Rk×d為卷積濾波器,其中k為濾波器寬度隔盛。寬度為k的過濾器允許卷積層在輸入序列上滑動(dòng)并獲得新的特征犹菱。我們將zi表示為從該詞的局部窗口獲得的新特征
在這里,濾波器權(quán)值和每個(gè)濾波器的偏置項(xiàng)在輸入的所有位置之間共享吮炕,從而保持空間局部性腊脱。最后,我們將.發(fā)送到第二卷積層龙亲,就可以得到卷積表示z陕凹。我們觀察到,對(duì)于ATSA鳄炉,面向方面的情感詞詞具有位置屬性杜耙,這些詞在方面項(xiàng)周圍出現(xiàn)的范圍很小。為了獲得重要的局部n-gram濾波器拂盯,我們利用方面特定的零掩碼來選擇k-range詞佑女。這是因?yàn)閮蓪泳矸e操作可以將2k面積上的n-gram信息表達(dá)成目標(biāo)方面的表示向量。計(jì)算細(xì)節(jié)如圖4所示。最后团驱,掩碼隱藏向量記為Zmask摸吠。
3)方面查詢層:這一層的目標(biāo)是學(xué)習(xí)特定于方面的查詢,以引起膠囊的注意嚎花。為了更好地將特定于方面的查詢嵌入到CapsAttention層中寸痢,我們還利用了特定于方面的零屏蔽來適應(yīng)維度大小。形式上贩幻,我們將H發(fā)送到掩蔽層轿腺,方面查詢層的輸出可以表示為Hmask
- CapsAttention Layer:為了實(shí)現(xiàn)具有attention機(jī)制的動(dòng)態(tài)路由,我們提出了一種迭代的attention算法丛楚,稱為CapsAttention Layer族壳。圖5給出了一個(gè)示例。CapsAttention layer將Bi-LSTM隱藏狀態(tài)下的每個(gè)向量作為輸入層膠囊趣些,注意力輸出為包含與預(yù)測(cè)相關(guān)信息的輸出膠囊仿荆。這里,輸出膠囊有三個(gè)向量坏平,可以用矩陣形式表示拢操。在CapsAttention層中,我們利用三個(gè)查詢以迭代的方式引導(dǎo)注意力舶替。具體地說令境,在第一次迭代中,我們將三個(gè)查詢V 1s顾瞪、V 1z舔庶、V 1h分別初始化為Smask、Zmask和Hmask陈醒。給定輸入膠囊H∈Rn×d惕橙,耦合系數(shù)矩陣c可計(jì)算為:
4.實(shí)驗(yàn)
A數(shù)據(jù)集
5個(gè):twitter 、lap14&rest14钉跷,rest15弥鹦,rest16,spatsa
B基線模型
SVM爷辙、LSTM彬坏、IAN、MemNet膝晾、AOA栓始、TNet-LF、TransCap玷犹、ASGCN