《Unsupervised Word and Dependency Path Embeddings for Aspect Term Extraction》閱讀筆記

文章來源：IJCAI-16

based on unsupervised learning of distributed representations of words and dependency paths.

基本idea：在依存空間中，通過依存路徑連接兩個詞

在低維空間優(yōu)化了w1+r約等于w2，而多條依存路徑被當做a sequence of grammatical relations and modeled by a recurrent neural network《Э鳎考慮線性上下文和依存上下文信息的embedding features百新，基于CRF的aspect term extraction悲雳。

結(jié)果：1) 在單embedding features的情況下，有好的結(jié)果 2) 在word yields增加句法信息(syntactic information)有更好的表現(xiàn)阻逮。

主流的方法：1) The unsupervised(or rule based) methods rely on a set of manually defined opinion words as seeds and rules derived from syntactic parsing trees to iteratively extract aspect terms. 無監(jiān)督方法容诬，依賴手動定義的opinion詞和通過句法樹學習的規(guī)則。 2）The supervised methods將ATE問題看做a sequence labeling problem沿腰，并且conditional random field(CRF)是主流的方法览徒。

representation learning：1) word embeddings 2) structured embeddings of knowledge bases

本文： focus on representation learning for aspect term extraction under an unsupervised framework. 通過學習distributed representations of words and dependency paths from the text corpus.?

The learned embeddings of words and dependency paths are utilized as features in CRF for aspect term extraction.

問題：The embeddings are real values that are not necessarily in a bounded range.

本文：首先map the continuous embeddings into the discrete embeddings and make them more appropriate for the CRF model.將連續(xù)的embeddings map到分離的embeddings。然后颂龙，構(gòu)建embeddings features包括the target word embeddings习蓬，線性上下文embedding和dependency context embedding for aspect term extraction。

Related Work：

無監(jiān)督學習：關聯(lián)規(guī)則挖掘association rule mining措嵌，除此之外躲叼，使用opinion words來提取不頻繁的aspect terms。 dependency relation is used as crucial clue企巢，double propagation method雙傳輸方法可以迭代的提取aspect terms和opinion words枫慷。

監(jiān)督學習：主流方法還是CRF。Li et al.[2010]提出了一個新的在CRF上的機器學習框架浪规，結(jié)合extract positive opinion words或听，negative opinion words和Aspect terms。

dependency paths：包含豐富的詞語間的語言信息

本文：learn the semantic composition of dependency paths over dependency trees.

Method：

首先從dependency trees提取triple(w1, w2, r)笋婿，w1和w2是兩個詞誉裆，the corresponding dependency path r是從w1到w2的最短路徑并且包括a sequence of grammatical relations.

We notice that considering the lexicalized dependency paths can provide more information for the embedding learning.但是，需要記住更多的dependency path frequencies for the learning method(負采樣)缸濒。dependency paths是（考慮n-hop dependency paths）

|Vword|是words集的個數(shù)足丢，大于十萬個，Vdep是語法關系集庇配，|Vdep|大約是50

損失函數(shù)：

損失函數(shù)

C1表示從dependency trees提取的三元組斩跌，dependency trees從text corpus提取，r是a sequence of grammatical relations讨永，(g1, g2, ..., gn)滔驶，n是r的hop number，gi是r中第i個語法關系卿闹，并且p(r)是r的邊緣分布揭糕。損失函數(shù)確保三元組(w1, w2, r)有更高的排序分數(shù)萝快，比隨機挑選的三元組(w1, w2, r')。ranking score衡量：inner product of vector r/r' 和 vector w2-w1著角。

讓Recurrent neural network學習the compositional representations(組合表示) for multi-hop dependency paths. 組合運算通過矩陣W實現(xiàn)：

f是一個hard hyperbolic tangent function(hTanh)揪漩， [a;b]是一個兩個向量的連接，gi是gi的embedding吏口。設置h1=g1然后迭代composition operation得到最后的r=hn奄容。hop number是小于等于3的，因為設置更大會很費時間产徊。

Multi-task learning with linear context：

線性上下文昂勒，基于distributional hypothesis分布假設，假設在相似上下文的詞有相似的意義舟铜。inspired by Skip-gram戈盈，enhance word embeddings 通過最大化prediction accuracy of context word c that occurs in the linear context of a target word w。每個詞有兩種角色谆刨，the target word and the context word of other target words.

模型訓練：

負采樣用于訓練embedding model

Aspect Term Extraction with Embeddings：

CRF

最后編輯于：2017.12.10 16:46:23

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末塘娶，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子痊夭，更是在濱河造成了極大的恐慌刁岸，老刑警劉巖，帶你破解...
沈念sama閱讀 212,686評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件她我，死亡現(xiàn)場離奇詭異虹曙，居然都是意外死亡，警方通過查閱死者的電腦和手機鸦难，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,668評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門根吁，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人合蔽，你說我怎么就攤上這事击敌。” “怎么了拴事？”我有些...
開封第一講書人閱讀 158,160評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵沃斤，是天一觀的道長。經(jīng)常有香客問我刃宵，道長衡瓶，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,736評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任牲证，我火速辦了婚禮哮针，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己十厢，他們只是感情好等太，可當我...
茶點故事閱讀 65,847評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蛮放，像睡著了一般缩抡。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上包颁，一...
開封第一講書人閱讀 50,043評論 1贊 291
城市分裂傳說
那天瞻想，我揣著相機與錄音，去河邊找鬼娩嚼。笑死蘑险，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的岳悟。我是一名探鬼主播漠其，決...
沈念sama閱讀 39,129評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼竿音！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起拴驮，我...
開封第一講書人閱讀 37,872評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤春瞬，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后套啤，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宽气，經(jīng)...
沈念sama閱讀 44,318評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,645評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年潜沦，在試婚紗的時候發(fā)現(xiàn)自己被綠了萄涯。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,777評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡唆鸡，死狀恐怖涝影，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情争占，我是刑警寧澤燃逻，帶...
沈念sama閱讀 34,470評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站臂痕，受9級特大地震影響伯襟，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜握童，卻給世界環(huán)境...
茶點故事閱讀 40,126評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一姆怪、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦稽揭、人聲如沸俺附。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,861評論 0贊 21
一樁弒父案淀衣，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽昙读。三九已至，卻和暖如春膨桥，著一層夾襖步出監(jiān)牢的瞬間蛮浑，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,095評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工只嚣，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留沮稚，地道東北人。一個月前我還...
沈念sama閱讀 46,589評論 2贊 362
代替公主和親
正文我出身青樓册舞，卻偏偏與公主長得像蕴掏，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子调鲸，可洞房花燭夜當晚...
茶點故事閱讀 43,687評論 2贊 351

《Unsupervised Word and Dependency Path Embeddings for Aspect Term Extraction》閱讀筆記

推薦閱讀更多精彩內(nèi)容