利用詞嵌入和長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)的行動(dòng)性和政治性文本分類(lèi)(論文讀書(shū)筆記)

Actionable and Political Text Classification using Word Embeddings and LSTM

Rao A, Spasojevic N. Actionable and Political Text Classification using Word Embeddings and LSTM[J]. arXiv preprint arXiv:1607.02501, 2016.

關(guān)鍵詞

文本分類(lèi);社交媒體愉豺;深度學(xué)習(xí)昭殉;神經(jīng)網(wǎng)絡(luò)贝奇;LSTM模型绣版;可行動(dòng)性吻贿;政治


目標(biāo)問(wèn)題

在文本分類(lèi)領(lǐng)域撤奸,大量的研究是關(guān)于情感挖掘問(wèn)題啸驯,而其他形式的文本分類(lèi)則研究得相對(duì)較少。在一部分應(yīng)用場(chǎng)景下英上,只獲取文本的情感分類(lèi)不足以提供充分的信息來(lái)滿足應(yīng)用需求炭序。論文考慮使用基于應(yīng)用上下文標(biāo)準(zhǔn)的文本分類(lèi)。其中應(yīng)用的技術(shù)包括:詞嵌入和長(zhǎng)短期記憶人工神級(jí)網(wǎng)絡(luò)苍日。具體應(yīng)用為文本可行動(dòng)性分類(lèi)政治傾向分類(lèi)惭聂。


論文主要貢獻(xiàn)

詞嵌入已經(jīng)被證明是文本語(yǔ)義特征提取的有效工具,LSTM網(wǎng)絡(luò)能有效完成與文本序列有關(guān)的任務(wù)相恃。論文將兩者結(jié)合來(lái)解決基于上下文的文本分類(lèi)問(wèn)題辜纲。


方法與模型

預(yù)處理

輸入的信息被分詞(tokenized)后作為神經(jīng)網(wǎng)絡(luò)的輸入。每一個(gè)詞例(token)的詞頻作為其索引。詞頻排名前V的詞例組成詞匯庫(kù)侨歉。每一條信息可以被轉(zhuǎn)化為詞頻索引序列屋摇。論文選擇一個(gè)最大允許長(zhǎng)度作為每一個(gè)索引序列的固定長(zhǎng)度揩魂,如果索引序列實(shí)際長(zhǎng)度小于最大允許長(zhǎng)度幽邓,用數(shù)字0補(bǔ)充多余的索引。

神經(jīng)網(wǎng)絡(luò)架構(gòu)

遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks火脉,RNNs) 是神經(jīng)網(wǎng)絡(luò)的一類(lèi)牵舵。與傳統(tǒng)升降網(wǎng)絡(luò)不同的是,RNNs使用一種具有內(nèi)部狀態(tài)倦挂、能保存前向事件信息的單元(unit)畸颅,因此非常適用于需要處理連續(xù)信息的場(chǎng)合,比如文本處理方援。

傳統(tǒng)的RNNs不能保存長(zhǎng)期依賴(lài)關(guān)系没炒,長(zhǎng)短期記憶(Long Short Term Memory ,LSTM)神經(jīng)網(wǎng)絡(luò)則能避免這個(gè)問(wèn)題犯戏。

論文使用的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用了詞嵌入和LSTM單元實(shí)現(xiàn)基于上下文的文本分類(lèi)送火,具體的神經(jīng)網(wǎng)絡(luò)層次結(jié)構(gòu)如下:



嵌入層

網(wǎng)絡(luò)的第一層是嵌入層。嵌入層的目的是建立離散詞匯庫(kù)中的詞語(yǔ)到低維向量空間的映射先匪。這種詞匯的分布式表示在建立概念之間的關(guān)系上具有極大優(yōu)勢(shì)种吸。通過(guò)嵌入層,實(shí)現(xiàn)了文本特征的自動(dòng)提取呀非,無(wú)需手動(dòng)定義特征坚俗。

LSTM層

網(wǎng)絡(luò)的第二層是LSTM層。LSTM層由若干個(gè)LSTM單元組成岸裙。一個(gè)LSTM單元相當(dāng)于一個(gè)記憶細(xì)胞猖败,由四部分組成:一個(gè)輸入門(mén),一個(gè)一個(gè)自循環(huán)連接降允,一個(gè)遺忘門(mén)以及一個(gè)輸出門(mén)恩闻。

退出層

退出(Dropout)是神經(jīng)網(wǎng)絡(luò)中避免過(guò)擬合的一種調(diào)節(jié)機(jī)制,通過(guò)隨機(jī)中止部分神經(jīng)單元來(lái)避免共同適應(yīng)拟糕。

充分連接層

充分連接層中判呕,上一層所有的激活都充分連接。這一層用來(lái)學(xué)習(xí)高層次特征間的非線性結(jié)合送滞。

損失層

這一層用來(lái)衡量預(yù)測(cè)結(jié)果和實(shí)際結(jié)果之間的偏差侠草。論文使用二維交叉熵作為損失函數(shù)。


實(shí)驗(yàn)一:可行動(dòng)性預(yù)測(cè)

可行性實(shí)驗(yàn)判斷是將消息劃分為可行動(dòng)的或者非可行動(dòng)的兩類(lèi)犁嗅。

數(shù)據(jù)集

數(shù)據(jù)集來(lái)源于一個(gè)社交媒體平臺(tái)边涕。該平臺(tái)幫助代理代表公司對(duì)顧客來(lái)信進(jìn)行回復(fù)。平臺(tái)整合了多個(gè)社交媒體平臺(tái),包括Twitter功蜓、Facebook园爷、google+、品牌社區(qū)以及在線論壇式撼。

監(jiān)督訓(xùn)練的標(biāo)簽通過(guò)以下方式收集:如果代理對(duì)一條信息進(jìn)行了回復(fù)童社,這條信息則被標(biāo)注為可行動(dòng)的(Actionable),用1作為標(biāo)簽著隆;反之則為非可行動(dòng)性的(Non-Actionable),用0作為標(biāo)簽扰楼。論文使用了從2014.11.1到2015.05.1為期6個(gè)月的數(shù)據(jù),收集了同等數(shù)量的可行動(dòng)數(shù)據(jù)集和非可行動(dòng)性數(shù)據(jù)集美浦。80%的數(shù)據(jù)集用來(lái)訓(xùn)練弦赖,余下的20%用來(lái)測(cè)試。實(shí)驗(yàn)針對(duì)多種語(yǔ)言浦辨,因此每一種語(yǔ)言都包括一組訓(xùn)練集和測(cè)試集蹬竖。實(shí)驗(yàn)還包括一組包含所有語(yǔ)言的數(shù)據(jù)集。數(shù)據(jù)集大小隨語(yǔ)言變化流酬,最小的2.7萬(wàn)條信息(Farsi)到最大的850萬(wàn)條信息(English)币厕。混合語(yǔ)言數(shù)據(jù)集規(guī)模為170萬(wàn)康吵。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果分析

與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)比較劈榨,在Arabic以外的其他語(yǔ)種,論文使用的LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精度上表現(xiàn)更佳晦嵌。具體結(jié)果見(jiàn)下表:

模型建立中的一個(gè)參數(shù)變量是詞表規(guī)模同辣,記作V。如table 1所示惭载,實(shí)驗(yàn)選取了V的兩個(gè)值旱函,20,000和100,000。從整體實(shí)驗(yàn)結(jié)果來(lái)看描滔,兩個(gè)詞表的測(cè)試集精度相差不大棒妨。這表明較小的數(shù)據(jù)集同樣能有效預(yù)測(cè)消息的可行動(dòng)性,并且模型訓(xùn)練時(shí)間開(kāi)銷(xiāo)更小含长。


實(shí)驗(yàn)二:政治傾向預(yù)測(cè)

第二個(gè)文本分類(lèi)任務(wù)是判斷與美國(guó)政治相關(guān)的政治傾向券腔。根據(jù)消息中表現(xiàn)出的觀點(diǎn),將消息分為民主黨或者共和黨拘泞。

數(shù)據(jù)集

數(shù)據(jù)收取方式:根據(jù)twitter上其他用戶創(chuàng)建的twitter 名單纷纫,選取Twitter上政治傾向明確的用戶。收集這些用戶從2015.10.12到2016.1.12為期三個(gè)月發(fā)布的信息陪腌。如果是民主黨辱魁,則標(biāo)記為0烟瞧,如果是共和黨則標(biāo)記為1。訓(xùn)練集和測(cè)試集的比例為8:2染簇,規(guī)模分別為336,000和84,000参滴。

訓(xùn)練與評(píng)估

使用與第一個(gè)實(shí)驗(yàn)相同的神將網(wǎng)絡(luò)模型(嵌入層和LSTM層各有128個(gè)單元),得到的結(jié)果為:訓(xùn)練集的精度為88.82%锻弓,測(cè)試集的精度為87.57%砾赔。

模型參數(shù)對(duì)訓(xùn)練結(jié)果的影響

嵌入層、LSTM層的單元數(shù)變化對(duì)模型精度的影響參考Figure 2弥咪。Figure 2(a)顯示當(dāng)LSTM為固定64個(gè)單元時(shí)过蹂,模型精度隨嵌入層單元數(shù)量的變化情況;Figure 2(b)顯示當(dāng)嵌入層為固定128個(gè)單元時(shí)聚至,模型精度隨LSTM單元數(shù)量的變化情況;Figure 3(b)顯示當(dāng)LSTM層和嵌入層單元數(shù)量同時(shí)增長(zhǎng)時(shí)本橙,模型精度的變化情況扳躬。

優(yōu)化器(optimizers):Adam優(yōu)化器精度最高,為87.57%甚亭;其次是Adagrad贷币,為87.12%;RM-Sprop,87.06%

批規(guī)模(batch size):較小的批規(guī)模會(huì)使模型精度稍微提高,但較大的批則使模型收斂的更快亏狰。實(shí)驗(yàn)結(jié)果表明役纹,當(dāng)批大小為64時(shí),模型精度達(dá)到87.57%暇唾,并且相對(duì)收斂較快促脉。

激活函數(shù)(activation):使用sigmoid激活函數(shù)比tanh函數(shù)在準(zhǔn)確度上提高了0.5%。

從Figure2可以看出策州,模型精度隨著LSTM層和嵌入層單元數(shù)量增加呈現(xiàn)增長(zhǎng)趨勢(shì)瘸味,但是關(guān)于參數(shù)如何選擇仍然是一個(gè)開(kāi)放問(wèn)題。但Figure2表明够挂,隨著參數(shù)變化旁仿,模型精度在一個(gè)較小的區(qū)間浮動(dòng),變化總體相對(duì)較小孽糖。另外枯冈,使用規(guī)模較小的網(wǎng)絡(luò)在訓(xùn)練時(shí)間和內(nèi)存限制上存在優(yōu)勢(shì)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末办悟,一起剝皮案震驚了整個(gè)濱河市尘奏,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌誉尖,老刑警劉巖罪既,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡琢感,警方通過(guò)查閱死者的電腦和手機(jī)丢间,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)驹针,“玉大人烘挫,你說(shuō)我怎么就攤上這事〖砩” “怎么了饮六?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)苛蒲。 經(jīng)常有香客問(wèn)我卤橄,道長(zhǎng),這世上最難降的妖魔是什么臂外? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任窟扑,我火速辦了婚禮,結(jié)果婚禮上漏健,老公的妹妹穿的比我還像新娘嚎货。我一直安慰自己,他們只是感情好蔫浆,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布殖属。 她就那樣靜靜地躺著,像睡著了一般瓦盛。 火紅的嫁衣襯著肌膚如雪洗显。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天谭溉,我揣著相機(jī)與錄音墙懂,去河邊找鬼。 笑死扮念,一個(gè)胖子當(dāng)著我的面吹牛损搬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播柜与,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼巧勤,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了弄匕?” 一聲冷哼從身側(cè)響起颅悉,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎迁匠,沒(méi)想到半個(gè)月后剩瓶,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體驹溃,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年延曙,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了饲宿。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腋妙。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡象颖,死狀恐怖熔吗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情愿卸,我是刑警寧澤灵临,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站趴荸,受9級(jí)特大地震影響儒溉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赊舶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一睁搭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧笼平,春花似錦、人聲如沸舔痪。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)锄码。三九已至夺英,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間滋捶,已是汗流浹背痛悯。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留重窟,地道東北人载萌。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像巡扇,于是被迫代替她去往敵國(guó)和親扭仁。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容