層級性多元標簽文本分類

1 前言

在文本分類任務中缀磕,根據(jù)每個樣本對應的標簽數(shù)量,可分為單標簽分類(樣本僅有一個對應標簽)和多元標簽分類(樣本對應的標簽數(shù)量可能一個或多個)释牺。在多元標簽分類任務中才写,根據(jù)標簽的層級關(guān)系:可分為層級性多元標簽分類和平行性多元標簽分類(一般多元標簽分類都默認是平行的)。舉幾個應用例子镀娶,如一部電影可能是“喜劇片”立膛,又是“愛情片”,而這電影的種類標簽是平行的梯码,沒有層級結(jié)構(gòu)宝泵;如一個電視產(chǎn)品,它屬于“大家電”轩娶,也屬于“家用電器”儿奶,而“大家電”標簽是"家用電器"標簽的子類,這產(chǎn)品所屬種類標簽是有層級結(jié)構(gòu)鳄抒,所以該類任務稱為層級性多元標簽分類闯捎。

今天分享一篇關(guān)于層級性多元標簽文本分類的paper, 題目為: HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization椰弊。論文是發(fā)表在2018年CEMNLP會議上,對應的代碼也開源了:https://github.com/ShimShim46/HFT-CNN


2 Introduction

從論文題目理解:作者提出了HFT-CNN模型瓤鼻,該模型主要是解決層級性多元標簽的短文本分類任務秉版,其核心是標簽的層級性,其次是多元標簽和短文本娱仔。HFT是Hierarchical Fine-Tuning縮寫沐飘,其意思就是在學習層級信息的時候游桩,使用fine-tuning這種微調(diào)的技術(shù)牲迫,將上層標簽信息微調(diào)的方式傳到下層標簽的學習中。作者提出該方法的原因是:覺得在處理有結(jié)構(gòu)的多元標簽分類任務上借卧,現(xiàn)有很多模型都是non-hierarchical flat mode盹憎,只是平行化的利用標簽的層級關(guān)系信息,而作者的模型是hierarchical mode铐刘,一個有層級結(jié)構(gòu)的模型陪每。


3 Model

HFT-CNN model

從模型圖上看,的確體現(xiàn)了模型的層級結(jié)構(gòu)镰吵,這是作者的主要創(chuàng)新點檩禾。模型的主要思想是:按照Hierarchical structure(也就是label的層級結(jié)構(gòu))進行一層層來利用CNN來預測學習;

參考模型中標簽的結(jié)構(gòu)疤祭,來說下其樣本訓練學習的思路:
1)輸入的是樣本一段短文本sentence盼产,將sentence轉(zhuǎn)換成詞embedding,文中利用的fastText;
2)接著先訓練樣本的頂層label(A,B)勺馆,具體是在embedding層后加一個卷積層(convoluational layer)戏售,最大池化層(maxpooling layer),全連接層+dropout草穆,最后加個sigmoid層灌灾,用的二元交叉熵(binary cross-entorpy loss)進行A,B標簽預測,這一個CNN分類框架悲柱;
3)在預測下一層標簽時(A1,A2,B1,B2)锋喜,采用的仍是CNN結(jié)構(gòu),只是在embedding layer和convoluational layer不重新生成豌鸡,而是繼承上一層學習的結(jié)果嘿般,然后在這個基礎上進行微調(diào)學習;
4)按照2直颅,3步驟博个,遍歷整個層級標簽;

以上是論文模型的基本思想功偿,我個人的看法是:這個想法是好的盆佣,在embedding layer和convoluational layer進行微調(diào)往堡,理論上是說的通的,因為子類標簽所涵蓋的特征信息應該也屬于父類標簽所涵蓋的特征信息共耍。然后虑灰,這兩類特征信息必須有個差異,如何把這類差異信息有效捕捉出來才是關(guān)鍵痹兜,當然這個也不好衡量穆咐,也是由于深度學習本質(zhì)所決定,不能很好解釋真正起作用的原因字旭。

再從主觀上說对湃,應該決定子類標簽的特征信息更細化些,但這類特征對父類的影響不是很大遗淳;拿前面說的產(chǎn)品電視的例子拍柒,它的父類標簽是“家用電器”,子類標簽是“大家電”屈暗,父類標簽的特征信息應該是家電拆讯,電器類的特征,子類標簽特征應該是加上父類標簽特征养叛,還要有體積大种呐,容量大等特征信息,而這些子類差異化的特征信息是對父類標簽影響很小的弃甥。

然后爽室,我再想:若以父類的特征進行初始化,理論上是保存了父類特征潘飘,但那些影響子類標簽的差異性特征能學到嗎肮之,可能在父類標簽學習的過程中就過濾掉或者弱化掉了這些差異性特征。不過這些僅是我的個人思考卜录,讀者可以結(jié)合自己的理解和實踐去判斷戈擒。

4 Experiment

接著說說論文的實驗部分,實驗數(shù)據(jù)集用了兩個公開的多標簽分類任務的數(shù)據(jù)集:RCV1 and Amazon670K艰毒;


數(shù)據(jù)集統(tǒng)計情況

表中顯示為兩個數(shù)據(jù)集的數(shù)據(jù)情況筐高,其中#L代表標簽的層級深度,Tr與Te訓練和測試數(shù)據(jù)量丑瞧,C是標簽的總體數(shù)量柑土;
在實驗對比中,作者主要對比是XML-CNN绊汹,這個方法是針對標簽數(shù)量特別大的多元標簽分類任務稽屏,它沒有考慮標簽的層級性,但在這類任務中西乖,它是作者實驗前表現(xiàn)最好的模型狐榔;在實驗評價中坛增,用了F1值,此外使用信息檢索領(lǐng)域的P@k和NDCG@k兩個評價指標薄腻;下圖是模型的一些超參數(shù)和試驗結(jié)果收捣,可以看看。


超參數(shù)情況

實驗結(jié)果對比

5 結(jié)語

因為我一直對多元標簽分類任務很感興趣庵楷,這方面也看了不少paper和代碼罢艾;本篇論文給我的啟發(fā)就是:標簽層級化微調(diào)思路是好的,值得可以深入研究尽纽。但是也存在一些問題咐蚯,一個問題就是我剛才說的關(guān)于差異性特征抽取,另一個就是蜓斧,按照作者這種遍歷遞進思路仓蛆,本來多元標簽數(shù)量就特別多睁冬,層級也比較高挎春,則模型會變得異常復雜,訓練的速度也是很慢豆拨。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末直奋,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子施禾,更是在濱河造成了極大的恐慌脚线,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件弥搞,死亡現(xiàn)場離奇詭異邮绿,居然都是意外死亡,警方通過查閱死者的電腦和手機攀例,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門船逮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人粤铭,你說我怎么就攤上這事挖胃。” “怎么了梆惯?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵酱鸭,是天一觀的道長。 經(jīng)常有香客問我垛吗,道長凹髓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任怯屉,我火速辦了婚禮蔚舀,結(jié)果婚禮上防泵,老公的妹妹穿的比我還像新娘。我一直安慰自己蝗敢,他們只是感情好捷泞,可當我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著寿谴,像睡著了一般锁右。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上讶泰,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天咏瑟,我揣著相機與錄音,去河邊找鬼痪署。 笑死码泞,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的狼犯。 我是一名探鬼主播余寥,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼悯森!你這毒婦竟也來了宋舷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤瓢姻,失蹤者是張志新(化名)和其女友劉穎祝蝠,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體幻碱,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡绎狭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了褥傍。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片儡嘶。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖摔桦,靈堂內(nèi)的尸體忽然破棺而出社付,到底是詐尸還是另有隱情,我是刑警寧澤邻耕,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布鸥咖,位于F島的核電站,受9級特大地震影響兄世,放射性物質(zhì)發(fā)生泄漏啼辣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一御滩、第九天 我趴在偏房一處隱蔽的房頂上張望鸥拧。 院中可真熱鬧党远,春花似錦、人聲如沸富弦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽腕柜。三九已至济似,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間盏缤,已是汗流浹背砰蠢。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留唉铜,地道東北人台舱。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像潭流,于是被迫代替她去往敵國和親竞惋。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內(nèi)容