1 前言
在文本分類任務中缀磕,根據(jù)每個樣本對應的標簽數(shù)量,可分為單標簽分類(樣本僅有一個對應標簽)和多元標簽分類(樣本對應的標簽數(shù)量可能一個或多個)释牺。在多元標簽分類任務中才写,根據(jù)標簽的層級關(guān)系:可分為層級性多元標簽分類和平行性多元標簽分類(一般多元標簽分類都默認是平行的)。舉幾個應用例子镀娶,如一部電影可能是“喜劇片”立膛,又是“愛情片”,而這電影的種類標簽是平行的梯码,沒有層級結(jié)構(gòu)宝泵;如一個電視產(chǎn)品,它屬于“大家電”轩娶,也屬于“家用電器”儿奶,而“大家電”標簽是"家用電器"標簽的子類,這產(chǎn)品所屬種類標簽是有層級結(jié)構(gòu)鳄抒,所以該類任務稱為層級性多元標簽分類闯捎。
今天分享一篇關(guān)于層級性多元標簽文本分類的paper, 題目為: HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization椰弊。論文是發(fā)表在2018年CEMNLP會議上,對應的代碼也開源了:https://github.com/ShimShim46/HFT-CNN
2 Introduction
從論文題目理解:作者提出了HFT-CNN模型瓤鼻,該模型主要是解決層級性多元標簽的短文本分類任務秉版,其核心是標簽的層級性,其次是多元標簽和短文本娱仔。HFT是Hierarchical Fine-Tuning縮寫沐飘,其意思就是在學習層級信息的時候游桩,使用fine-tuning這種微調(diào)的技術(shù)牲迫,將上層標簽信息微調(diào)的方式傳到下層標簽的學習中。作者提出該方法的原因是:覺得在處理有結(jié)構(gòu)的多元標簽分類任務上借卧,現(xiàn)有很多模型都是non-hierarchical flat mode盹憎,只是平行化的利用標簽的層級關(guān)系信息,而作者的模型是hierarchical mode铐刘,一個有層級結(jié)構(gòu)的模型陪每。
3 Model
從模型圖上看,的確體現(xiàn)了模型的層級結(jié)構(gòu)镰吵,這是作者的主要創(chuàng)新點檩禾。模型的主要思想是:按照Hierarchical structure(也就是label的層級結(jié)構(gòu))進行一層層來利用CNN來預測學習;
參考模型中標簽的結(jié)構(gòu)疤祭,來說下其樣本訓練學習的思路:
1)輸入的是樣本一段短文本sentence盼产,將sentence轉(zhuǎn)換成詞embedding,文中利用的fastText;
2)接著先訓練樣本的頂層label(A,B)勺馆,具體是在embedding層后加一個卷積層(convoluational layer)戏售,最大池化層(maxpooling layer),全連接層+dropout草穆,最后加個sigmoid層灌灾,用的二元交叉熵(binary cross-entorpy loss)進行A,B標簽預測,這一個CNN分類框架悲柱;
3)在預測下一層標簽時(A1,A2,B1,B2)锋喜,采用的仍是CNN結(jié)構(gòu),只是在embedding layer和convoluational layer不重新生成豌鸡,而是繼承上一層學習的結(jié)果嘿般,然后在這個基礎上進行微調(diào)學習;
4)按照2直颅,3步驟博个,遍歷整個層級標簽;
以上是論文模型的基本思想功偿,我個人的看法是:這個想法是好的盆佣,在embedding layer和convoluational layer進行微調(diào)往堡,理論上是說的通的,因為子類標簽所涵蓋的特征信息應該也屬于父類標簽所涵蓋的特征信息共耍。然后虑灰,這兩類特征信息必須有個差異,如何把這類差異信息有效捕捉出來才是關(guān)鍵痹兜,當然這個也不好衡量穆咐,也是由于深度學習本質(zhì)所決定,不能很好解釋真正起作用的原因字旭。
再從主觀上說对湃,應該決定子類標簽的特征信息更細化些,但這類特征對父類的影響不是很大遗淳;拿前面說的產(chǎn)品電視的例子拍柒,它的父類標簽是“家用電器”,子類標簽是“大家電”屈暗,父類標簽的特征信息應該是家電拆讯,電器類的特征,子類標簽特征應該是加上父類標簽特征养叛,還要有體積大种呐,容量大等特征信息,而這些子類差異化的特征信息是對父類標簽影響很小的弃甥。
然后爽室,我再想:若以父類的特征進行初始化,理論上是保存了父類特征潘飘,但那些影響子類標簽的差異性特征能學到嗎肮之,可能在父類標簽學習的過程中就過濾掉或者弱化掉了這些差異性特征。不過這些僅是我的個人思考卜录,讀者可以結(jié)合自己的理解和實踐去判斷戈擒。
4 Experiment
接著說說論文的實驗部分,實驗數(shù)據(jù)集用了兩個公開的多標簽分類任務的數(shù)據(jù)集:RCV1 and Amazon670K艰毒;
表中顯示為兩個數(shù)據(jù)集的數(shù)據(jù)情況筐高,其中#L代表標簽的層級深度,Tr與Te訓練和測試數(shù)據(jù)量丑瞧,C是標簽的總體數(shù)量柑土;
在實驗對比中,作者主要對比是XML-CNN绊汹,這個方法是針對標簽數(shù)量特別大的多元標簽分類任務稽屏,它沒有考慮標簽的層級性,但在這類任務中西乖,它是作者實驗前表現(xiàn)最好的模型狐榔;在實驗評價中坛增,用了F1值,此外使用信息檢索領(lǐng)域的P@k和NDCG@k兩個評價指標薄腻;下圖是模型的一些超參數(shù)和試驗結(jié)果收捣,可以看看。
5 結(jié)語
因為我一直對多元標簽分類任務很感興趣庵楷,這方面也看了不少paper和代碼罢艾;本篇論文給我的啟發(fā)就是:標簽層級化微調(diào)思路是好的,值得可以深入研究尽纽。但是也存在一些問題咐蚯,一個問題就是我剛才說的關(guān)于差異性特征抽取,另一個就是蜓斧,按照作者這種遍歷遞進思路仓蛆,本來多元標簽數(shù)量就特別多睁冬,層級也比較高挎春,則模型會變得異常復雜,訓練的速度也是很慢豆拨。