NLP文本分類——豆瓣圖書分類實(shí)踐

文章大綱:
1.從0到1分類系統(tǒng)搭建流程介紹
2.相關(guān)技術(shù)背景和知識(shí)原理
3.分類測(cè)評(píng)結(jié)果

前言

有一段時(shí)間沒有重新寫文章了,這次主要寫的內(nèi)容是自己剛?cè)腴T的機(jī)器學(xué)習(xí)領(lǐng)域中的文本分類耐版。起初做這個(gè)的目的是考慮到一個(gè)問(wèn)題辈讶,就是當(dāng)我想去學(xué)習(xí)一個(gè)新的領(lǐng)域的知識(shí)或者嘗試了解一些不同方向的東西時(shí)汹粤,我都需要去尋找這一領(lǐng)域的入門的資料或者書籍(途徑之一旦万,不絕對(duì))棋恼。那我第一的想法就是去詢問(wèn)這一方面的朋友或者網(wǎng)絡(luò)上查找有什么這一塊入門的書籍推薦湘纵。所以想嘗試通過(guò)大數(shù)據(jù)訓(xùn)練的方式來(lái)完成這個(gè)分類和篩選脂崔。

新手入門,如果有技術(shù)上的錯(cuò)誤或者更正的地方梧喷,請(qǐng)多多指教砌左。文章中說(shuō)的大部分模塊都放在了我的Github頁(yè)面上,歡迎各種star和交流脖咐,提出issue等,非常感謝汇歹。

分類系統(tǒng)流程圖

豆瓣圖書分類系統(tǒng)

總結(jié)了一下整個(gè)工作的過(guò)程屁擅,然后用導(dǎo)圖的形式給出來(lái)。

稍微的解釋一下产弹,第一部分我需要去豆瓣上抓取書籍?dāng)?shù)據(jù)派歌,這里我抓取了書籍的基本信息和書籍的評(píng)論(根據(jù)書籍的受歡迎程度不同,有的書幾百條痰哨,有的書有10萬(wàn)條)胶果,這里主要依靠的是免費(fèi)髙匿代理IP框架來(lái)進(jìn)行網(wǎng)絡(luò)請(qǐng)求,因?yàn)槟繕?biāo)網(wǎng)站反爬蟲的原因斤斧,所以需要源源不斷有新鮮的IP血液早抠。針對(duì)豆瓣圖書我已經(jīng)編寫好了爬蟲規(guī)則,同時(shí)對(duì)里面的異常做了處理還有詳細(xì)的日志折欠,感興趣數(shù)據(jù)抓取部分的可以移步這里贝或,為了以后方便使用將數(shù)據(jù)存儲(chǔ)在MongoDB中

第二部分就是數(shù)據(jù)的一些預(yù)處理階段吼过,需要對(duì)數(shù)據(jù)進(jìn)行分詞锐秦,使用了比較流行的中文分詞的Python庫(kù)jieba分詞,之后清洗的階段就需要對(duì)詞進(jìn)行一些過(guò)濾,把沒用的詞匯給剔除出去盗忱。

第三部分訓(xùn)練前的準(zhǔn)備酱床,就是需要對(duì)訓(xùn)練和測(cè)試集進(jìn)行劃分,我是把整個(gè)數(shù)據(jù)集中拿出40%作為測(cè)試集趟佃,這個(gè)比例你可以自己定義扇谣,我是大概規(guī)定了,沒有什么學(xué)術(shù)的依據(jù)闲昭。然后進(jìn)入比較重要的一步罐寨,就是特征降維和特征選擇,其實(shí)特征的選擇目的一個(gè)是為了達(dá)到特征降維的目的序矩,還有就是可以將有效的或者其關(guān)鍵作用的特征篩選出來(lái)鸯绿,提高分類器的效果和效率。

常用的特征選擇函數(shù)有圖中的幾種簸淀,我在下面會(huì)具體介紹瓶蝴。這次也是使用了圖中的那些來(lái)進(jìn)行測(cè)試,選擇效果最好的一種來(lái)為分類器做準(zhǔn)備租幕。

第四部分就是開始訓(xùn)練了舷手,訓(xùn)練的時(shí)候就是將我們的訓(xùn)練數(shù)據(jù)和分類標(biāo)簽給到分類器,它就會(huì)開始訓(xùn)練了劲绪。這里拿了四個(gè)分類器進(jìn)行測(cè)試男窟,然后這里我測(cè)試的時(shí)候是直接一次性訓(xùn)練完成的盆赤。那么在實(shí)際的應(yīng)用中可能需要使用增量學(xué)習(xí),因?yàn)閿?shù)據(jù)在不斷的變化和更替歉眷,而且一次性訓(xùn)練過(guò)大的數(shù)據(jù)也不能達(dá)到memory-friendly的要求弟劲。

第五部分就是對(duì)結(jié)果進(jìn)行評(píng)估,看看準(zhǔn)確率姥芥、召回率兔乞、F值等。

技術(shù)背景

互信息(Mutual Information)

互信息(Mutual Information)衡量的是某個(gè)詞和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系凉唐,某個(gè)詞t和某個(gè)類別Ci傳統(tǒng)的互信息定義如下:互信息是計(jì)算語(yǔ)言學(xué)模型分析的常用方法庸追,它度量?jī)蓚€(gè)對(duì)象之間的相互性。在過(guò)濾問(wèn)題中用于度量特征對(duì)于主題的區(qū)分度台囱。

信息增益方法(Information Gain)

信息增益方法是機(jī)器學(xué)習(xí)的常用方法淡溯,在過(guò)濾問(wèn)題中用于度量已知一個(gè)特征是否出現(xiàn)于某主題相關(guān)文本中對(duì)于該主題預(yù)測(cè)有多少信息。通過(guò)計(jì)算信息增益可以得到那些在正例樣本中出現(xiàn)頻率高而在反例樣本中出現(xiàn)頻率低的特征簿训,以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征咱娶。信息增益G(w)的訓(xùn)算公式如下:其中P(w)是詞w出現(xiàn)的概率,P(Ci)是取第i個(gè)目錄時(shí)的概率强品,P(Ci|w) 是假定w出現(xiàn)時(shí)取第i個(gè)目錄的概率膘侮。

TF-IDF

其中TF 稱為詞頻,用于計(jì)算該詞描述文檔內(nèi)容的能力的榛。IDF 稱為反文檔頻率琼了,用于計(jì)算該詞區(qū)分文檔的能力。TF-IDF法是以特征詞在文檔d中出現(xiàn)的次數(shù)與包含該特征詞的文檔數(shù)之比作為該詞的權(quán)重夫晌,即其中雕薪,Wi表示第i個(gè)特征詞的權(quán)重,TFi(t晓淀,d)表示詞t在文檔d中的出現(xiàn)頻率所袁,N表示總的文檔數(shù),DF(t)表示包含t的文檔數(shù)凶掰。用TF-IDF算法來(lái)計(jì)算特征詞的權(quán)重值是表示當(dāng)一個(gè)詞在這篇文檔中出現(xiàn)的頻率越高燥爷,同時(shí)在其他文檔中出現(xiàn)的次數(shù)越少,則表明該詞對(duì)于表示這篇文檔的區(qū)分能力越強(qiáng)锄俄,所以其權(quán)重值就應(yīng)該越大局劲。

word2vec詞向量

一種最簡(jiǎn)單的詞向量是one-hot representation,就是用一個(gè)很長(zhǎng)的向量來(lái)表示一個(gè)詞奶赠,向量的長(zhǎng)度是詞典D的大小N鱼填,向量的分量只有一個(gè)為1,其他全為0毅戈,1的位置對(duì)應(yīng)該詞在詞典中的索引苹丸。這種詞向量表示有一些缺點(diǎn):容易受維數(shù)災(zāi)難的困擾愤惰。另一種詞向量是Distributed Representation,它最早是Hinton于1986年提出來(lái)的赘理,可以克服one-hot representation的上述缺點(diǎn)宦言。其基本想法是:通過(guò)訓(xùn)練將某種語(yǔ)言中的每個(gè)詞映射成一個(gè)固定長(zhǎng)度的短向量。所有這些向量構(gòu)成一個(gè)詞向量空間商模,每個(gè)向量是該空間中的一個(gè)點(diǎn)奠旺,在這個(gè)空間上引入距離,就可以根據(jù)詞之間的距離來(lái)判斷它們之間的(詞法施流、語(yǔ)義上的)相似性了响疚。如何獲取Distributed Representation的詞向量呢?有很多不同的模型可以用來(lái)估計(jì)詞向量瞪醋,包括有名的LSA忿晕、LDA和神經(jīng)網(wǎng)絡(luò)算法。Word2Vec就是使用度比較廣的一個(gè)神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的詞向量計(jì)算工具银受。

各種分類器

篇幅有限践盼,請(qǐng)翻閱周志華的《機(jī)器學(xué)習(xí)》西瓜書或者網(wǎng)上查閱相關(guān)理論。
這里鏈接一篇樸素貝葉斯的
算法雜貨鋪——分類算法之樸素貝葉斯分類(Naive Bayesian classification)

測(cè)評(píng)結(jié)果

這里我使用了pycharm為我的IDE宾巍,然后分別選取了200本入門書籍和200本非入門書籍進(jìn)行測(cè)試咕幻。

先將各個(gè)特征選擇的選擇結(jié)果大概放出來(lái)看一下,有個(gè)直觀的印象蜀漆。


WLLR特征選擇前10位特征
MI特征選擇前10位特征
IG特征選擇前10位特征
word2vec特征選擇前10位特征

從這里可以看出特征選擇上谅河,word2vec的優(yōu)勢(shì)咱旱,在于能夠更好的理解語(yǔ)義确丢,不僅從概率上來(lái)選擇。避免了低頻詞和部分文檔信息的丟失吐限。

WLLR特征選擇下的四種分類器測(cè)評(píng)結(jié)果
MI特征選擇下的四種分類器測(cè)評(píng)結(jié)果
IG特征選擇下的四種分類器測(cè)評(píng)結(jié)果
詞向量特征選擇下的四種分類器測(cè)評(píng)結(jié)果

結(jié)論:WLLR和word2vec下的MultinomialNB分類器效果最接近鲜侥。

最后我在項(xiàng)目中,還是使用了詞向量模型诸典,主要是覺得它更能理解語(yǔ)義描函,相信通過(guò)對(duì)模型的優(yōu)化和調(diào)參(沒錯(cuò),我就是網(wǎng)友戲稱的調(diào)參民工狐粱!)能夠在這一塊提高準(zhǔn)確率舀寓。

使用300本入門和300本非入門,然后進(jìn)行簡(jiǎn)單的詞向量模型的調(diào)參之后的結(jié)果肌蜻。

WLLR和詞向量的對(duì)比

還是有一點(diǎn)變化的互墓,詞向量的特征選擇出來(lái)的分類器結(jié)果有了一些改變。

最后提一下蒋搜,我使用的機(jī)器學(xué)習(xí)庫(kù)是Python的scikit-learn篡撵,然后在github上也訓(xùn)練了一個(gè)word2vec詞向量中文模型判莉,使用的是搜狗全網(wǎng)新聞?wù)Z料(70多萬(wàn)詞匯)∮可以下載下來(lái)直接嘗試一下詞向量語(yǔ)義理解能力的強(qiáng)大

參考文獻(xiàn):
文本數(shù)據(jù)的機(jī)器學(xué)習(xí)自動(dòng)分類方法(上)
文本數(shù)據(jù)的機(jī)器學(xué)習(xí)自動(dòng)分類方法(下)
強(qiáng)烈推薦上面兩篇infoQ的文章券盅,我就是從這里入門了解整個(gè)文本分類的過(guò)程和工作的。那對(duì)于這一塊還有很多相關(guān)的知識(shí)和理論不了解膛檀,所以沒有形成很好的對(duì)比和實(shí)踐锰镀。如果有更好的解決方案,請(qǐng)告訴我一起來(lái)完成咖刃。謝謝互站!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市僵缺,隨后出現(xiàn)的幾起案子胡桃,更是在濱河造成了極大的恐慌,老刑警劉巖磕潮,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件翠胰,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡自脯,警方通過(guò)查閱死者的電腦和手機(jī)之景,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)膏潮,“玉大人锻狗,你說(shuō)我怎么就攤上這事』啦危” “怎么了轻纪?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)叠纷。 經(jīng)常有香客問(wèn)我刻帚,道長(zhǎng),這世上最難降的妖魔是什么涩嚣? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任崇众,我火速辦了婚禮,結(jié)果婚禮上航厚,老公的妹妹穿的比我還像新娘顷歌。我一直安慰自己,他們只是感情好幔睬,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布眯漩。 她就那樣靜靜地躺著,像睡著了一般溪窒。 火紅的嫁衣襯著肌膚如雪坤塞。 梳的紋絲不亂的頭發(fā)上冯勉,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音摹芙,去河邊找鬼灼狰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛浮禾,可吹牛的內(nèi)容都是我干的交胚。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼盈电,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蝴簇!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起匆帚,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤熬词,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后吸重,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體互拾,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年嚎幸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了颜矿。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡嫉晶,死狀恐怖骑疆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情替废,我是刑警寧澤箍铭,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站舶担,受9級(jí)特大地震影響坡疼,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜衣陶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望闸氮。 院中可真熱鬧剪况,春花似錦、人聲如沸蒲跨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)或悲。三九已至孙咪,卻和暖如春堪唐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背翎蹈。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工淮菠, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人荤堪。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓合陵,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親澄阳。 傳聞我的和親對(duì)象是個(gè)殘疾皇子拥知,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容