詞袋模型(新聞文本分類)


????????????我們要用詞袋模型進(jìn)行文本分類读串,訓(xùn)練模型大致可以分為兩步:第一步,用TF-IDF表示文本特征撒妈;第二步恢暖,把TF-IDF值和標(biāo)簽值送入分類模型訓(xùn)練。



? ? ? ? 第一步用TF-IDF表示文本特征:? ? ?

?????????????????????????????????????“TF-IDF值” = “TF值” ? “IDF值”? ? ?(在實(shí)操中踩身,我們會(huì)把TF值進(jìn)行歸一化胀茵,以防止它偏向長文本)

? ? ? ? TF值:某個(gè)詞(字)在文本(一段話)中出現(xiàn)的頻率

? ? ? ? IDF值:某個(gè)詞(字)在文本(一段話)中的普遍重要性的度量社露。某一詞(字)的IDF值挟阻,可以由總文本數(shù)目除以包含該詞(字)的文本的數(shù)目,再將得到的商取 10為底的對(duì)數(shù)峭弟。

這里我們使用sklearn中的TfidfVectorizer方法計(jì)算出TF-IDF值:

? ? ? ? ?首先看一下數(shù)據(jù)附鸽,此數(shù)據(jù)集為訓(xùn)練數(shù)據(jù)集,分為“頻道”和“文章”兩列瞒瘸,后面將使用這樣的數(shù)據(jù)集來進(jìn)行模型訓(xùn)練坷备。

訓(xùn)練數(shù)據(jù)集

由于在文本中有許多沒有用的詞(字)和標(biāo)點(diǎn)符號(hào),所以要去停用詞


TfidfVectorizer方法計(jì)算TF-IDF值

參數(shù)解釋:

????????????????tokenizer = jieba.lcut? 用jieba分詞中的精確模式情臭;stop_words 定義停用詞詞典省撑,會(huì)在結(jié)果中刪除詞典中包含的詞赌蔑;norm?表示對(duì)TF-IDF矩陣的每一行使用l2范數(shù)歸一化; use_idf?表示在TF矩陣的基礎(chǔ)上計(jì)算IDF竟秫,并相乘得到TF-IDF娃惯;smooth_idf?表示通過加1到文檔頻率平滑idf權(quán)重,為防止除零肥败,加入一個(gè)額外的文檔(防止計(jì)算IDF時(shí)出現(xiàn)除0的尷尬情況)趾浅;sublinear_tf?表示使用 1+log(tf)替換原來的tf, True值表示使用????

????????????????contents參數(shù)就是我們要計(jì)算成TF-IDF值的文本數(shù)據(jù)集(即文章那一列的數(shù)據(jù))

得到的TF-IDF值:


計(jì)算出的TF-IDF值

我們可以看看這個(gè)詞袋包含多少詞:

詞表中有25359個(gè)詞


第二步,把TF-IDF值和標(biāo)簽值送入分類模型訓(xùn)練:

? ? ? ? ? ?我們?cè)诘玫絋F-IDF模型之后馒稍,我們還需要對(duì)頻道那一列進(jìn)行處理皿哨。頻道那列其實(shí)就是標(biāo)簽值,包含娛樂纽谒,體育证膨,音樂之類的類別。

? ? ? ? ? ? 把頻道那一列進(jìn)行編碼佛舱,得到標(biāo)簽值y 椎例,再用剛剛訓(xùn)練好的tfidf模型計(jì)算出x值:

得到x和y

? ? ? ? ? ? 這里我們?cè)诜指钣?xùn)練集和測(cè)試集時(shí),不再直接用x,y來分割请祖,因?yàn)榇藭r(shí)數(shù)據(jù)量太大订歪,會(huì)讓分割時(shí)間變長,所以通過分割index值來得到訓(xùn)練集和測(cè)試集:

分割訓(xùn)練集和測(cè)試集

? ? ? ? ? ? 這里使用邏輯回歸模型:

訓(xùn)練模型

? ? ? ? ? ? 訓(xùn)練完我們?cè)u(píng)估一下模型效果:

通過混淆矩陣可以觀察其分類正確和錯(cuò)誤的數(shù)量

最后保存模型:

保存模型

使用模型預(yù)測(cè)新的新聞文本:

? ? ? ? ? ? ? ? ? ? ? ? ? ? 加載保存的模型:

加載模型肆捕,并運(yùn)用模型轉(zhuǎn)換為詞袋并預(yù)測(cè)

和實(shí)際類別進(jìn)行比對(duì):

預(yù)測(cè)值和實(shí)際值對(duì)比

總結(jié):

? ? ? ? ? ? 上面整個(gè)流程就是一個(gè)簡單的通過詞袋模型進(jìn)行新聞文本分類刷晋,通過計(jì)算出TF-IDF值,再送入分類模型進(jìn)行預(yù)測(cè)慎陵。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末眼虱,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子席纽,更是在濱河造成了極大的恐慌捏悬,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件润梯,死亡現(xiàn)場離奇詭異过牙,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)纺铭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門寇钉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人舶赔,你說我怎么就攤上這事扫倡。” “怎么了竟纳?”我有些...
    開封第一講書人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵撵溃,是天一觀的道長疚鲤。 經(jīng)常有香客問我,道長缘挑,這世上最難降的妖魔是什么石咬? 我笑而不...
    開封第一講書人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮卖哎,結(jié)果婚禮上鬼悠,老公的妹妹穿的比我還像新娘。我一直安慰自己亏娜,他們只是感情好焕窝,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著维贺,像睡著了一般它掂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上溯泣,一...
    開封第一講書人閱讀 51,775評(píng)論 1 307
  • 那天虐秋,我揣著相機(jī)與錄音,去河邊找鬼垃沦。 笑死客给,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的肢簿。 我是一名探鬼主播靶剑,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼池充!你這毒婦竟也來了桩引?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤收夸,失蹤者是張志新(化名)和其女友劉穎坑匠,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卧惜,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡厘灼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了序苏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片手幢。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡捷凄,死狀恐怖忱详,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情跺涤,我是刑警寧澤匈睁,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布监透,位于F島的核電站,受9級(jí)特大地震影響航唆,放射性物質(zhì)發(fā)生泄漏胀蛮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一糯钙、第九天 我趴在偏房一處隱蔽的房頂上張望粪狼。 院中可真熱鬧,春花似錦任岸、人聲如沸再榄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽困鸥。三九已至,卻和暖如春剑按,著一層夾襖步出監(jiān)牢的瞬間疾就,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來泰國打工艺蝴, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留猬腰,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓猜敢,卻偏偏與公主長得像漆诽,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锣枝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356