樸素貝葉斯分類留言標題

```python

from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import MultinomialNB

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.model_selection import GridSearchCV

from sklearn.metrics import recall_score

import pandas as pd

import jieba

def cut(text):

? ? """

? ? 分隔標題為單個詞語 如? '我愛北京天安門' =>? ['我', '愛', '北京', '天安', '天安門'];

? ? :param text:標題

? ? :return: 空格分隔的列表,列表里面是各種詞語

? ? """

? ? return ' '.join(list(jieba.cut(text,cut_all=True)))

def message_classification():

? ? # 本地讀取數(shù)據(jù)集,并構(gòu)造target集 和 data集

? ? ad = pd.read_csv('廣告.csv')

? ? target = ['廣告']*len(ad['標題'])

? ? kaoyan = pd.read_csv('考研.csv')

? ? target=target+['考研']*len(kaoyan['標題'])

? ? ad = ad['標題'].to_list()

? ? kaoyan = kaoyan['標題'].to_list()

? ? data = []

? ? for text in ad:

? ? ? ? data.append(cut(text))

? ? for text in kaoyan:

? ? ? ? data.append(cut(text))

? ? # print(data[0:10])

? ? # print(cut('我愛北京天安門'))

? ? # 劃分數(shù)據(jù)集

? ? x_train, x_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=33)

? ? #特征工程 文本抽取

? ? transfer = TfidfVectorizer()

? ? x_train = transfer.fit_transform(x_train)

? ? x_test? = transfer.transform(x_test)

? ? # 樸素貝葉斯算法預(yù)估

? ? estimator = MultinomialNB()

? ? # 訓(xùn)練模型機

? ? #添加3交叉驗證

? ? estimator = GridSearchCV(estimator, param_grid = {}, cv=3)

? ? estimator.fit(x_train, y_train)

? ? # 模型評估

? ? # 1) 直接對比真實值和預(yù)測值

? ? y_predict = estimator.predict(x_test)

? ? # 計算準確率

? ? score = estimator.score(x_test, y_test)

? ? print("準確率: ", score)

? ? # 計算綜合值

? ? score = estimator.best_score_

? ? print("綜合值: ", score)

? ? # 計算召回率

? ? recall = recall_score(y_test, y_predict, average='weighted')

? ? print("召回率: ", recall)

? ? return None

if __name__ == '__main__':

? ? message_classification()

```

? ? Building prefix dict from the default dictionary ...

? ? Loading model from cache C:\Users\LOVEWE~1\AppData\Local\Temp\jieba.cache

? ? Loading model cost 1.345 seconds.

? ? Prefix dict has been built succesfully.

? ? 準確率:? 0.8650519031141869

? ? 綜合值:? 0.8403288619645175

? ? 召回率:? 0.8650519031141869

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末浩销,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子昧甘,更是在濱河造成了極大的恐慌减拭,老刑警劉巖晕翠,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件朦肘,死亡現(xiàn)場離奇詭異盖文,居然都是意外死亡嘱蛋,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進店門椅寺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來浑槽,“玉大人,你說我怎么就攤上這事返帕⊥┎#” “怎么了?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵荆萤,是天一觀的道長镊靴。 經(jīng)常有香客問我,道長链韭,這世上最難降的妖魔是什么偏竟? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮敞峭,結(jié)果婚禮上踊谋,老公的妹妹穿的比我還像新娘。我一直安慰自己旋讹,他們只是感情好殖蚕,可當我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沉迹,像睡著了一般睦疫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鞭呕,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天蛤育,我揣著相機與錄音,去河邊找鬼。 笑死瓦糕,一個胖子當著我的面吹牛底洗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播咕娄,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼枷恕,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了谭胚?” 一聲冷哼從身側(cè)響起徐块,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎灾而,沒想到半個月后胡控,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡旁趟,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年昼激,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锡搜。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡橙困,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出耕餐,到底是詐尸還是另有隱情凡傅,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布肠缔,位于F島的核電站夏跷,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏明未。R本人自食惡果不足惜槽华,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望趟妥。 院中可真熱鬧猫态,春花似錦、人聲如沸披摄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽行疏。三九已至匆光,卻和暖如春套像,著一層夾襖步出監(jiān)牢的瞬間酿联,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留贞让,地道東北人周崭。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像喳张,于是被迫代替她去往敵國和親续镇。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內(nèi)容