mahout:貝葉斯算法應(yīng)用--新聞分類示例

一逾苫、下載數(shù)據(jù)集搀捷,并上傳到hdfs

Download and extract the 20news-bydate.tar.gz from the 20newsgroups dataset to the working directory.
1.下載數(shù)據(jù)集

wget http://101.96.10.65/people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz

2.解壓數(shù)據(jù)集

tar -zxvf 20news-bydate.tar.gz

3.精簡(jiǎn)數(shù)據(jù)集
刪除一部分?jǐn)?shù)據(jù),不需要那么大的數(shù)據(jù)集饭于。如果你想對(duì)全部數(shù)據(jù)進(jìn)行計(jì)算殖熟,這一步就可以省略了。

1.刪除train部分的冗余數(shù)據(jù)
    cd 20news-bydate-train
    rm -rf rec* talk* sci* comp*
    
2.刪除test部分的冗余數(shù)據(jù)
    cd ../20news-bydate-test
    rm -rf rec* talk* sci* comp*

4.上傳數(shù)據(jù)集到HDFS

1.在hdfs上創(chuàng)建目錄
    hadoop fs -mkdir  /input/mahout/20news_all
    
2.上傳數(shù)據(jù)到hdfs
    hadoop fs -put -p  ./20news-bydate-test/  /input/mahout/20news_all/
    hadoop fs -put -p  ./20news-bydate-train/  /input/mahout/20news_all/

5.HDFS執(zhí)行效果


二照皆、將數(shù)據(jù)集轉(zhuǎn)化為序列文件

Convert the full 20 newsgroups dataset into a < Text, Text > SequenceFile.
執(zhí)行命令:

${MAHOUT_HOME}/bin/mahout seqdirectory \
-i /input/mahout/20news_all \
-o /input/mahout/20news_all_seq

shell執(zhí)行效果:



hadoo yarn web執(zhí)行效果:


hadoo hdfs web執(zhí)行效果:


查看序列文件的內(nèi)容

${MAHOUT_HOME}/bin/mahout seqdumper -i /input/mahout/20news_all_seq/part-m-00000 



三、將序列文件轉(zhuǎn)化為向量

Convert and preprocesses the dataset into a < Text, VectorWritable > SequenceFile containing term frequencies for each document.
執(zhí)行命令:

${MAHOUT_HOME}/bin/mahout seq2sparse \
-i /input/mahout/20news_all_seq \
-o /input/mahout/20news_all_vec \
-wt tfidf \
-lnorm \
-nv 

shell執(zhí)行效果:


hadoo yarn web執(zhí)行效果:



hadoo hdfs web執(zhí)行效果:


四沸停、將向量拆分為訓(xùn)練集和測(cè)驗(yàn)集

Split the preprocessed dataset into training and testing sets.
執(zhí)行命令:

${MAHOUT_HOME}/bin/mahout split \
-i /input/mahout/20news_all_vec/tfidf-vectors \
-tr /input/mahout/20news_all_rt/train-vectors \
-te /input/mahout/20news_all_rt/test-vectors \
-xm sequential \
-rp 20 \
-seq \
-ow 

其中參數(shù)的意義如下:
?   -tr訓(xùn)練集     
?   -te測(cè)試集
?   -rp參數(shù)設(shè)定的是測(cè)試數(shù)據(jù)集占總數(shù)據(jù)集的百分比膜毁,以下代碼設(shè)定為20%!   

shell執(zhí)行效果:



hadoo hdfs web執(zhí)行效果:


五愤钾、訓(xùn)練分類器

Train the classifier.
1.開(kāi)始訓(xùn)練
這個(gè)過(guò)程將進(jìn)行多次迭代瘟滨,就想是進(jìn)行多次訓(xùn)練來(lái)熟悉一種模型一樣。等待時(shí)間比較長(zhǎng)能颁,需要一點(diǎn)耐心杂瘸。。伙菊。
執(zhí)行命令:

${MAHOUT_HOME}/bin/mahout trainnb \
-i /input/mahout/20news_all_rt/train-vectors  -el  \
-o /input/mahout/20news_all_mi/nbmodel \
-li /input/mahout/20news_all_mi/labelindex \
-ow \
-c

shell執(zhí)行效果:


hadoo yarn web執(zhí)行效果:

hadoo hdfs web執(zhí)行效果:

2.檢驗(yàn)訓(xùn)練結(jié)果
2.1.查看訓(xùn)練出來(lái)的模型:

hadoop fs -ls  /input/mahout/20news_all_mi/nbmodel 

2.2. 查看生成的索引:
a.使用Hadoop命令

hadoop fs -text /input/mahout/20news_all_mi/labelindex

b.使用mahout命令

${MAHOUT_HOME}/bin/mahout seqdumper -i  /input/mahout/20news_all_mi/labelindex

六败玉、測(cè)試分類器

Test the classifier.
執(zhí)行命令:

${MAHOUT_HOME}/bin/mahout testnb \
-i /input/mahout/20news_all_rt/test-vectors \
-m /input/mahout/20news_all_mi/nbmodel \
-l /input/mahout/20news_all_mi/labelindex \
-o /input/mahout/20news_all_testing \
-ow \
-c

shell執(zhí)行效果:




hadoo yarn web執(zhí)行效果:



hadoo hdfs web執(zhí)行效果:

查看結(jié)果文件內(nèi)容效果:

${MAHOUT_HOME}/bin/mahout seqdumper -i /input/mahout/20news_all_testing/part-m-00000

七敌土、參考文獻(xiàn)

1.貝葉斯算法參考鏈接

http://mahout.apache.org/users/classification/bayesian.html

2.新聞分類參考鏈接

http://mahout.apache.org/users/classification/twenty-newsgroups.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市运翼,隨后出現(xiàn)的幾起案子返干,更是在濱河造成了極大的恐慌,老刑警劉巖血淌,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矩欠,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡悠夯,警方通過(guò)查閱死者的電腦和手機(jī)癌淮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)沦补,“玉大人乳蓄,你說(shuō)我怎么就攤上這事〔咄” “怎么了栓袖?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)店诗。 經(jīng)常有香客問(wèn)我裹刮,道長(zhǎng),這世上最難降的妖魔是什么庞瘸? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任捧弃,我火速辦了婚禮,結(jié)果婚禮上擦囊,老公的妹妹穿的比我還像新娘违霞。我一直安慰自己,他們只是感情好瞬场,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布买鸽。 她就那樣靜靜地躺著,像睡著了一般贯被。 火紅的嫁衣襯著肌膚如雪眼五。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1 289
  • 那天彤灶,我揣著相機(jī)與錄音看幼,去河邊找鬼。 笑死幌陕,一個(gè)胖子當(dāng)著我的面吹牛诵姜,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播搏熄,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼棚唆,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼暇赤!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起瑟俭,我...
    開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤翎卓,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后摆寄,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體失暴,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年微饥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逗扒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡欠橘,死狀恐怖矩肩,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肃续,我是刑警寧澤黍檩,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站始锚,受9級(jí)特大地震影響刽酱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瞧捌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一棵里、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧姐呐,春花似錦殿怜、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至鸠澈,卻和暖如春乔夯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背款侵。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留侧纯,地道東北人新锈。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像眶熬,于是被迫代替她去往敵國(guó)和親妹笆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子块请,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容