機器學(xué)習(xí)之文本挖掘(1) — 詞云

這次做的文本挖掘以tm包為基礎(chǔ)蹋砚，數(shù)據(jù)集內(nèi)容是奧巴馬的國會演講屈藐。
鏈接：https://github.com/datameister66/data

1科汗、加載數(shù)據(jù)

library(tm)

建立包含演講文稿的路徑

name <- file.path("/Users/mac/rstudio-workplace/txtData")

查看路徑下的文件

dir(name)
[1] "sou2010.txt" "sou2011.txt" "sou2012.txt" "sou2013.txt" "sou2014.txt" "sou2015.txt"
[7] "sou2016.txt"

查看路徑下文件數(shù)量

length(dir(name))
[1] 7

使用Corpus建立語料庫捎迫，用命名為docs

docs <- Corpus(DirSource(name))

可以使用inspect()函數(shù)查看語料庫內(nèi)容

inspect(docs[1])

2、使用tm包的tm_map()函數(shù)進行文本轉(zhuǎn)換

字母轉(zhuǎn)換為小寫：tolower

docs <- tm_map(docs,tolower)

剔除數(shù)字：removeNumbers

docs <- tm_map(docs,removeNumbers)

剔除標(biāo)點符號：removePunctuation

docs <- tm_map(docs,removePunctuation)

剔除停用詞：removewords的stopwords

docs <- tm_map(docs,removeWords,stopwords("english"))

剔除空白字符：stripWhitespace

docs <- tm_map(docs,stripWhitespace)

刪除沒必要的詞：removewords故源，向量

docs <- tm_map(docs,removeWords,c("applause","can","cant","will","that","weve","dont","wont","youll","youre"))

3、將語料庫放入文檔-詞矩陣

dtm <- DocumentTermMatrix(docs)

7個文檔汞贸，4715個詞

dim(dtm)
[1] 7 4715

查看矩陣

inspect(dtm)
<<DocumentTermMatrix (documents: 7, terms: 4715)>>
Non-/sparse entries: 10899/22106
Sparsity : 67%
Maximal term length: 17
Weighting : term frequency (tf)
Sample :
Terms
Docs america american jobs make new now people thats work years
sou2010.txt 18 18 23 14 20 30 32 26 21 20
sou2011.txt 18 19 25 23 36 25 31 24 20 25
sou2012.txt 30 34 34 15 27 26 21 24 16 18
sou2013.txt 24 19 32 20 24 35 18 18 20 22
sou2014.txt 28 21 23 22 29 11 24 19 27 21
sou2015.txt 35 19 18 23 41 15 22 30 20 25
sou2016.txt 21 16 8 17 16 15 21 29 20 17

查看自己想看的矩陣部分

inspect(dtm[1:3,1:3])

4绳军、詞頻分析

計算每列總和

freq <- colSums(as.matrix(dtm))
head(freq)
abide ability able abroad absolutely abuses
1 4 14 13 4 1

對freq進行降序排序

ord <- order(-freq)
head(ord)
[1] 913 60 1386 991 755 922

查看頭六個詞

freq[head(ord)]
new america thats people jobs now
193 174 170 169 163 157

查看最后六個詞

freq[tail(ord)]

withers  wordvoices worldexcept     worldin       worry yearsnamely 
      1           1           1           1           1           1

查看詞頻的頻率

出現(xiàn)頻率最高前六

head(table(freq))
freq
1 2 3 4 5 6
2226 788 382 234 142 137
tail(table(freq))
freq
157 163 169 170 174 193
1 1 1 1 1 1

通過findFreqTerms()函數(shù)找出出現(xiàn)次數(shù)至少為N的詞

findFreqTerms(dtm,125)
[1] "america" "american" "americans" "jobs" "make" "new" "now"
[8] "people" "thats" "work" "year" "years"

通過findAssocs()函數(shù)計算相關(guān)性，找出詞與詞之間的關(guān)聯(lián)

比如與job相關(guān)性大于0.9

findAssocs(dtm,"job",corlimit = 0.9)
$job
wrong pollution forces together achieve training
0.97 0.96 0.93 0.93 0.93 0.91

生成詞云

library(wordcloud)
wordcloud(names(freq),freq,min.freq = 70,scale = c(3,.3),colors = brewer.pal(6,"Dark2"))

wordcloud01.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末矢腻，一起剝皮案震驚了整個濱河市门驾，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌多柑，老刑警劉巖奶是，帶你破解...
沈念sama閱讀 217,277評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異竣灌，居然都是意外死亡聂沙，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門初嘹，熙熙樓的掌柜王于貴愁眉苦臉地迎上來逐纬，“玉大人，你說我怎么就攤上這事削樊』砩” “怎么了？”我有些...
開封第一講書人閱讀 163,624評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵漫贞，是天一觀的道長甸箱。經(jīng)常有香客問我，道長迅脐，這世上最難降的妖魔是什么芍殖？我笑而不...
開封第一講書人閱讀 58,356評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮谴蔑，結(jié)果婚禮上豌骏，老公的妹妹穿的比我還像新娘。我一直安慰自己隐锭，他們只是感情好窃躲，可當(dāng)我...
茶點故事閱讀 67,402評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著钦睡，像睡著了一般蒂窒。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,292評論 1贊 301
城市分裂傳說
那天洒琢，我揣著相機與錄音秧秉，去河邊找鬼。笑死衰抑，一個胖子當(dāng)著我的面吹牛象迎，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播呛踊，決...
沈念sama閱讀 40,135評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼砾淌，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了恋技？” 一聲冷哼從身側(cè)響起拇舀，我...
開封第一講書人閱讀 38,992評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎蜻底，沒想到半個月后骄崩，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,429評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡薄辅，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,636評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年要拂，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片站楚。...
茶點故事閱讀 39,785評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡脱惰，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出窿春，到底是詐尸還是另有隱情拉一，我是刑警寧澤，帶...
沈念sama閱讀 35,492評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布旧乞，位于F島的核電站蔚润，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏尺栖。R本人自食惡果不足惜嫡纠，卻給世界環(huán)境...
茶點故事閱讀 41,092評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望延赌。院中可真熱鬧除盏，春花似錦、人聲如沸挫以。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽屡贺。三九已至蠢棱，卻和暖如春锌杀，著一層夾襖步出監(jiān)牢的瞬間甩栈，已是汗流浹背泻仙。一陣腳步聲響...
開封第一講書人閱讀 32,858評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留量没，地道東北人玉转。一個月前我還...
沈念sama閱讀 47,891評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像殴蹄，于是被迫代替她去往敵國和親究抓。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,713評論 2贊 354

機器學(xué)習(xí)之文本挖掘(1) — 詞云

1科汗、加載數(shù)據(jù)

建立包含演講文稿的路徑

查看路徑下的文件

查看路徑下文件數(shù)量

使用Corpus建立語料庫捎迫，用命名為docs

可以使用inspect()函數(shù)查看語料庫內(nèi)容

2、使用tm包的tm_map()函數(shù)進行文本轉(zhuǎn)換

字母轉(zhuǎn)換為小寫：tolower

剔除數(shù)字：removeNumbers

剔除標(biāo)點符號：removePunctuation

剔除停用詞：removewords的stopwords

剔除空白字符：stripWhitespace

刪除沒必要的詞：removewords故源，向量

3、將語料庫放入文檔-詞矩陣

7個文檔汞贸，4715個詞

查看矩陣

查看自己想看的矩陣部分

4绳军、詞頻分析

計算每列總和

對freq進行降序排序

查看頭六個詞

查看最后六個詞

查看詞頻的頻率

出現(xiàn)頻率最高前六

通過findFreqTerms()函數(shù)找出出現(xiàn)次數(shù)至少為N的詞

通過findAssocs()函數(shù)計算相關(guān)性，找出詞與詞之間的關(guān)聯(lián)

比如與job相關(guān)性大于0.9

生成詞云

推薦閱讀更多精彩內(nèi)容