加載相應(yīng)R包
library(pacman)
p_load(jiebaR, wordcloud)
#根據(jù)默認(rèn)參數(shù)建立分詞引擎
wk <- worker()
讀取hlm.txt文件
#編碼很重要,編碼不對(duì)文字是亂碼
hlm <- read.table("C:\\Users\\Admin\\Documents\\R\\data_set\\hlm.txt", sep = "\t", head = F, colClasses = "character", encoding = "UTF-8")
head(hlm)
#隨機(jī)查看其中一行
hlm[sample(nrow(hlm), 1, replace = T), "V1"]
[1] " 悶來(lái)時(shí)斂額,行去幾回頭. "
文本分詞
#分詞
wds <- segment(hlm$V1, wk)
wk <= hlm$V1
wds.1 <- unlist(wds)
#去掉空行
wds.1 <- wds[wds != " "]
#取字符長(zhǎng)度介于2和6之間的詞
wds.2 <- wds.1[nchar(wds.1) > 1 & nchar(wds.1) < 7]
#輸出前25個(gè)高頻詞
wds.freq25 <- sort(table(wds.2), decreasing = T)[1:25]; wds.freq25
#繪制詞云圖
wordcloud(names(wds.freq25), wds.freq25, min.freq = 2, random.order = F, random.color = T)
詞云
抓取“石頭”相關(guān)內(nèi)容必怜,并輸出第一段
st <- hlm$V1[grepl("石頭", hlm$V1)]; st[1]
[1] "此開(kāi)卷第一回也.作者自云:因曾歷過(guò)一番夢(mèng)幻之后,故將真事隱去,而借"通靈之說(shuō)推捐,撰此《石頭記》一書(shū)也.故曰"甄士隱"云云.但書(shū)中所記何事何人?自又云:“今風(fēng)塵碌碌侧啼,一事無(wú)成牛柒,忽念及當(dāng)日所有之女子堪簿,一一細(xì)考較去,覺(jué)其行止見(jiàn)識(shí)焰络,皆出于我之上.何我堂堂須眉戴甩,誠(chéng)不若彼裙釵哉?實(shí)愧則有余闪彼,悔又無(wú)益之大無(wú)可如何之日也甜孤!當(dāng)此,則自欲將已往所賴天恩祖德畏腕,錦衣紈绔之時(shí)缴川,飫甘饜肥之日,背父兄教育之恩描馅,負(fù)師友規(guī)談之德把夸,以至今日一技無(wú)成,半生潦倒之罪铭污,編述一集恋日,以告天下人:我之罪固不免,然閨閣中本自歷歷有人嘹狞,萬(wàn)不可因我之不肖岂膳,自護(hù)己短,一并使其泯滅也.雖今日之茅椽蓬牖磅网,瓦灶繩床谈截,其晨夕風(fēng)露,階柳庭花涧偷,亦未有妨我之襟懷筆墨者.雖我未學(xué)簸喂,下筆無(wú)文,又何妨用假語(yǔ)村言燎潮,敷演出一段故事來(lái)喻鳄,亦可使閨閣昭傳,復(fù)可悅世之目确封,破人愁悶诽表,不亦宜乎?故曰賈雨村"云云.……