霍尊的歌詞,到底唱了什么

霍尊是當前滿紅的古風歌手尚困,他的歌曲優(yōu)美而引人遐思,幾乎成了唯美古裝劇的必配劳翰。在聽了n首之后敦锌,數(shù)據(jù)分析的本性難耐,碼了段程序佳簸,一起看看他的歌詞乙墙,主要寫了什么。

用的技巧不復雜溺蕉,就是結巴分詞和詞云圖伶丐。以前也有很多人用來分析其他歌手比如汪峰,周杰倫疯特。所以在此之前還搜了一下哗魂,好像沒人講霍尊。開干漓雅。所用程序是R語言录别。
首先安裝包,jiebaR和wordcloud2

library(jiebaR)
library(wordcloud2)
library(readr)
setwd("E:")

其次讀取文件邻吞∽樘猓霍尊出道不算很久,歌曲不多抱冷,我大約搜到了20首古風歌曲崔列,包括卷珠簾,桃花雨旺遮,粉墨等等赵讯,現(xiàn)代歌沒有錄入(比如玫瑰堡壘,比如天氣預報報一報(這歌名是什么鬼))耿眉,以免影響境界边翼。
然后做成txt文本文件。
讀取和分詞有兩個辦法鸣剪,我先試的是直接用read_table讀取txt文件组底,然后用worker函數(shù)分詞,但這樣的結果會很怪筐骇,重復的詞后面會有詞頻债鸡,比如“的_3”,好煩惱铛纬∧锼看以前的文章不會有這樣的現(xiàn)象,不知道是不是包的改動or版本的問題饺鹃。
改為scan后用segment函數(shù)莫秆,就好了间雀。

f <- scan('E:/hz.txt',sep='\n',what='',encoding="UTF-8")
wk<-worker()
lyric <- segment(f,wk)
lyric <- lyric[nchar(lyric)>1]
length(lyric)

然后把1個字的刪掉,算下總數(shù)镊屎,一共有1550個詞語惹挟。

運用count函數(shù),統(tǒng)計詞頻缝驳,然后按照順序排序连锯。
這里要注意的:

  1. 按理說sort也可以,比如lyric_50<-sort(tableword$freq,decreasing=T)[1:50]用狱,但我怎樣也不行运怖,然后就轉了order
  2. 要把count(lyric)轉化為數(shù)據(jù)框結構,這樣左列是詞語夏伊,右列是詞頻摇展。
tableword<-as.data.frame(count(lyric))
tableword[order(tableword[,2],decreasing=T),]

然后就可以畫詞云圖了,記得data也要用有詞頻的數(shù)據(jù)溺忧,而不是只有分詞的文件咏连,不然又要報錯。

wordcloud2(tableword2,size=0.5,shape='square')

先用所有詞試一下鲁森,滿滿的占了整屏幕祟滴,詞語還是很優(yōu)美的。語文老師大概會打85分歌溉。

好吧還是要篩選一下垄懂。只把詞頻在3以上的挑出來,而且字號調小痛垛。這次只有141個了草慧。最多的詞也只有6個詞頻,重復率并不高榜晦。

tableword2<-subset(tableword,tableword[,2]>=3)
wordcloud2(tableword2,size=0.5,shape='star')
canvas.png

出來一個比較扁的星星。三國比較多是因為他唱了一首游戲主題曲《放開那三國》...

感想:霍尊歌詞里重復的詞語不多羽圃,比如風字開頭的就有:風景乾胶,風骨,風雨朽寞,風月识窿,風浪,風涼...這可能跟他歌曲的作詞者比較不同有關脑融,所以盡管題材趨同喻频,但每一首還能給人較為清新的感覺。
潛力還很大嘛肘迎∩拢看好你哦锻煌!


所選歌曲:1.惜春詞 2.桃花雨 3.天行九歌 4.夢誅緣 5.粉墨 6.孤芳不自賞 7. 梨花落 8. 伊人如夢 9. 之子于歸 10. 卷珠簾 11. 青云志 12.素顏 13. 不送貼 14.花雅禪 15.東風引 16.玉佛傳燈 17.木棉 18. 放開那三國 19. 春宴 20.時光不忘

參考文章:
http://blog.csdn.net/sinat_26917383/article/details/51620019

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市姻蚓,隨后出現(xiàn)的幾起案子宋梧,更是在濱河造成了極大的恐慌,老刑警劉巖狰挡,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捂龄,死亡現(xiàn)場離奇詭異,居然都是意外死亡加叁,警方通過查閱死者的電腦和手機倦沧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來它匕,“玉大人展融,你說我怎么就攤上這事〕剩” “怎么了愈污?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長轮傍。 經常有香客問我暂雹,道長,這世上最難降的妖魔是什么创夜? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任杭跪,我火速辦了婚禮,結果婚禮上驰吓,老公的妹妹穿的比我還像新娘涧尿。我一直安慰自己,他們只是感情好檬贰,可當我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布姑廉。 她就那樣靜靜地躺著,像睡著了一般翁涤。 火紅的嫁衣襯著肌膚如雪桥言。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天葵礼,我揣著相機與錄音号阿,去河邊找鬼。 笑死鸳粉,一個胖子當著我的面吹牛扔涧,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼枯夜,長吁一口氣:“原來是場噩夢啊……” “哼弯汰!你這毒婦竟也來了?” 一聲冷哼從身側響起卤档,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蝙泼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后劝枣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體汤踏,經...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年舔腾,在試婚紗的時候發(fā)現(xiàn)自己被綠了溪胶。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡稳诚,死狀恐怖哗脖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情扳还,我是刑警寧澤才避,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站氨距,受9級特大地震影響桑逝,放射性物質發(fā)生泄漏。R本人自食惡果不足惜俏让,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一楞遏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧首昔,春花似錦寡喝、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至赊颠,卻和暖如春格二,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背巨税。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工蟋定, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留粉臊,地道東北人草添。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像扼仲,于是被迫代替她去往敵國和親远寸。 傳聞我的和親對象是個殘疾皇子抄淑,可洞房花燭夜當晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內容

  • 常用概念: 自然語言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識圖譜 信息檢索 文本分類 常用技術: 詞級別...
    御風之星閱讀 9,202評論 1 25
  • 轉載請注明:終小南 ? 中文分詞算法總結 什么是中文分詞眾所周知,英文是以 詞為單位的驰后,詞和詞之間是靠空格隔開肆资,而...
    kirai閱讀 9,846評論 3 24
  • 注:參考文檔 一、在線詞云圖工具# (1)灶芝、使用### 在正式使用jieba分詞之前郑原,首先嘗試用在線分詞工具來將自...
    DearIreneLi閱讀 6,065評論 1 8
  • 《大圣歸來》攤上事了犯犁。 但這回不是什么好事。 上周末52屆金馬獎女器,《麥兜我和我的媽媽》拿下最佳動畫長片酸役,《大圣歸來...
    Sir電影閱讀 4,018評論 23 61
  • 佛是什么? 請你拿出一張紙 一筆一筆的寫出佛字驾胆, 你就會明白個中之意涣澡! 亻:代表人生、 弓:曲折的路丧诺、 丿:始于此...
    白語金言閱讀 232評論 1 3