學(xué)習(xí)Python系列之詞云展示

爬取毛不易歌詞作詞云展示

今天我們做一個(gè)數(shù)據(jù)可視化的項(xiàng)目,爬取毛不易的歌詞做詞云展示魏保。

1.爬取數(shù)據(jù)

我們主要使用?Python?爬蟲獲取?HTML,用?XPath?對(duì)歌曲的?ID、名稱進(jìn)行解析撑柔,然后通過網(wǎng)易云音樂的?API?接口獲取每首歌的歌詞,最后將所有的歌詞合并得到一個(gè)變量您访。`

需要獲取符合這個(gè)?XPath?的內(nèi)容铅忿。我們通過分析?HTML?代碼,能看到一個(gè)關(guān)鍵的部分:id=‘hotsong-list’洋只。這個(gè)代表熱門歌曲列表辆沦,也正是我們想要解析的內(nèi)容。我們想要獲取這個(gè)熱門歌曲列表下面所有的鏈接识虚,XPath?解析就可以寫成?//*[@id=‘hotsong-list’]//a肢扯。然后你能看到歌曲鏈接是?href?屬性,歌曲名稱是這個(gè)鏈接的文本担锤。

獲得歌曲?ID?之后蔚晨,我們還需要知道這個(gè)歌曲的歌詞,對(duì)應(yīng)代碼中的?get_song_lyric函數(shù),在這個(gè)函數(shù)里調(diào)用了網(wǎng)易云的歌詞?API?接口`

2.設(shè)置停用詞

有一些常用詞铭腕,比如’作詞’,?‘作曲’,?'編曲’等银择,我們可以把這些詞設(shè)置為停用詞,編寫?remove_stop_words?函數(shù)累舷,從文本中去掉:

3.最后編寫?create_word_cloud?函數(shù)浩考,通過歌詞文本生成詞云文件。

創(chuàng)建好?WordCloud?類之后被盈,就可以使用?wordcloud=generate(text)?方法生成詞云析孽,傳入的參數(shù)?text?代表你要分析的文本,最后使用?wordcloud.tofile(“a.jpg”)?函數(shù)只怎,將得到的詞云圖像直接保存為圖片格式文件袜瞬。或者使用?Python?的可視化工具?Matplotlib?進(jìn)行顯示身堡。

4.結(jié)果展示

5.總結(jié)

前期的數(shù)據(jù)準(zhǔn)備在整個(gè)過程中占了很大一部分邓尤。使用?Python?作為數(shù)據(jù)采集工具,利用Python爬蟲和?XPath?解析贴谎。詞云工具?WordCloud汞扎,它是一個(gè)很好用的?Python?工具,可以將復(fù)雜的文本通過詞云圖的方式呈現(xiàn)赴精。需要注意的是佩捞,當(dāng)我們需要使用中文字體的時(shí)候,比如黑體SimHei蕾哟,就可以將?WordCloud?中的?font_path?屬性設(shè)置為?SimHei.ttf一忱,你也可以設(shè)置其他藝術(shù)字體,在給毛不易的歌詞做詞云展示的時(shí)候谭确,我們就用到了藝術(shù)字體帘营。

完整代碼放在了GitHub上,地址為https://github.com/Kenneth-He/Python/tree/master/Maomao

歡迎關(guān)注微信公眾號(hào):蛋炒番茄

分享文章逐哈、技術(shù)芬迄、資源!0和骸禀梳!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市肠骆,隨后出現(xiàn)的幾起案子算途,更是在濱河造成了極大的恐慌,老刑警劉巖蚀腿,帶你破解...
    沈念sama閱讀 217,657評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嘴瓤,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)廓脆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門筛谚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人停忿,你說我怎么就攤上這事驾讲。” “怎么了瞎嬉?”我有些...
    開封第一講書人閱讀 164,057評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵蝎毡,是天一觀的道長厚柳。 經(jīng)常有香客問我氧枣,道長,這世上最難降的妖魔是什么别垮? 我笑而不...
    開封第一講書人閱讀 58,509評(píng)論 1 293
  • 正文 為了忘掉前任便监,我火速辦了婚禮,結(jié)果婚禮上碳想,老公的妹妹穿的比我還像新娘烧董。我一直安慰自己,他們只是感情好胧奔,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,562評(píng)論 6 392
  • 文/花漫 我一把揭開白布逊移。 她就那樣靜靜地躺著,像睡著了一般龙填。 火紅的嫁衣襯著肌膚如雪胳泉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,443評(píng)論 1 302
  • 那天岩遗,我揣著相機(jī)與錄音扇商,去河邊找鬼。 笑死宿礁,一個(gè)胖子當(dāng)著我的面吹牛案铺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播梆靖,決...
    沈念sama閱讀 40,251評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼控汉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了返吻?” 一聲冷哼從身側(cè)響起姑子,我...
    開封第一講書人閱讀 39,129評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎思喊,沒想到半個(gè)月后壁酬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,561評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,779評(píng)論 3 335
  • 正文 我和宋清朗相戀三年舆乔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了岳服。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,902評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡希俩,死狀恐怖吊宋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情颜武,我是刑警寧澤璃搜,帶...
    沈念sama閱讀 35,621評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站鳞上,受9級(jí)特大地震影響这吻,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜篙议,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,220評(píng)論 3 328
  • 文/蒙蒙 一唾糯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鬼贱,春花似錦移怯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至姻乓,卻和暖如春嵌溢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背糖权。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評(píng)論 1 269
  • 我被黑心中介騙來泰國打工堵腹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人星澳。 一個(gè)月前我還...
    沈念sama閱讀 48,025評(píng)論 2 370
  • 正文 我出身青樓疚顷,卻偏偏與公主長得像,于是被迫代替她去往敵國和親禁偎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子腿堤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,843評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容