Python音樂數(shù)據(jù)爬蟲分析系統(tǒng)? echarts可視化 Flask框架 音樂推薦系統(tǒng) 源碼下載(計算機(jī)畢業(yè)設(shè)計)
一铣墨、技術(shù)說明
網(wǎng)易云音樂數(shù)據(jù)(歌單、用戶办绝、歌詞伊约、評論)Python爬取Flask框架搭建ECharts、WordCloud可視化項目孕蝉。系統(tǒng)分為:數(shù)據(jù)采集模塊屡律、數(shù)據(jù)分析處理模塊、數(shù)據(jù)存儲模塊降淮、以及數(shù)據(jù)可視化呈現(xiàn)模塊超埋。
設(shè)計語言:Python+SQL+HTML+CSS+JS
數(shù)據(jù)爬取:selenium+request+json+time+random
數(shù)據(jù)存儲:SQLite
數(shù)據(jù)清洗:re+replace+time.localtime+time.strftime
后端搭建:PalletsFlask
前端搭建:TwitterBootstrap
圖表展現(xiàn):ApacheECharts
詞云制作:pyplot+jieba+wordcloud+Image+numpy
(1)selenium主要用webdriver來模仿認(rèn)為點擊爬取頁面數(shù)據(jù)佳鳖,request負(fù)責(zé)偽裝headers獲取頁面霍殴,json負(fù)責(zé)將獲取到的文本數(shù)據(jù)轉(zhuǎn)換為字典數(shù)據(jù)。time和random負(fù)責(zé)隨機(jī)訪問頻率系吩。
(2)re是通過正則表達(dá)式提取一定規(guī)則的文本內(nèi)容繁成。replace主要取出部分不要的字符。time模塊負(fù)責(zé)轉(zhuǎn)換json時間
(3)Flask通過編寫app路由處理請求響應(yīng)淑玫,然后以render_template渲染視圖效果。
(4)jieba負(fù)責(zé)提供分詞面睛、識詞過濾絮蒿,Image負(fù)責(zé)背景圖的圖像處理,numpy負(fù)責(zé)矩陣運(yùn)算叁鉴,中文顯示需要的空間土涝,wordcloud負(fù)責(zé)形成有遮罩效果的圖形,pyplot是負(fù)責(zé)繪出最終圖形幌墓。
項目目標(biāo):
1. 實現(xiàn)通過搜索關(guān)鍵詞但壮,對相關(guān)歌曲的主要信息進(jìn)行展示
2. 對搜索出的信息進(jìn)行歌單冀泻、歌詞、評論蜡饵、聽眾地域分布弹渔、活躍時間段等幾個方面的數(shù)據(jù)進(jìn)行可視化分析。
Python3溯祸、urllib庫肢专、Flask框架、ECharts.js焦辅、WordCloud庫博杖、SQLite3數(shù)據(jù)庫
1.爬取歌單預(yù)覽頁,所有歌單數(shù)據(jù)筷登,35單*38頁剃根,(歌單詳情url)
2.爬取歌單詳情頁(歌單標(biāo)題、歌單作者前方、作者url狈醉、歌單創(chuàng)建日期、歌單收藏量镣丑、歌單分享量舔糖、歌單評論數(shù)、歌單標(biāo)簽莺匠、歌單介紹金吗、歌單歌曲數(shù)量)
3.爬取歌單內(nèi)音樂(歌曲id、標(biāo)題趣竣、時長摇庙、歌手、專輯遥缕、歌曲url)
4.爬取歌曲詳情(歌曲id卫袒、歌曲標(biāo)題、歌手单匣、專輯夕凝、歌詞、評論數(shù)户秤、評論內(nèi)容)
5.爬取歌曲歌單評論內(nèi)容(歌單歌曲辨識id码秉、評論者id、評論者名鸡号、評論內(nèi)容转砖、評論時間、評論點贊量鲸伴、評論者url-地區(qū)累計聽歌量)
1.數(shù)據(jù)庫可視化:用戶搜索關(guān)鍵詞府蔗,完成相應(yīng)內(nèi)容可視化的展現(xiàn)晋控。
1.數(shù)據(jù)呈現(xiàn)的多樣化:多種圖表形式。(用戶活躍時間分布姓赤、用戶地域分布赡译、歌單標(biāo)簽排名、歌曲情緒模捂、評論區(qū)詞云捶朵、歌單歌曲詞云、)
2.數(shù)據(jù)維度的設(shè)計:能夠從不同維度的數(shù)據(jù)分析狂男,為用戶提供更多的價值
3.界面表現(xiàn)的美化(可點擊保存詞云圖片综看,根據(jù)歌曲id生成評論區(qū)詞云、根據(jù)歌單id生成歌單詞云)
二岖食、運(yùn)行截圖