前言:
幾經(jīng)思考募狂,終于下定給大家分享一下數(shù)據(jù)可視化方面的知識,希望在這里與大家分享一些關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘有意思的事情角雷,如果對于內(nèi)容有任何的意見或建議祸穷,都希望大家在評論中不吝賜教。
言歸正傳勺三,在今后的幾期推送中雷滚,會與大家分享一些自己用R語言爬蟲+可視化實現(xiàn)的案例,第一期就從本人最喜歡看的電視說起吗坚,分析各省級衛(wèi)視收視率祈远。
部分篇章代碼量較多,可能無法在正文中全部給出商源,之后會在私信中給出代碼的下載地址车份。
相關(guān)Package:
數(shù)據(jù)爬取:
實時數(shù)據(jù)可以在歡娛網(wǎng)(http://www.csm-huan.com)中獲得牡彻,該網(wǎng)站數(shù)據(jù)的爬取需要借助RSelenium包獲得動態(tài)頁面扫沼,網(wǎng)站的界面如下:
爬取的核心代碼:
剩下要做的就是循環(huán)得到每個電視臺的數(shù)據(jù),其中i為循環(huán)變量
地圖數(shù)據(jù)讀取庄吼、融合:
地圖數(shù)據(jù)的處理需要完成兩部分工作缎除,包括地圖shp文件讀取與收視率數(shù)據(jù)融合
數(shù)據(jù)讀取:
收視率數(shù)據(jù)融合:
數(shù)據(jù)可視化-全國地圖展示數(shù)據(jù):
完成了前期數(shù)據(jù)準(zhǔn)備总寻,就要進(jìn)入到了數(shù)據(jù)可視化的階段伴找,我們選取了ggplot包進(jìn)行數(shù)據(jù)的可視化,并且結(jié)合ggthemes包提供的一些不錯的配色方案废菱,提高展示的可讀性技矮。
首先繪制的是全國地圖數(shù)據(jù),我們用顏色的深淺表示收視率的高低殊轴,分別選取了ggthems包中theme_economist,theme_wsj,theme_map三種配色方案作圖進(jìn)行對比
附作圖代碼:
數(shù)據(jù)可視化-分省市對比數(shù)據(jù):
在學(xué)習(xí)中有迷茫不知如何學(xué)習(xí)的朋友小編推薦一個學(xué)Python的學(xué)習(xí)裙[663033228]無論你是大牛還是小白衰倦,是想轉(zhuǎn)行還是想入行都可以來了解一起進(jìn)步一起學(xué)習(xí)!裙內(nèi)有開發(fā)工具旁理,很多干貨和技術(shù)資料分享樊零!
與上一部分相比,加入了facet_wrap函數(shù),實現(xiàn)了將各個省市輪廓進(jìn)行切分驻襟,并且根據(jù)收視率的高低進(jìn)行排序夺艰,提高可讀性,以下分別是上午沉衣,下午郁副,晚上三個時段的數(shù)據(jù)。
我們不難發(fā)現(xiàn)豌习,不同收視段的排名靠前節(jié)目有明顯不同存谎,上午收看電視的觀眾更加關(guān)注股市和民生類節(jié)目,下午則更加注重養(yǎng)生肥隆,晚上則是娛樂節(jié)目的天下既荚,我們可以針對于此進(jìn)行更加深入的分析。