轉載請注明地址:用python對鹿晗微博進行數據分析
這篇文章主要對數據進行簡單的分析,代碼在這里:
python利用pandas、matplotlib和wordcloud做數據分析
- 準備分析的數據:
|----評論者的微博昵稱
|----微博的評論
|----評論者的性別
|----評論者的所在地
|----評論者的生日
這次的數據準備了30萬+評論,其中不重復用戶14萬+。數據只是簡單的進行了簡單的去重和缺失值處理,感覺不用特別精確也能看出結果。這次的分析不是最終的結果近弟,只是可以參考的一個趨勢
用戶分析
-
首先來看看評論最多的前幾名
我的天,一個人一條微博評論800+挺智,這是不用吃飯嗎西壮。与纽。勤庐。
不知道前三十里面是不是全是真愛啊迫摔!
-
再來看看評論數的折線圖
- 感覺在平穩(wěn)的折線取值分析比較靠譜,所以放大了看看泥从。
-
14萬數據句占,出現一人幾百條的也就那幾個,所以把他們篩選掉躯嫉。
- 在1000左右纱烘,人均的評論數差不多在20左右,才感覺不會是刷出來的祈餐。
-
再看看性別擂啥,毫無疑問的。
- 感覺這個結果還算正常帆阳,比計算機專業(yè)男女比大一點哺壶。
-
之后再來說年齡分布
- 由于微博默認生日的原因,有好幾個突出點蜒谤,可以忽略山宾,我也把范圍截取到了1949年-2017年。
- 90后的峰值我預料到了鳍徽,但是沒想到00后會降的這么明顯资锰。難道真的都喜歡TF?本來想在爬一下TF的看看阶祭,不過感覺大同小異就沒有再做绷杜。
-
之后看看具體排名吧:
- 第一是98年的同學,不過前幾名差距不是很大濒募,可能跟采集的數據有關系鞭盟。
- 可以看出來00后只有 00、01瑰剃、02在堅守陣地了齿诉。
- 90后真的老了嗎。培他。鹃两。遗座。舀凛。
-
最后來看看地區(qū)分析吧
- 先來看看省份和四個直轄市分布,北京第一途蒋,有一點可能好多人都改成了和鹿晗一樣的東城區(qū)猛遍。。。所以可能不是很準確懊烤。
- 其次是廣東梯醒,不知道為什么,好多刷量小號默認位置也是廣東腌紧,不知是不是這個原因和北京并列茸习。
- 河北排在了第9。壁肋。号胚。
再來看看城市分布
- 海淀區(qū)居然是第一,這個沒有想到浸遗。
- 基本上分三個梯隊吧猫胁,石家莊在第三梯隊。
- 很尷尬的是跛锌,分詞的時候把大連給分了弃秆?
最后看看整體城市分布比例吧,感覺石家莊有點小啊髓帽。
評論分析
- 從詞云上可以看出來菠赚,評論中出現最多的詞是鹿晗,這點并不意外郑藏。
- 其次锈至,音樂,愛译秦,零界點峡捡,棒棒糖等詞也排在前面,我想是因為這次爬取得微博是棒棒糖那篇筑悴。
- 另外中間右部们拙,
迪麗
也出現了,可能八卦的網友也不少啊阁吝。 - 整體感覺比較正能量砚婆,黑粉還是要少的多。
整體分析差不多就這樣了突勇,第一個項目做的有點慢装盯,下次計劃分析一下淘寶的商品信息,不過爬數據要花時間甲馋,可能會很久了埂奈。