記得讀大學(xué)時,看課程信息诗箍,查分?jǐn)?shù)癣籽,看美女(噓)都會使用超級課程表APP,當(dāng)時這款A(yù)PP非陈俗妫火爆筷狼,今天,就帶領(lǐng)大家回到大學(xué)匠童,看看大學(xué)生都在干嘛埂材?
該文涉及內(nèi)容:
- 爬蟲簡介
- 性別分布
- 高校分布
- 帖子時間
- 帖子詞云
爬蟲簡介
這次爬蟲和以往不同,利用fiddler抓包工具汤求,爬取手機APP數(shù)據(jù)俏险,爬取的內(nèi)容為熱門內(nèi)容,總共只有150條扬绪,爬蟲代碼很亂竖独,下次整理好再分享給大家。
數(shù)據(jù)分析
首先挤牛,我們看看數(shù)據(jù)情況预鬓。包括的字段有:
- 用戶名
- 性別(0為女性)
- 學(xué)校
- 發(fā)帖時間
- 發(fā)帖內(nèi)容
- 發(fā)帖標(biāo)簽
性別分布
統(tǒng)計性別分布,通過圖可以看出赊颠,女生占大多數(shù)格二,畢竟小姐姐上熱門更為簡單,隨便爆個照竣蹦,賣個萌顶猜,閱讀妥妥的。
data1 = df.groupby('gender')['gender'].count()
from pyecharts import Pie
attr = ['女生', '男生']
v1 = list(data1)
pie = Pie('用戶性別分布')
pie.add("", attr, v1, is_label_show=True)
pie
高校分布
接著痘括,我們看看哪些高校學(xué)生更喜歡玩超級課程表长窄。由于數(shù)據(jù)量較少仙粱,代表性不夠強忠聚,不過可以看出,師范類上榜更多弧关,可能師范類小姐姐比較多吧翰舌。
data2 = df.groupby('schoolName')['schoolName'].count()
data2 = data2.sort_values(ascending=False)[:10]
from pyecharts import Bar
bar = Bar('所在學(xué)校排行')
attr = list(data2.index)
v2 = list(data2)
bar.add("", attr, v2,xaxis_interval=0,xaxis_rotate=20,xaxis_margin=8,is_label_show=True)
bar
帖子時間
再來看看學(xué)生都愛啥時候發(fā)帖嚣潜。首先,我們把時間字段當(dāng)做字符串處理u最好轉(zhuǎn)換為時間序列)椅贱,獲取小時懂算。
如圖可以看出只冻,除了凌晨過后到早上10點,其余時間都愛發(fā)帖(大學(xué)生普遍0點過后睡计技,早上也起的比較晚)喜德。他們可以說是,上課發(fā)垮媒、下課發(fā)舍悯,白天發(fā),晚上發(fā)睡雇,skr贱呐。
df['hour'] = df['datetime'].str.split(':').str[0].str.split(' ').str[1]
data3 = df['hour'].value_counts()
data3 = data3.sort_index()
from pyecharts import Line
attr = list(data3.index)
v = list(data3)
line = Line("帖子發(fā)布時間分布")
line.add("", attr, v)
line
帖子詞云
最后,我們來看看入桂,發(fā)帖的詞云奄薇,這里只是上部分代碼。
大概可以分為兩派:
- 學(xué)習(xí)備考考研約圖書館
- 單身小哥哥小姐姐求脫單
如果你要問我doge是什么抗愁,可能就是屏幕前的你吧馁蒂。
from pyecharts import WordCloud
wordcloud = WordCloud(width=800, height=620)
wordcloud.add("", label, attr, word_size_range=[20, 100])
wordcloud
討論
- 數(shù)據(jù)不多,代表性可能不強
- 珍惜大學(xué)時光蜘腌,不要做后悔之事