1. 總體概況
爬蟲共運行了近14個小時勺卢,最終停止于2016年12月27日下午3點左右轻庆。
當其時共有494位QQ好友氮双,其中我有訪問權(quán)限的是372位昭伸,再減去要求不抓取的好友1位布隔,共為371位好友的空間說說离陶。
371位好友共貢獻了219840條說說。
最早的一條說說發(fā)自騰訊視頻官方賬號衅檀,發(fā)表時間是2008年1月11日招刨。而普通好友發(fā)表的是早的1條說說則發(fā)表于2008年2月8日。
最晚的一條發(fā)表于2016年2月27日哀军,即數(shù)據(jù)抓取時的截止日期沉眶。
在這跨越9年108個月共3272天時間里:
平均每年發(fā)表說說24426.67條,每人每年發(fā)表說說約65.84條杉适;
平均每月發(fā)表說說2035.56條谎倔,平均每人每月發(fā)表說說約5.49條;
平均每日發(fā)表說說67.19條猿推,平均每人每日發(fā)表說說0.18條片习。
-----------------------------------------
人均約593條。中位數(shù)是300蹬叭,下四分位數(shù)是56藕咏,上四分位數(shù)是819。說明一半的人在這9年里發(fā)表的說說數(shù)量少于300條秽五,另一半的人發(fā)表的數(shù)量則多于300條孽查。而又有一半的人其發(fā)表的說說數(shù)量在56到819條之間。
2. 時間分析
2.1 按年劃分
說說數(shù)量從2008年開始遞增坦喘,并且漲幅較大盲再,直到2012年達到頂峰西设。當年共發(fā)表說說40000多條,日均112條答朋。而2013年開始下降贷揽,2014年下降幅度進一步加大,2015年及2016年下降幅度較小且相對穩(wěn)定绿映。我的好友中大多數(shù)為同齡人擒滑,2010年高中畢業(yè)上大學,2011叉弦、2012丐一、2013年為在校期,期間也增加了不少大學里面的好友賬號淹冰,于是這3年中說說數(shù)量的增長或許與此有關(guān)库车。而其后下降,除了由于大學畢業(yè)的影響外樱拴,微信的流行也是不可忽視的原因之一柠衍。
微信自2011年初發(fā)布,至2012年春晶乔、秋用戶數(shù)量分別達到1億珍坊、2億,而在2013年初達到3億[[1]](http://baike.baidu.com/link?url=5sfuLX9l84SZwO4hJOMRT1RzRn-NO9J3Q4k9Za5cWiTFrVdlwOwQLjPxr_toWUzej80grTlF8BckfZkI7-g0R_1vPM8l7N9u-DlevlxKLea)正罢。其用戶數(shù)量的增長與此處QQ空間動態(tài)數(shù)量的變化較為吻合阵漏。可預(yù)見的是翻具,人們在QQ空間里面發(fā)表動態(tài)的頻率會逐漸降低履怯。
據(jù)網(wǎng)絡(luò)中的統(tǒng)計信息顯示,目前QQ的用戶更多為95后裆泳,而我的QQ好友中95后數(shù)量較小叹洲,不足以對整體數(shù)量產(chǎn)生顯著性影響。
2.2 按月劃分
注意上圖中Y軸坐標是從10000開始的
從月份上看工禾,一年中12個月所發(fā)表的說說數(shù)量差別并不大运提。最低值出現(xiàn)在2月份,很明顯是由于春節(jié)的影響帜篇,人們的線下活動多了糙捺,線上的活躍度會明顯下降。最高值出現(xiàn)在7月笙隙,其次是6月。值得注意的是自8月起數(shù)量開始減少坎缭,10月達到最波谷后開始回升竟痰,12月達到另一個波峰签钩。
共有兩個上升期,分別是3-7月坏快、10-12月铅檩,這兩段時間都是在校期,兩個波峰估計是快到期末的時候發(fā)牢騷多了莽鸿。
從比例上看各月份的分布則顯得更為均勻:
2.3 按日劃分
從上圖看來昧旨,一月之中具體在哪一天發(fā)布說說似乎是具有很高的隨機性,總體較為均勻祥得。細心點看也還可以看出上半月的數(shù)量略多于下半月兔沃,下半月整體略有下降的趨勢,不知是否因為下半月流量慢慢也捉襟見肘了级及。31日的數(shù)量比其它日期少了約有1/3乒疏,或許是因為一年之中31日比其它天數(shù)少了約1/3(出現(xiàn)在1、3饮焦、5怕吴、7、8县踢、10转绷、12月,共7次硼啤,1-28都有12次)
2.3.1 一星期內(nèi)的分布
上圖中议经,0表示周一,1表示周二丙曙,以此類推
有點意外的是爸业,一周中各天發(fā)表的說說竟然相關(guān)無幾。其最低值是周一的30876亏镰,最高值是周五的32090扯旷,兩者僅差1214,約4%索抓。餅狀圖可以更加明顯地看出其均勻性:
?2.4 按小時劃分
各個時間段都有不少人在發(fā)說說钧忽,而午夜0點到凌晨6點之間發(fā)表的說說數(shù)量還不在少數(shù),晚上6點到10點期間發(fā)表的數(shù)量卻遠少于平均數(shù)逼肯,這點倒是非常的出乎意料耸黑。但經(jīng)過多次從源數(shù)據(jù)進行確認,的確是這樣篮幢。按照人們的上網(wǎng)習慣大刊,應(yīng)該是18到23點的數(shù)據(jù)與0到5點的互換才對。莫非夜貓真的那么多三椿,而晚上大家都浪漫去了缺菌?
最高點出現(xiàn)在下午3點是合情合的葫辐,大多數(shù)人在下午2、3點時精神疲乏伴郁,相對而言更加難以專心工作/學習耿战,在網(wǎng)上閑逛的頻率會相應(yīng)增加。
3. 手機使用情況
3.1 手機品牌
近22萬條說說中焊傅,只有3萬多條是帶有手機標識的剂陡。其中最多的是出自于小米(包括其旗下的紅米),其次是蘋果(包含iPhone和iPad)狐胎,第三是華為(包括榮耀)鸭栖。值得注意的是,動態(tài)數(shù)量多顽爹,并不一定說明好友當中使用該品牌的人就多纤泵,因為也有可能是用該品牌的人更加喜歡發(fā)說說。
3.2 具體型號
眾多手機型號中镜粤,小米2S發(fā)出的說說最多捏题。此處應(yīng)該提出的是,前5款手機的排名應(yīng)該是正確的肉渴,后面的則可能會有些誤差公荧。因為同款手機在QQ空間中顯示出來的標識也并不完全相同。如上圖中的排最后(第21)的手機榮耀6同规,我在源數(shù)據(jù)中看到第22名也還是它循狰,只是名稱變成了“華為 榮耀6”,數(shù)量為171券勺,第33名也是它绪钥,顯示的是“榮耀6(4G)”,數(shù)量是126关炼。如果把后兩個數(shù)字加起來再排名程腹,則它可以排到上圖中的第7名了。
3.3 “特立獨行”者
先說明儒拂,此處并沒有任何嘲笑或貶低的意思寸潦,只是展示一些與眾不同的特色點。
對我而言社痛,上圖中的10個手機(品牌)见转,海信還算是相對熟悉的,最后一個是富士康蒜哀,第一個alps有點熟悉斩箫,但想不起來。OPSSON不知道是不是做投影儀的那個愛普生,港利通不記得是不是在電腦城里面見過了校焦。剩下的都不認得了赊抖。
4. 地域分布
近22萬條說說中统倒,帶有地理位置信息的只有千分之一寨典,共2224條。
4.1 省份分布
分省份顯示如下:
廣西房匆、廣東已經(jīng)占據(jù)了80%耸成。前10省份如下:
完整的榜單如下:
未知地帶里面是一些沒有顯示省份也沒有顯示城市的,只顯示了道路或者甚至是地鐵線路浴鸿。還有幾個是顯示廣告的井氢,被我去掉了。是這么一些地方:
此處“金雞路1號”想必對應(yīng)的是我大學學校所在地了岳链,這個應(yīng)該不會錯花竞。
4.2 城市分布
前五分別是梧州、深圳掸哑、佛山约急、廣州、桂林苗分。這順序到是有點出乎意料之外了厌蔽。也有幾個有意思的地點:
考文垂好像是澳大利亞的城市?還有人去過伊斯坦布爾摔癣?忽冷忽熱那個肯定是人為修改的了奴饮。
In The End
本來我以為每個人發(fā)表說說的數(shù)量會成正態(tài)分布,以為人們發(fā)表說說的時間從0-24小時中也會成正態(tài)分布择浊,得到的結(jié)果顯示出來的卻并不是這樣戴卜。
我以為一周中發(fā)表說說的時間會有個集中趨勢,然而也沒有琢岩。
這次爬來的數(shù)據(jù)好像并沒有什么好玩有趣的東西投剥,下次爬點別的玩玩。
最后附上程序代碼QQzone_crawler - Github