最近使用爬蟲爬了一下簡書五嫂,半天的時間爬取了簡書20w用戶數(shù)據(jù)和40w的follow關(guān)系颗品。這些存在mysql里面的閑著也是閑著,想試著做一些有意思的數(shù)據(jù)統(tǒng)計和社交關(guān)系分析沃缘。
最受歡迎的作者
我統(tǒng)計了簡書上面粉絲數(shù)最多和被喜歡次數(shù)最多的用戶躯枢,簡書上最受歡迎的作者,如下圖所示:
我把最受歡迎的作者的放到一張圖上面槐臀,橫坐標(biāo)表示粉絲數(shù)锄蹂,縱坐標(biāo)表示被喜歡的次數(shù),如下圖所示水慨〉妹樱可以很明顯的看出來,這些最受歡迎的作者里面晰洒,大多數(shù)的作者還是聚集在圖的左下角朝抖,but,還有幾個超級受歡迎的谍珊,他們分別分布在圖的右側(cè)和上側(cè)治宣。他們分別是,劉淼,彭小六侮邀,簡黛玉坏怪。很可惜,截圖上不能附上作者的名字绊茧。
這是同濟(jì)最受歡迎的作者的原始數(shù)據(jù)铝宵,我也貼在這里,如下圖所示按傅,數(shù)據(jù)爬取的時間是 2017年10月20日左右捉超。下圖的這四列分別是,uid唯绍,昵稱拼岳,粉絲數(shù),被喜歡數(shù)况芒。
最能寫的作者
統(tǒng)計了發(fā)表文章數(shù)最多的top20作者惜纸,如下圖所示:
排名第一的這位孤鳥差魚 ( http://www.reibang.com/u/a4bb86f4ba07),寫了1799篇文章熬А耐版!我的天!但是這里有一個bug压汪,這位作者雖然能寫粪牲,但是每篇文章被喜歡的次數(shù)很低,基本上是個位數(shù)止剖∠傺簦可能是一位孤獨but高產(chǎn)的作者。
平均每個字被喜歡次數(shù)坐高的作者
從上面的一個統(tǒng)計里面吸取到的一個靈感穿香,雖然上面的作者很能寫亭引,但是被喜歡的次數(shù)卻很低,這一次統(tǒng)計的是平均每個字被喜歡次數(shù)坐高的作者皮获。如下圖所示:
這個結(jié)果就更加意外了焙蚓,排在前面的這幾個大哥,就寫了一個字洒宝,but 收獲了48個喜歡9汗!Q愀琛宏浩!每個字被喜歡的比例是1:48!=堋绘闷!于是,很好奇這位大哥较坛,這一個字寫得是什么印蔗,跑去圍觀。丑勤。
用戶的粉絲數(shù)分布的比例
分析了一下每個用戶的粉絲數(shù)华嘹,絕大多數(shù)用戶的粉絲數(shù)只有10人以下,而粉絲數(shù)分布在[10,20]之間的用戶明顯少了很多法竞,簡直是銳減0液瘛!岔霸!這也基本上符合一個社交網(wǎng)絡(luò)的結(jié)果薛躬,絕大多數(shù)的人都是圍觀者,都是內(nèi)容或者是消息的的接收者呆细。擁有大量粉絲的人型宝,往往很少,這一部分的人是這個社交網(wǎng)絡(luò)的核心絮爷,是信息或者是消息的創(chuàng)造者趴酣,擁有更加強(qiáng)大的話語權(quán)。
后面的還嘗試的做了一些有意思的坑夯,最近在寫論文岖寞,比較忙,待更新中柜蜈。仗谆。。
PS:
- 有人私信問代碼跨释,我貼在了github上面 https://github.com/zhaozhengcoder/Jianshu_scrapy
- 有人私信問原始數(shù)據(jù)胸私,這個沒有在github上面,but鳖谈,如果你要的話岁疼,我也可以發(fā)給你