爬取簡書和數(shù)據(jù)分析

最近使用爬蟲爬了一下簡書五嫂,半天的時間爬取了簡書20w用戶數(shù)據(jù)和40w的follow關(guān)系颗品。這些存在mysql里面的閑著也是閑著,想試著做一些有意思的數(shù)據(jù)統(tǒng)計和社交關(guān)系分析沃缘。

最受歡迎的作者

我統(tǒng)計了簡書上面粉絲數(shù)最多和被喜歡次數(shù)最多的用戶躯枢,簡書上最受歡迎的作者,如下圖所示:


![Uploading Figure_1_086232.png . . .]

我把最受歡迎的作者的放到一張圖上面槐臀,橫坐標(biāo)表示粉絲數(shù)锄蹂,縱坐標(biāo)表示被喜歡的次數(shù),如下圖所示水慨〉妹樱可以很明顯的看出來,這些最受歡迎的作者里面晰洒,大多數(shù)的作者還是聚集在圖的左下角朝抖,but,還有幾個超級受歡迎的谍珊,他們分別分布在圖的右側(cè)和上側(cè)治宣。他們分別是,劉淼,彭小六侮邀,簡黛玉坏怪。很可惜,截圖上不能附上作者的名字绊茧。


Figure_1.png

這是同濟(jì)最受歡迎的作者的原始數(shù)據(jù)铝宵,我也貼在這里,如下圖所示按傅,數(shù)據(jù)爬取的時間是 2017年10月20日左右捉超。下圖的這四列分別是,uid唯绍,昵稱拼岳,粉絲數(shù),被喜歡數(shù)况芒。


2017-10-31 19-16-04屏幕截圖.png

最能寫的作者

統(tǒng)計了發(fā)表文章數(shù)最多的top20作者惜纸,如下圖所示:

image.png

排名第一的這位孤鳥差魚 ( http://www.reibang.com/u/a4bb86f4ba07),寫了1799篇文章熬А耐版!我的天!但是這里有一個bug压汪,這位作者雖然能寫粪牲,但是每篇文章被喜歡的次數(shù)很低,基本上是個位數(shù)止剖∠傺簦可能是一位孤獨but高產(chǎn)的作者。

平均每個字被喜歡次數(shù)坐高的作者

從上面的一個統(tǒng)計里面吸取到的一個靈感穿香,雖然上面的作者很能寫亭引,但是被喜歡的次數(shù)卻很低,這一次統(tǒng)計的是平均每個字被喜歡次數(shù)坐高的作者皮获。如下圖所示:


image.png

這個結(jié)果就更加意外了焙蚓,排在前面的這幾個大哥,就寫了一個字洒宝,but 收獲了48個喜歡9汗!Q愀琛宏浩!每個字被喜歡的比例是1:48!=堋绘闷!于是,很好奇這位大哥较坛,這一個字寫得是什么印蔗,跑去圍觀。丑勤。

2017-10-31 19-46-04屏幕截圖.png

用戶的粉絲數(shù)分布的比例

分析了一下每個用戶的粉絲數(shù)华嘹,絕大多數(shù)用戶的粉絲數(shù)只有10人以下,而粉絲數(shù)分布在[10,20]之間的用戶明顯少了很多法竞,簡直是銳減0液瘛!岔霸!這也基本上符合一個社交網(wǎng)絡(luò)的結(jié)果薛躬,絕大多數(shù)的人都是圍觀者,都是內(nèi)容或者是消息的的接收者呆细。擁有大量粉絲的人型宝,往往很少,這一部分的人是這個社交網(wǎng)絡(luò)的核心絮爷,是信息或者是消息的創(chuàng)造者趴酣,擁有更加強(qiáng)大的話語權(quán)。

image.png
后面的還嘗試的做了一些有意思的坑夯,最近在寫論文岖寞,比較忙,待更新中柜蜈。仗谆。。
PS:
  1. 有人私信問代碼跨释,我貼在了github上面 https://github.com/zhaozhengcoder/Jianshu_scrapy
  2. 有人私信問原始數(shù)據(jù)胸私,這個沒有在github上面,but鳖谈,如果你要的話岁疼,我也可以發(fā)給你
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市缆娃,隨后出現(xiàn)的幾起案子捷绒,更是在濱河造成了極大的恐慌,老刑警劉巖贯要,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件暖侨,死亡現(xiàn)場離奇詭異,居然都是意外死亡崇渗,警方通過查閱死者的電腦和手機(jī)字逗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門京郑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人葫掉,你說我怎么就攤上這事些举。” “怎么了俭厚?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵户魏,是天一觀的道長。 經(jīng)常有香客問我挪挤,道長叼丑,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任扛门,我火速辦了婚禮鸠信,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘论寨。我一直安慰自己症副,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布政基。 她就那樣靜靜地躺著贞铣,像睡著了一般。 火紅的嫁衣襯著肌膚如雪沮明。 梳的紋絲不亂的頭發(fā)上辕坝,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天,我揣著相機(jī)與錄音荐健,去河邊找鬼酱畅。 笑死,一個胖子當(dāng)著我的面吹牛江场,可吹牛的內(nèi)容都是我干的纺酸。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼址否,長吁一口氣:“原來是場噩夢啊……” “哼餐蔬!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起佑附,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤樊诺,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后音同,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體词爬,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年权均,在試婚紗的時候發(fā)現(xiàn)自己被綠了顿膨。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锅锨。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖恋沃,靈堂內(nèi)的尸體忽然破棺而出橡类,到底是詐尸還是另有隱情,我是刑警寧澤芽唇,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站取劫,受9級特大地震影響匆笤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜谱邪,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一炮捧、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧惦银,春花似錦咆课、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至迅栅,卻和暖如春殊校,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背读存。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工为流, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人让簿。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓敬察,卻偏偏與公主長得像,于是被迫代替她去往敵國和親尔当。 傳聞我的和親對象是個殘疾皇子莲祸,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,743評論 25 707
  • 在本文中我會嘗試如何從0數(shù)據(jù)開始到獲取百萬頁面,進(jìn)行用戶數(shù)據(jù)分析椭迎、建模虫给,再數(shù)據(jù)信息化、可視化侠碧,生成用戶畫像分析用戶...
    hirainchen閱讀 25,294評論 121 690
  • 社交紅利閱讀筆記 書名:社交紅利(修訂升級版) 作者:徐志斌 出版社:中信出版社 正文前筆記: 推薦序1摘要 社交...
    鳧水閱讀 8,911評論 4 26
  • 我們經(jīng)歷了邱瑩瑩的莽撞抹估,關(guān)雎爾的單純,最后到了樊勝美不上不下的生活狀態(tài)弄兜。大多數(shù)情況下药蜻,我們是遇不到富可敵國的曲筱綃...
    藍(lán)小歌閱讀 1,705評論 5 28
  • 得到上有27個專欄瓷式,共26位作者,因為王煜全的前哨專欄已經(jīng)開通了第二季语泽。在這26個作者中只有4個專欄的訂閱數(shù)超過了...
    蜀陲浪人閱讀 582評論 0 51