前幾天寫了一個(gè)爬蟲扔到服務(wù)器上,耗時(shí) 3 天吊说,我抓取了知乎 2908077 個(gè)用戶的基礎(chǔ)數(shù)據(jù)论咏。這里簡(jiǎn)單分享一下數(shù)據(jù)优炬。
數(shù)據(jù)說明
在分享數(shù)據(jù)之前,簡(jiǎn)單說一下數(shù)據(jù)的來源厅贪,也就是爬蟲抓取的規(guī)則蠢护。
規(guī)則很簡(jiǎn)單,首先抓取知乎第一大 V 張佳瑋關(guān)注列表里的用戶养涮,然后抓取再這些用戶關(guān)注列表里面的用戶葵硕,由此類推,直到抓完知乎所有的用戶贯吓。
值得說明的有兩點(diǎn):其一懈凹,只抓取在關(guān)注列表里面的用戶可以有效的過濾到三無的僵尸用戶;其二悄谐,在知乎的設(shè)置中勾選了「隱私保護(hù)」的用戶只能對(duì)站內(nèi)用戶可見介评,因此沒有登錄信息的爬蟲是抓取不到其關(guān)注列表的。
從數(shù)量上來說爬舰,這份知乎用戶信息應(yīng)該是很全面而且有效的们陆,因?yàn)榕老x抓取了知乎完整的關(guān)注關(guān)系鏈,粗略的可以認(rèn)為知乎的有效用戶大約是 300 W情屹。當(dāng)然坪仇,如果從個(gè)人信息維度來看,數(shù)據(jù)就顯得很薄弱屁商,因?yàn)閮H僅抓取了每個(gè)用戶最簡(jiǎn)單的幾個(gè)基礎(chǔ)數(shù)據(jù)烟很。原因也很簡(jiǎn)單颈墅,因?yàn)槲业某踔院诵氖菍懸粋€(gè)爬蟲蜡镶,而不是去抓取知乎的用戶信息。
知乎關(guān)注人數(shù) Top 10
首先恤筛,知乎關(guān)注人數(shù) TOP 10 的大 V 大家都很熟悉官还,如下:
其中,知乎第一大 V 張佳瑋的關(guān)注人數(shù)為 1248627毒坛,因?yàn)椴恢览锩娴慕┦塾卸嗌偻祝僭O(shè)沒有僵尸粉(這是不可能的),那么知乎平均每 3 個(gè)有效用戶就有一個(gè)關(guān)注他煎殷。
他們的回到問題數(shù)量和文章數(shù)分別如下:
可以看得出來屯伞,張佳偉不管是回答數(shù)量和文章數(shù)量都遠(yuǎn)超其他 9 個(gè)大 V,確實(shí)勤奮和高產(chǎn)豪直。而排名第二的李開復(fù)老師就相反了劣摇,不管是回答數(shù)量?jī)H有 107 個(gè),文章也只有一篇弓乙,均是墊底末融。但是作為知乎第二大 V 钧惧,不得不說名人效應(yīng)十分明顯。另外黃繼新和周源情況相似勾习,回答數(shù)量和文章文章都相對(duì)較少浓瞪,但是排在第三和第四和他們作為知乎的創(chuàng)始人應(yīng)該有很大的關(guān)系。最后不得不說一下葛巾貌似是出走過一次知乎巧婶,然后刪除了很多答案乾颁,具體情況不是特別了解。
粗略的看下來粹舵,排除特殊情況钮孵,貌似關(guān)注人數(shù)和回答數(shù)量成正相關(guān),所以想要獲得更多關(guān)注的小伙伴多多回答問題吧眼滤。
關(guān)注人數(shù)
關(guān)注人數(shù)的分布如下:
可以看出巴席,關(guān)注人數(shù)分布圖是很符合社會(huì)資源分配規(guī)律的。要注意的是诅需,我抓取的用戶是在關(guān)注列表里面的漾唉,意味著他們至少有一個(gè)關(guān)注者。關(guān)注人數(shù)只有個(gè)位數(shù)的仍然占到了 83%堰塌,然后依次是 15%赵刑,2% 和 1%。而關(guān)注者超過 1W 的僅有 2586 位场刑,占 0.09%般此,他們應(yīng)該可以被稱為知乎大 V 了。
值得一提的是牵现,我去年春節(jié)的時(shí)候回到過一個(gè)問題「你因?yàn)樗X太死錯(cuò)過什么重要的事情」可能比較搞笑或者像段子铐懊,到目前為止收獲了 5.2k 的贊。我僅僅因?yàn)檫@個(gè)突然火了的回答瞎疼,偶爾就會(huì)有小伙伴關(guān)注科乎,當(dāng)然到目前為止也只有 350 個(gè)關(guān)注者。但是贼急,關(guān)注者超過 350 的僅僅只有 33420 個(gè)用戶茅茂,只占了 1.1%,如果算上那些極度不活躍用戶和僵尸用戶太抓,就僅僅這 350 個(gè)關(guān)注者還真可以排進(jìn)前 1%空闲,但是如果要前 0.1% 的話,則要求關(guān)注數(shù)要接近 1W走敌。再次證明很像社會(huì)資源分布一樣碴倾,階梯分布十分明顯,極少部分人擁有了絕大部分資源,而絕大部分人卻只擁有極少的資源影斑。
回答數(shù)量
回答數(shù)量的分布如下:
可以看到這 300W 的用戶中给赞,沒有回答一個(gè)問題的用戶占到了 46%,而回答問題在個(gè)位數(shù)的也占了 38%矫户,兩者加起來占了知乎 85% 的用戶片迅。而回答數(shù)量超過 1000 條的僅僅只有 739 個(gè)人 。和絕大部分大眾社區(qū)一樣皆辽,大部分都是吃瓜群眾柑蛇,只有少部分是內(nèi)容的生產(chǎn)者。
文章數(shù)量
文章數(shù)量的分布如下:
數(shù)據(jù)很直觀驱闷,沒有寫過文章的用戶占到了 97%耻台,再次強(qiáng)調(diào)他們是在關(guān)注列表里面的有效用戶。而超過 10 篇的用戶空另,僅僅只有 11478 位盆耽。還是那句話,內(nèi)容生產(chǎn)者少數(shù)扼菠,吃瓜群眾才是社區(qū)的大多數(shù)摄杂。
寫在最后
雖然保存每個(gè)用戶的信息很少,但是依舊還有一些信息可以挖掘循榆,比如析恢,用戶是某個(gè)或某幾個(gè)話題的優(yōu)秀回答者,相關(guān)信息也有保存秧饮。但是映挂,今天暫時(shí)就分享這么多。結(jié)論一點(diǎn)也不出乎意料盗尸,知乎現(xiàn)在就是一個(gè)以普通用戶為主體的大眾社區(qū)柑船。這幾乎是任何一個(gè)社區(qū)高速擴(kuò)張所不能避免的結(jié)果。個(gè)人感覺振劳,隨著知乎的擴(kuò)張椎组,用戶量急劇增加同時(shí)油狂,高質(zhì)量?jī)?nèi)容的比例下滑历恐,而高質(zhì)量?jī)?nèi)容的數(shù)量卻沒有明顯的增加,其中段子专筷、雞湯文和情感類所占比例太大弱贼,而這些話題恰好是普通大眾喜聞樂見的。我以后或許會(huì)找個(gè)機(jī)會(huì)再挖掘一下相關(guān)的數(shù)據(jù)磷蛹,從數(shù)據(jù)角度證明一下吮旅。
最后,我的初衷仍然是寫個(gè)爬蟲而已。我爬知乎的原因僅僅是因?yàn)槲夷芘乐酢?/p>