知乎社交網(wǎng)絡(luò)分析(上):基本統(tǒng)計

關(guān)鍵詞:社交網(wǎng)絡(luò)分析(SNA) | 統(tǒng)計 | 冪律分布

簡介

為保證可讀性,本文將分為上下兩篇螟左,上篇只涉及數(shù)據(jù)介紹及基本的統(tǒng)計描述性分析,下篇是基于用戶關(guān)注網(wǎng)絡(luò)關(guān)系進行的分析觅够。

本文源自我在2015年Social Computing課程中參與的一個小組項目胶背,主要語言為Python,這里是項目包括數(shù)據(jù)集的Github傳送門(引用請使用該地址)喘先。項目內(nèi)容包括了知乎社交網(wǎng)絡(luò)數(shù)據(jù)的爬取钳吟、存取、分析全過程窘拯。在本文中我打算略去數(shù)據(jù)爬取和數(shù)據(jù)庫I/O的部分红且,重點在分享一些有趣的結(jié)果。分析過程若有不周之處涤姊,還望指正暇番,也期待可以和有興趣的小伙伴討論及合作,繼續(xù)一些更深入的分析思喊。

數(shù)據(jù)

(自帶吐槽模式開啟)

雖說不講數(shù)據(jù)爬取壁酬,但要說清楚我們所使用的數(shù)據(jù)到底是啥,還是得簡單提一下的恨课。2015年10月舆乔,我們使用了本人的知乎賬號作為種子,先獲得了所有我關(guān)注的用戶的數(shù)據(jù)庄呈,再獲得了這些用戶所關(guān)注的用戶的數(shù)據(jù)蜕煌,所以算上種子的話一共是3層的廣度遍歷(注意其實這個數(shù)據(jù)可能是存在嚴重bias的,畢竟seed是一個逗逼诬留,逗逼關(guān)注的人呢...咦怎么感覺脖子一涼)斜纪。這里的用戶數(shù)據(jù)包括:用戶的回答數(shù),用戶獲得的贊同數(shù)文兑、感謝數(shù)盒刚,用戶關(guān)注的人和關(guān)注用戶的人,用戶回答過的問題以及每個問題的話題標簽绿贞。這里給出數(shù)據(jù)的簡要統(tǒng)計信息:

  • 數(shù)據(jù)庫文件: 688 MB(SQLite
  • 數(shù)據(jù)包含:2.6萬名用戶, 461萬條關(guān)注連接, 72萬個問題
  • 數(shù)據(jù)的壓縮包可以在這里下載因块。

這里是一張數(shù)據(jù)全貌的示意圖:


分析所使用數(shù)據(jù)全貌

下面將著重介紹我們所做的分析。

玩的不是同一個知乎:均值籍铁、中位數(shù)與標準差

要告訴別人我們在知乎上混得怎樣涡上,最基礎(chǔ)的幾個指標是什么呢趾断?一定是關(guān)注、回答吩愧、贊同芋酌、感謝。所以我們首先對用戶的關(guān)注數(shù)(followee)雁佳、關(guān)注者數(shù)(follower脐帝,粉絲數(shù))回答數(shù)(answer)糖权、收到贊同數(shù)(agree)收到感謝數(shù)(thanks)的平均數(shù)堵腹、中位數(shù)以及標準差進行了計算,結(jié)果如下表:

知乎用戶的基本指標統(tǒng)計

這里其實就有許多有趣的結(jié)論了星澳。

首先我們看平均值疚顷,哇,平均每個人有三千多粉絲募判,三千多贊同荡含,再看看可憐的我咒唆,306個粉和837個贊届垫,而且他們回答的問題也并不多啊,卻有那么多贊和粉絲全释,還讓不讓人玩知乎了装处?再看看中位數(shù),頓時心里好受一些了浸船,原來我混得挺不錯嘛妄迁,五個指標都是我比較大,真開心(你是不是傻)李命。

究竟是什么原因造成平均值和中位數(shù)差異這么大呢登淘,也許我們能從標準差看出來一些端倪——太大了,粉絲數(shù)和贊同數(shù)的標準差甚至超過了兩萬封字。

這意味著什么呢黔州?我們知道,標準差其實衡量了數(shù)據(jù)個體之間的離散程度阔籽,也可以解釋為大部分的數(shù)值和其平均值之間的差異流妻。因此這么大的標準差可以說明知乎用戶之間的差距可能略大于整個銀河系(霧),同時也說明絕大部分用戶的數(shù)值和平均值有很大的差距笆制,要么大得離譜(比如張佳瑋)绅这,要么小得可憐(比如我)。

有人可能會不服氣在辆,說標準差嚴重依賴于數(shù)據(jù)本身的scale证薇,不能充分說明問題度苔。那么這里使用標準離差率(標準差除以平均值)來算算贊同數(shù),21951.4/3858.4 = 568.9%浑度。

以上現(xiàn)象還可以導(dǎo)出一個猜測林螃,那就是知乎用戶的這五個指標的值分布,都不大可能是正態(tài)分布及其近似俺泣。讓我們回想正態(tài)分布的樣子:

正態(tài)分布(來源:https://zh.wikipedia.org/zh-cn/**正態(tài)分布**)

如果是正態(tài)分布疗认,中位數(shù)(最中間的值)、眾數(shù)(最多的值)以及平均值三者至少應(yīng)該是非常接近的伏钠,然而我們這里卻是地月距離(怎么一下縮水那么多)横漏。

當雪球滾到最后:長尾和冪律分布

為了進一步驗證上面的猜測,我們繪制了五個指標的分布圖(Distribution Graph)熟掂。

關(guān)注數(shù)分布
粉絲數(shù)分布
回答數(shù)分布
贊同數(shù)分布
感謝數(shù)分布

這里說明一下這五張分布圖的含義缎浇,橫軸表示指標的具體數(shù)值,縱軸表示有多少用戶具有該指標值赴肚。需要注意的是橫軸值和縱軸值都取了以10為底的log素跺,這是研究中一種常見的處理辦法,能夠使圖所表達的信息更清晰誉券。以感謝數(shù)分布圖為例指厌,那個最左上方的點表示在這兩萬多知乎用戶里面,有大于10的三次方也就是1000的人沒有獲得一個感謝(摸摸大)踊跟;而最下面那一排點則是說踩验,感謝數(shù)是x1,x2商玫,...箕憾, xn (反正都不小)的用戶,都只有一個人——注意僅這一排點并不能形成什么有效的結(jié)論拳昌,因為可能感謝數(shù)100的只有一個人袭异,101的就有好多人了,這一定程度上大概是因為數(shù)據(jù)量小炬藤,采樣不足御铃。但是如果把下面幾排點放到一起考慮,也許會更有啟發(fā)一些刻像。

順便提一句畅买,其實關(guān)注數(shù)和粉絲數(shù)的分布圖分別還有另外一個名字,它們其實是知乎用戶關(guān)注網(wǎng)絡(luò)的出度(out-degree)分布圖入度(in-degree)分布圖细睡,這點在下篇中還會有所提到谷羞。

如果是對這種分布圖比較熟悉的童鞋,應(yīng)該一眼就能看出,這絕壁不是正態(tài)分布湃缎,而極有可能是冪律(power law)分布(不過因為懶我們并沒有做擬合去驗證)犀填,這種分布在許多有人參與其中的網(wǎng)絡(luò)中都會出現(xiàn)。此外嗓违,仔細比較這五條曲線的整體形狀九巡,有沒有覺得有兩條與另外三條略有不同?一條是關(guān)注數(shù)蹂季,一條是答案數(shù)冕广,這兩條曲線向外的彎曲程度似乎更明顯,也就是說隨著橫軸值的增大偿洁,縱軸值減小的趨勢相對較慢撒汉,而恰好五個指標里只有這兩個是某個用戶自己可以控制的,而其他三個指標則是由其他用戶形成的群體所控制涕滋,這是很奇妙的一點睬辐,我覺得其實還有深挖的可能性。

現(xiàn)在讓我們以感謝數(shù)為例宾肺,再畫另外一種分布圖溯饵。橫軸表示每個用戶的index也就是0,1锨用, 2丰刊, 3...,順序由感謝數(shù)大小決定黔酥,縱軸則是該用戶收到感謝數(shù)的具體數(shù)值:

每個知乎用戶收到的感謝數(shù)

看到那個突破天際的點了嗎藻三,二十七八萬的感謝(其實這個點在前面那張感謝數(shù)分布圖中也出現(xiàn)了洪橘,你還認得僅在幾個自然段以外的它嗎)跪者!再看看下面那條長長的尾巴,人艱莫拆熄求。再來看一個更夸張的渣玲,贊同數(shù):

每個知乎用戶收到的贊同數(shù)

其他三個指標的圖的形狀也基本如此。

有其他知友使用遠大于我們的數(shù)據(jù)量做了類似的分析弟晚,結(jié)論是一致的忘衍。總結(jié)一下就是:大多數(shù)人小得可憐卿城,卻有極少數(shù)人大得可怕枚钓,一點也不正(可)態(tài)(愛)。前幾年不是有本書很火嗎瑟押,叫做《長尾理論》搀捷?所謂長尾,指的就是這樣一種現(xiàn)象(附送我對該現(xiàn)象的一些解釋:什么是「長尾效應(yīng)」

到這里不由得讓人提到另外一個東西:馬太效應(yīng)。所謂窮的人越來越窮嫩舟,富的人越來越富氢烘,感覺上其實就是長尾效應(yīng)的動態(tài)解釋(最近打算看看有沒有相關(guān)的文獻)。富的人掌握大量資源家厌,因此更可能攫取更多資源播玖,而窮的人則相反;大V因為有名而得到更多關(guān)注饭于,同時因此變得更加有名蜀踏;玩游戲carry從而得到更多錢,有了錢買裝備又更可能carry掰吕。這是典型的正(滾)反(雪)饋(球)脓斩。最后造成的結(jié)果,就是長尾現(xiàn)象畴栖。

論如何滾成人生贏家:贊同與關(guān)注

這一節(jié)可以算是對上一節(jié)結(jié)論的一個支撐随静。下面這張圖同時包含了用戶的贊同數(shù)和粉絲數(shù)兩個指標:
!密集恐懼癥高能預(yù)警!

贊同數(shù)與粉絲數(shù)

我想不需要我們再做個回歸什么的了,一看就是赤裸裸的正相關(guān)啊吗讶。這也為我等如何冷啟動逆襲成為知乎大V提供了理論支持——要么你就有本事回答出幾個贊數(shù)突破天際的答案燎猛,要么你一開始就很有名,沒寫啥答案也能吸粉...(說的都是屁話...)

好了本篇到此結(jié)束照皆,對網(wǎng)絡(luò)關(guān)系更感興趣的童鞋重绷,不要錯過下篇,下篇信息量更大哦~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末膜毁,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子瘟滨,更是在濱河造成了極大的恐慌候醒,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件运翼,死亡現(xiàn)場離奇詭異返干,居然都是意外死亡,警方通過查閱死者的電腦和手機血淌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進店門矩欠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事晚顷》寤铮” “怎么了?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵该默,是天一觀的道長瞳氓。 經(jīng)常有香客問我,道長栓袖,這世上最難降的妖魔是什么匣摘? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮裹刮,結(jié)果婚禮上音榜,老公的妹妹穿的比我還像新娘。我一直安慰自己捧弃,他們只是感情好赠叼,可當我...
    茶點故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著违霞,像睡著了一般嘴办。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上买鸽,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天涧郊,我揣著相機與錄音,去河邊找鬼眼五。 笑死妆艘,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的看幼。 我是一名探鬼主播批旺,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼桌吃!你這毒婦竟也來了朱沃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤茅诱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后搬卒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瑟俭,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年契邀,在試婚紗的時候發(fā)現(xiàn)自己被綠了摆寄。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖微饥,靈堂內(nèi)的尸體忽然破棺而出逗扒,到底是詐尸還是另有隱情,我是刑警寧澤欠橘,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布矩肩,位于F島的核電站,受9級特大地震影響肃续,放射性物質(zhì)發(fā)生泄漏黍檩。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一始锚、第九天 我趴在偏房一處隱蔽的房頂上張望刽酱。 院中可真熱鬧,春花似錦瞧捌、人聲如沸棵里。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽衍慎。三九已至,卻和暖如春皮钠,著一層夾襖步出監(jiān)牢的瞬間稳捆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工麦轰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留乔夯,地道東北人。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓款侵,卻偏偏與公主長得像末荐,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子新锈,可洞房花燭夜當晚...
    茶點故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容