PageRank實(shí)戰(zhàn):發(fā)掘5sing百萬用戶的隱藏核心

中國原創(chuàng)音樂基地(5sing) 是一個(gè)以網(wǎng)友原創(chuàng)音樂為主的音樂平臺(tái)米丘。與主流音樂平臺(tái)不同蚕甥,用戶在5sing上并不主要是為了聽知名歌手的音樂,而是可以發(fā)布自己的原創(chuàng)音樂作品炕舵,或者傾聽何之、交流其他用戶的音樂作品。正是具備這個(gè)特色咽筋,所以5sing雖然可能只是個(gè)小眾平臺(tái)帝美,也依然聚集了大量的忠實(shí)粉絲——熱愛音樂、堅(jiān)持自我內(nèi)心晤硕、不隨波主流的小眾群體悼潭。

鑒于已采集了5sing上約100W的用戶信息和歌曲信息,其實(shí)可以有不少的數(shù)據(jù)分析和挖掘空間舞箍,不過本文只聚焦于一個(gè)細(xì)小而明確的問題:

誰是這100W用戶中的隱藏核心舰褪?

一個(gè)很容易想到的角度就是:粉絲數(shù)越多的用戶就越核心∈栝希可是單純地比較粉絲數(shù)就沒什么意思了占拍,因?yàn)榉劢z數(shù)只是綜合影響力的維度之一,而且只看這一個(gè)維度難免有失偏頗捎迫。打個(gè)比方晃酒,一個(gè)被100個(gè)一線明星關(guān)注的大老板的粉絲數(shù)很可能遠(yuǎn)不如一個(gè)三線明星的多,然而論影響力顯然就是粉絲數(shù)較少的大老板要大窄绒。

這就涉及到PageRank算法的基本思想了:在一個(gè)網(wǎng)絡(luò)中彰导,被越多優(yōu)質(zhì)的節(jié)點(diǎn)(網(wǎng)頁)指向的節(jié)點(diǎn)就越優(yōu)質(zhì)山析。

PageRank算法與Google的關(guān)系秆剪,以及它的數(shù)學(xué)推導(dǎo)什么的就先不說了(以后有時(shí)間有心情再說),我們直接上代碼搞case study……

為了簡單起見组哩,這里做了如下約束伶贰,以粉絲數(shù)top100的用戶為樣本,觀察他們所關(guān)注的單向社交網(wǎng)絡(luò)位仁,通俗點(diǎn)說就是獲取這100個(gè)用戶都關(guān)注了什么人;并且假設(shè)這100個(gè)用戶都是平等的,不因?yàn)槊總€(gè)人的粉絲數(shù)空盼、作品數(shù)的差異而賦予不同的權(quán)重,亦即所有的權(quán)重都是1励七。

先看看粉絲數(shù)最多的是哪些用戶(為了圖形的可讀性,這里只放前50個(gè)):


5sing粉絲數(shù)top50歌手

我們可以看到前2名用戶的粉絲數(shù)遙遙領(lǐng)先闷哆,因?yàn)樗麄兪枪俜教?hào)(裁判在哪里)……


爬下的原始數(shù)據(jù)長這樣:


用戶單向關(guān)注網(wǎng)絡(luò)

其中左邊是關(guān)注人的ID屈留,右邊是被關(guān)注人的ID康二。

然后基于用戶兩兩間的單向關(guān)注關(guān)系味混,創(chuàng)建鄰接矩陣洽故,迭代多次至收斂,就可以算出各個(gè)用戶的PageRank分值(此處省略500字加50行數(shù)學(xué)公式……),分值最高的人影響力最大,也就是我們要找的隱藏核心质欲。

當(dāng)然這里依然為了簡單(toulan)起見又碌,并沒有從零開始實(shí)現(xiàn)算法(雖然也簡單)铸鹰,而是直接調(diào)包:

v <- vector()
for(i in 1:nrow(df)){
v <- c(v,df$rel_from[i])
v <- c(v,df$rel_to[i])
}

g <- graph(v,directed = T)
result <- page_rank(g)
result$vector %>% sort(.,decreasing = T) %>% head(1)

     1090120 
0.0003481353 

最后計(jì)算出的結(jié)果剖毯,pagerank分值最高的用戶id是1090120墅拭,分值是0.0003481353活玲。

這個(gè)人是誰?

根據(jù)ID去查用戶名舒憾,這個(gè)人是葉洛洛

從前面的柱形圖里穗熬,你可能至少要花半分鐘才能找到粉絲數(shù)排名20開外的葉洛洛,為什么他是隱藏核心唤蔗?

我們先從數(shù)據(jù)的角度來看:

select rel_from,name from sing_top100_relation a
left join user_ids_5sing b on a.rel_from = b.uid
where rel_to = "1090120" order by fans_num desc;
葉洛洛的大V粉絲

可以看到,top50榜單中有不少人都是他的粉絲妓柜。這也印證了PageRank的思想:你本身粉絲數(shù)不是最多不要緊,只要有一堆粉絲數(shù)很多的人是你的粉絲棍掐,那你就很牛逼了!(雖然本文并沒有用粉絲數(shù)作權(quán)重……)

其次從業(yè)務(wù)的角度來看:

如果你不混古風(fēng)圈作煌,如果你不泡5sing掘殴,也許你就不知道葉洛洛的身份:5sing編輯。所以他的粉絲數(shù)盡管不像5sing音樂人網(wǎng)站管理員這么高調(diào)奏寨,但其實(shí)也是官方人員啊……盡管我對(duì)他了解并不多,但我也略知他長期活躍于古風(fēng)圈服爷,也與不少古風(fēng)圈有名的歌手、5sing的核心大V交好仍源,所以現(xiàn)在能理解為什么他是隱藏核心了吧心褐?

最后容我開一句不知是否冒犯的玩笑(如果是笼踩,我道歉),以作為本文的結(jié)論收尾:
在一個(gè)有限的群體中嚎于,所謂隱藏核心,并不是表面上最光鮮的人于购,而是握有最多的資源袍睡、最接近制定規(guī)則階層的人肋僧。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末斑胜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子嫌吠,更是在濱河造成了極大的恐慌止潘,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件辫诅,死亡現(xiàn)場離奇詭異凭戴,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)炕矮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門么夫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人肤视,你說我怎么就攤上這事魏割。” “怎么了钢颂?”我有些...
    開封第一講書人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵钞它,是天一觀的道長。 經(jīng)常有香客問我,道長遭垛,這世上最難降的妖魔是什么尼桶? 我笑而不...
    開封第一講書人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮锯仪,結(jié)果婚禮上泵督,老公的妹妹穿的比我還像新娘。我一直安慰自己庶喜,他們只是感情好小腊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著久窟,像睡著了一般秩冈。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上斥扛,一...
    開封第一講書人閱讀 51,631評(píng)論 1 305
  • 那天入问,我揣著相機(jī)與錄音,去河邊找鬼稀颁。 笑死芬失,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的匾灶。 我是一名探鬼主播棱烂,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼阶女!你這毒婦竟也來了颊糜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤张肾,失蹤者是張志新(化名)和其女友劉穎芭析,沒想到半個(gè)月后吞瞪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡芍秆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年妖啥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了对碌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡怀读,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出苍糠,到底是詐尸還是另有隱情啤誊,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布瞳筏,位于F島的核電站枫耳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏迁杨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一捷沸、第九天 我趴在偏房一處隱蔽的房頂上張望痒给。 院中可真熱鬧,春花似錦苍柏、人聲如沸姜贡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽母怜。三九已至,卻和暖如春苹熏,著一層夾襖步出監(jiān)牢的瞬間币喧,已是汗流浹背袱耽。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來泰國打工扛邑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蔬崩。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓沥阳,卻偏偏與公主長得像,于是被迫代替她去往敵國和親桐罕。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容