中國原創(chuàng)音樂基地(5sing) 是一個(gè)以網(wǎng)友原創(chuàng)音樂為主的音樂平臺(tái)米丘。與主流音樂平臺(tái)不同蚕甥,用戶在5sing上并不主要是為了聽知名歌手的音樂,而是可以發(fā)布自己的原創(chuàng)音樂作品炕舵,或者傾聽何之、交流其他用戶的音樂作品。正是具備這個(gè)特色咽筋,所以5sing雖然可能只是個(gè)小眾平臺(tái)帝美,也依然聚集了大量的忠實(shí)粉絲——熱愛音樂、堅(jiān)持自我內(nèi)心晤硕、不隨波主流的小眾群體悼潭。
鑒于已采集了5sing上約100W的用戶信息和歌曲信息,其實(shí)可以有不少的數(shù)據(jù)分析和挖掘空間舞箍,不過本文只聚焦于一個(gè)細(xì)小而明確的問題:
誰是這100W用戶中的隱藏核心舰褪?
一個(gè)很容易想到的角度就是:粉絲數(shù)越多的用戶就越核心∈栝希可是單純地比較粉絲數(shù)就沒什么意思了占拍,因?yàn)榉劢z數(shù)只是綜合影響力的維度之一,而且只看這一個(gè)維度難免有失偏頗捎迫。打個(gè)比方晃酒,一個(gè)被100個(gè)一線明星關(guān)注的大老板的粉絲數(shù)很可能遠(yuǎn)不如一個(gè)三線明星的多,然而論影響力顯然就是粉絲數(shù)較少的大老板要大窄绒。
這就涉及到PageRank算法的基本思想了:在一個(gè)網(wǎng)絡(luò)中彰导,被越多優(yōu)質(zhì)的節(jié)點(diǎn)(網(wǎng)頁)指向的節(jié)點(diǎn)就越優(yōu)質(zhì)山析。
PageRank算法與Google的關(guān)系秆剪,以及它的數(shù)學(xué)推導(dǎo)什么的就先不說了(以后有時(shí)間有心情再說),我們直接上代碼搞case study……
為了簡單起見组哩,這里做了如下約束伶贰,以粉絲數(shù)top100的用戶為樣本,觀察他們所關(guān)注的單向社交網(wǎng)絡(luò)位仁,通俗點(diǎn)說就是獲取這100個(gè)用戶都關(guān)注了什么人;并且假設(shè)這100個(gè)用戶都是平等的,不因?yàn)槊總€(gè)人的粉絲數(shù)空盼、作品數(shù)的差異而賦予不同的權(quán)重,亦即所有的權(quán)重都是1励七。
先看看粉絲數(shù)最多的是哪些用戶(為了圖形的可讀性,這里只放前50個(gè)):
我們可以看到前2名用戶的粉絲數(shù)遙遙領(lǐng)先闷哆,因?yàn)樗麄兪枪俜教?hào)(裁判在哪里)……
爬下的原始數(shù)據(jù)長這樣:
其中左邊是關(guān)注人的ID屈留,右邊是被關(guān)注人的ID康二。
然后基于用戶兩兩間的單向關(guān)注關(guān)系味混,創(chuàng)建鄰接矩陣洽故,迭代多次至收斂,就可以算出各個(gè)用戶的PageRank分值(此處省略500字加50行數(shù)學(xué)公式……),分值最高的人影響力最大,也就是我們要找的隱藏核心质欲。
當(dāng)然這里依然為了簡單(toulan)起見又碌,并沒有從零開始實(shí)現(xiàn)算法(雖然也簡單)铸鹰,而是直接調(diào)包:
v <- vector()
for(i in 1:nrow(df)){
v <- c(v,df$rel_from[i])
v <- c(v,df$rel_to[i])
}
g <- graph(v,directed = T)
result <- page_rank(g)
result$vector %>% sort(.,decreasing = T) %>% head(1)
1090120
0.0003481353
最后計(jì)算出的結(jié)果剖毯,pagerank分值最高的用戶id是1090120
墅拭,分值是0.0003481353
活玲。
這個(gè)人是誰?
根據(jù)ID去查用戶名舒憾,這個(gè)人是葉洛洛
。
從前面的柱形圖里穗熬,你可能至少要花半分鐘才能找到粉絲數(shù)排名20開外的葉洛洛,為什么他是隱藏核心唤蔗?
我們先從數(shù)據(jù)的角度來看:
select rel_from,name from sing_top100_relation a
left join user_ids_5sing b on a.rel_from = b.uid
where rel_to = "1090120" order by fans_num desc;
可以看到,top50榜單中有不少人都是他的粉絲妓柜。這也印證了PageRank的思想:你本身粉絲數(shù)不是最多不要緊,只要有一堆粉絲數(shù)很多的人是你的粉絲棍掐,那你就很牛逼了!(雖然本文并沒有用粉絲數(shù)作權(quán)重……)
其次從業(yè)務(wù)的角度來看:
如果你不混古風(fēng)圈作煌,如果你不泡5sing掘殴,也許你就不知道葉洛洛的身份:5sing編輯
。所以他的粉絲數(shù)盡管不像5sing音樂人
和網(wǎng)站管理員
這么高調(diào)奏寨,但其實(shí)也是官方人員啊……盡管我對(duì)他了解并不多,但我也略知他長期活躍于古風(fēng)圈服爷,也與不少古風(fēng)圈有名的歌手、5sing的核心大V交好仍源,所以現(xiàn)在能理解為什么他是隱藏核心了吧心褐?
最后容我開一句不知是否冒犯的玩笑(如果是笼踩,我道歉),以作為本文的結(jié)論收尾:
在一個(gè)有限的群體中嚎于,所謂隱藏核心,并不是表面上最光鮮的人于购,而是握有最多的資源袍睡、最接近制定規(guī)則階層的人肋僧。