學(xué)習(xí)爬蟲的時(shí)候添坊,對公司知識社區(qū)的推薦文章列表,用戶列表進(jìn)行了簡單爬取箫锤,數(shù)據(jù)分析的過程中發(fā)現(xiàn)一些有意思的點(diǎn)帅腌,跟大家分享下。
本篇文章主要分為三部分:
為什么做知識社區(qū)麻汰?
知識社區(qū)的發(fā)展情況的數(shù)據(jù)分析
結(jié)合數(shù)據(jù)分析給出的一些知識社區(qū)運(yùn)營建設(shè)
why- 為什么做知識社區(qū)速客?
知識社區(qū)是公司CEO為了推進(jìn)公司構(gòu)建學(xué)習(xí)型、開放型五鲫、分享型組織在2017年初做的一次嘗試溺职,從目前來看文章累積10w篇,推薦文章2400多篇位喂,累積用戶600多位浪耘,很好的帶動(dòng)了公司的學(xué)習(xí)和分享氛圍。
這些文章大家肯定都不陌生:
《奔跑吧塑崖,程序員F叱濉(11月8日 產(chǎn)品研發(fā)會-Leo講話)》,《阿里曾鳴教授 到訪TalkingData 交流紀(jì)要:商業(yè)模式规婆、企業(yè)管理澜躺、數(shù)據(jù)和發(fā)展探討》蝉稳,《美國東岸大數(shù)據(jù)交流訪問總結(jié)_整體篇》,《Bestseller紀(jì)實(shí)-客戶需要TD外腦做什么掘鄙?》
what- 知識社區(qū)是什么耘戚?
公司的知識社區(qū)以類知乎的問答社區(qū)為模板,但是由于目前的封閉性(公司內(nèi)部使用)操漠,用戶人群數(shù)量和多樣性無法保證很好的問答氛圍收津,定位還是以知識、資訊的閱讀和推薦為主浊伙。
how about- 知識社區(qū)發(fā)展的怎么樣撞秋?
前面已經(jīng)提到知識社區(qū)的文章數(shù)、推薦書嚣鄙、用戶數(shù)部服,下面通過一些更具體的數(shù)據(jù)給大家展示下系統(tǒng)的運(yùn)行情況(非官方)
知識社區(qū)發(fā)展的時(shí)間線分析
這里選取了社區(qū)最優(yōu)質(zhì)的內(nèi)容-推薦文章的數(shù)量來反饋社區(qū)的整體發(fā)展情況
- 第一階段:201703-201707 啟動(dòng)階段,以信息聚合和用戶習(xí)慣培養(yǎng)為主
這個(gè)階段社區(qū)冷啟動(dòng)拗慨,以Admin爬取網(wǎng)絡(luò)熱點(diǎn)信息為主廓八,同時(shí)積極培育用戶的使用習(xí)慣,主要的資訊來源有:
產(chǎn)品經(jīng)理社區(qū):人人都是產(chǎn)品經(jīng)理赵抢、產(chǎn)品中國剧蹂、產(chǎn)品壹佰、騰訊ISUX
科技資訊媒體:雷鋒網(wǎng)烦却、36kr宠叼、未央網(wǎng)、互聯(lián)網(wǎng)一些事
人工智能和機(jī)器學(xué)習(xí)社區(qū):機(jī)器之心(對社區(qū)內(nèi)容的認(rèn)可已經(jīng)體現(xiàn)到公司的投資行為中)其爵、KDnuggets
數(shù)據(jù)相關(guān)社區(qū)或者自媒體: 數(shù)據(jù)猿冒冬、數(shù)盟社區(qū)
- 第二階段:201708-201712 迅速增長階段,文章推薦量摩渺、用戶活躍迅速發(fā)展简烤,一些知識大V涌現(xiàn)
這個(gè)階段文章的推薦量、用戶的使用習(xí)慣都已經(jīng)形成摇幻,一些積極分享的大V涌現(xiàn)横侦,成為某個(gè)專題的KOL
機(jī)器學(xué)習(xí):xiaohui、json绰姻、Rand
金融科技:張寧枉侧、leichen
產(chǎn)品:ashyan
新零售: jet、麗燕
技術(shù):kaopu狂芋、Robin榨馁、minfeng、xiaoxubeili
- 當(dāng)前情況:活躍有所下降帜矾,17年底18開年大家在Furion上投入精力減少翼虫,結(jié)合具體的數(shù)據(jù)分析后面會提出一些運(yùn)營的建議
以上是平臺總體運(yùn)營情況屑柔,下面通過三個(gè)案例進(jìn)行下場景化分析
大V影響力分析
用戶聚類分析
KOL預(yù)測分析
社區(qū)KOL分析
知識分享社區(qū)中KOL對平臺的發(fā)展非常重要,如何用數(shù)據(jù)刻畫蛙讥,通過爬蟲我從下面兩個(gè)維度進(jìn)行了大V信息的抓取
大V文章的影響力數(shù)據(jù),包括
推薦列表文章數(shù)
文章的瀏覽量
文章的平均瀏覽量
點(diǎn)贊數(shù)
平均點(diǎn)贊數(shù)
回復(fù)數(shù)
平均回復(fù)數(shù)
大V們的社區(qū)行為數(shù)據(jù)灭衷,包括
發(fā)布文章數(shù)
閱讀文章數(shù)
點(diǎn)贊數(shù)(點(diǎn)贊他人文章)
推薦數(shù)(推薦他人文章)
威望
相關(guān)數(shù)據(jù)整理后視圖如下:
上面的數(shù)據(jù)哪些最能反應(yīng)大V的論壇影響力呢次慢? 這里先進(jìn)行了下關(guān)聯(lián)度分析:
通過關(guān)聯(lián)度的顯著分析,我們是否可以這些假設(shè):
社區(qū)威望翔曲,初始規(guī)則-基于點(diǎn)贊和被推薦進(jìn)行計(jì)算(目前社區(qū)的設(shè)置規(guī)則不詳迫像?),是否合理的反應(yīng)了大V的社區(qū)影響力(目前Grade并沒有太多匹配的強(qiáng)相關(guān)數(shù)據(jù))
推薦和發(fā)布文章強(qiáng)相關(guān)瞳遍,說明大家對內(nèi)容的把握都比較高闻妓,認(rèn)為可以推薦給大家給大家?guī)硪恍椭?/p>
推薦和文章回復(fù)強(qiáng)相關(guān),說明被推薦的文章曝光和響應(yīng)更多
瀏覽和點(diǎn)贊強(qiáng)相關(guān)掠械,說明瀏覽量大的文章質(zhì)量都不錯(cuò)
瀏覽和回復(fù)強(qiáng)相關(guān)由缆,說明瀏覽量大的文章引出的互動(dòng)更多
點(diǎn)贊和回復(fù)強(qiáng)相關(guān),可以作為文章質(zhì)量的指標(biāo)
閱讀和推薦強(qiáng)相關(guān)猾蒂,讀文章多的小伙伴在給大家當(dāng)知識過濾器
總體看均唉,KOL更多還是發(fā)表優(yōu)秀的文章,通過推薦觸達(dá)更多的用戶肚菠,由所有用戶的點(diǎn)贊舔箭、瀏覽、回復(fù)形成影響力蚊逢。
以上這里KOL的界定還是以經(jīng)驗(yàn)层扶、數(shù)據(jù)表現(xiàn)為主,后續(xù)在全體用戶的分析中烙荷,我會嘗試通過標(biāo)注的方式镜会,讓機(jī)器告訴我們誰是KOL、誰會是潛力KOL
社區(qū)用戶聚類分析
通過用戶的行為數(shù)據(jù)進(jìn)行相關(guān)的聚類分析终抽,主要數(shù)據(jù)如下:
發(fā)布文章數(shù)
閱讀文章數(shù)
回復(fù)文章數(shù)
點(diǎn)贊文章數(shù)
推薦文章數(shù)
社區(qū)威望
社區(qū)積分
被點(diǎn)贊數(shù)
樣本數(shù)據(jù)如下:
執(zhí)行聚類算法之前的假設(shè)稚叹,用戶分為:KOL高影響力人群、活躍人群拿诸、潛力KOL人群扒袖、不活躍人群, 具體聚類的過程如下:
- Round1 設(shè)置 k=4 聚類結(jié)果亩码,發(fā)現(xiàn)有個(gè)聚簇只有一個(gè)樣本季率,查詢數(shù)據(jù)為admin(爬蟲),清洗數(shù)據(jù)繼續(xù)聚類
- Roudn2 設(shè)置k=3描沟,具體結(jié)果如下
聚類結(jié)果中大部分KOL被分入cluster_2飒泻,但是仍舊有不少KOL被列入cluster_1鞭光,而且聚簇效果一般。
兩個(gè)辦法:
數(shù)據(jù)量綱統(tǒng)一:大部分長尾數(shù)據(jù)存在的情況下 統(tǒng)一量綱不是一個(gè)好選擇泞遗;
離群點(diǎn)處理:這里要注意避免誤傷真正的KOL惰许;離群點(diǎn)處理使用數(shù)據(jù)過濾,維度上設(shè)置閾值史辙,針對超出的數(shù)據(jù)直接丟棄
閱讀量大的極端用戶:read>1000
被贊同量大的離群點(diǎn):agreed>1000 CEO是不可復(fù)制的
無法明確含義的數(shù)據(jù):grade列去掉
Round3 設(shè)置閾值后的聚類效果
k=3對應(yīng)群組: KOL(發(fā)表文章汹买、回復(fù)文章、被點(diǎn)贊較多)聊倔、Follower(閱讀晦毙、點(diǎn)贊較多)、Un-active(較不活躍)
-
k=4對應(yīng)群組:cluster_0 36位潛力KOL耙蔑、cluster_1 106位積極參與者见妒、cluster_2 9位KOL、cluster_3 430人這里區(qū)分還是不夠清晰
如何進(jìn)一步嘗試甸陌,切換聚類的算法须揣?重設(shè)k值?
Round4 設(shè)置k=5钱豁,大概分群返敬,這次分群有一定聚簇效果,但是可視化效果比較差
cluster_2低活躍
cluster_4 閱讀和點(diǎn)贊較多
cluster_1 活躍度更高寥院,開始嘗試主動(dòng)pub
cluster_0 KOL
cluster_3 輸出為主
-
經(jīng)過N輪的整理劲赠,最后選擇k=3
結(jié)果的可視化效果(長尾分布可以使用log scale視圖),通過調(diào)整得到最好的聚簇效果(弱相關(guān)特征維度上進(jìn)行展現(xiàn)) 瀏覽和點(diǎn)贊行為秸谢;發(fā)布行為凛澎;被贊同,分別體現(xiàn)了用戶參與&活躍估蹄、用戶主動(dòng)發(fā)布塑煎、用戶價(jià)值認(rèn)同
大神:cluster_0(9) 高發(fā)布、高認(rèn)同臭蚁、高活躍最铁,絕對的KOL(xiaohui、jet垮兑、張寧等大神)
勤奮學(xué)習(xí)者:cluster_1(72) 高活躍冷尉、中認(rèn)同、中發(fā)布系枪,積極的學(xué)習(xí)者和跟隨者應(yīng)該也是在Furion收獲最大的一群小伙伴
剛來的或者太忙的:cluster_2(500) 可以簡單分為兩類雀哨, 低發(fā)布低活躍低認(rèn)同的小伙伴(可能新同事);中高發(fā)布和認(rèn)同、低活躍的輸出型人才(估計(jì)都是項(xiàng)目上的大忙人雾棺,階段性的開壇作法膊夹,強(qiáng)哥、麗燕等同學(xué))
其他分析捌浩,未來引入更多的數(shù)據(jù)放刨,可能在下面場景進(jìn)行一些深入的分析
-
KOL預(yù)測(這是否一個(gè)好問題? 人的行為是否可以預(yù)測尸饺? 需要引入時(shí)序數(shù)據(jù)进统? KOL預(yù)測的意義和價(jià)值是什么?)
KOL預(yù)測分析基于前面用戶聚類侵佃、KOL判斷的結(jié)果進(jìn)行數(shù)據(jù)標(biāo)注麻昼,分組后的數(shù)據(jù)通過邏輯回歸方式進(jìn)行KOL預(yù)測奠支,將無監(jiān)督學(xué)習(xí)的成果應(yīng)用到監(jiān)督分類模型中馋辈。
Furion活躍預(yù)測分析(需要引入時(shí)序數(shù)據(jù)?)
how- Furion后續(xù)的運(yùn)營建議倍谜,主要從用戶迈螟、內(nèi)容、產(chǎn)品三個(gè)角度分析:
用戶運(yùn)營:拉新尔崔、促活答毫、留存,對用戶的價(jià)值和激勵(lì)
內(nèi)容運(yùn)營:內(nèi)容的質(zhì)量季春、內(nèi)容的推薦關(guān)聯(lián)度
產(chǎn)品運(yùn)營:哪些產(chǎn)品功能可能引爆用戶活躍和增長
用戶運(yùn)營
用戶運(yùn)營的關(guān)鍵在于促活(Furion全員參與)洗搂,增加對用戶/員工的價(jià)值:
激勵(lì):通過參與獲得積分兌換TD周邊,這個(gè)要繼續(xù)做载弄,而且要增加周邊的豐富度
價(jià)值:推薦的文章能讓大家真正學(xué)到東西耘拇,目前的推薦操作可能還是太簡單粗暴,是否可以引入更好的推薦機(jī)制
內(nèi)容運(yùn)營
優(yōu)秀資源的聚合宇攻,通過爬蟲抓取更多優(yōu)秀資源
KOL優(yōu)質(zhì)內(nèi)容的貢獻(xiàn)惫叛,周期爆款文章是否有額外的積分獎(jiǎng)勵(lì)
產(chǎn)品運(yùn)營
搜索功能的優(yōu)化,現(xiàn)在聯(lián)結(jié)時(shí)代逞刷,互聯(lián)網(wǎng)就是我們的存儲器嘉涌,沒有好的索引肯定不行
推薦,公司2018年在模型和算法上更進(jìn)一步夸浅,這里可以做個(gè)試驗(yàn)田
總體上下面幾個(gè)建議:
技術(shù)上仑最,增強(qiáng)搜索、推薦功能
運(yùn)營上帆喇,建議由KOL词身、高活躍用戶成立虛擬委員會,每周(選出輪值主席)進(jìn)行優(yōu)秀資源更新番枚、推薦文章標(biāo)注法严、優(yōu)秀文章評選等
內(nèi)容上损敷,高價(jià)值文章發(fā)掘、觸達(dá)深啤、激勵(lì)
資源上拗馒,積分商城持續(xù)的運(yùn)營加力,給大家足夠的激勵(lì)