學(xué)習(xí)爬蟲的時候,對公司知識社區(qū)的推薦文章列表靠闭,用戶列表進行了簡單爬取续搀,數(shù)據(jù)分析的過程中發(fā)現(xiàn)一些有意思的點塞琼,跟大家分享下。
本篇文章主要分為三部分:
- 為什么做知識社區(qū)禁舷、這個社區(qū)是什么彪杉?
- 社區(qū)的發(fā)展情況的數(shù)據(jù)分析
- 結(jié)合數(shù)據(jù)分析給出的一些社區(qū)運營建設(shè)
why- 為什么做知識社區(qū)?
社區(qū)是公司老板為了推進TD構(gòu)建學(xué)習(xí)型榛了、開放型在讶、分享型組織在2017年初做的一次嘗試,從目前來看文章累積10w篇霜大,推薦文章2400多篇构哺,累積用戶600多位,很好的帶動了公司的學(xué)習(xí)和分享氛圍。
這些文章大家肯定都不陌生:
《奔跑吧曙强,程序員残拐!》,《阿里曾鳴教授 到訪交流紀要:商業(yè)模式碟嘴、企業(yè)管理溪食、數(shù)據(jù)和發(fā)展探討》,《美國東岸大數(shù)據(jù)交流訪問總結(jié)》娜扇,《XX項目紀實-客戶需要外腦做什么错沃?》
what- 知識社區(qū)是什么?
公司社區(qū)以類知乎的問答社區(qū)為模板雀瓢,但是由于目前的封閉性(公司內(nèi)部使用)枢析,用戶人群數(shù)量和多樣性無法保證很好的問答氛圍,定位還是以知識刃麸、資訊的閱讀和推薦為主醒叁。
how about- 社區(qū)發(fā)展的怎么樣?
前面已經(jīng)提到社區(qū)的文章數(shù)泊业、推薦書把沼、用戶數(shù),下面通過一些更具體的數(shù)據(jù)給大家展示下系統(tǒng)的運行情況(非官方)
社區(qū)發(fā)展的時間線分析
這里選取了社區(qū)最優(yōu)質(zhì)的內(nèi)容-推薦文章的數(shù)量來反饋社區(qū)的整體發(fā)展情況
[圖片上傳中...(1.png-f21962-1517377751310-0)]
- 第一階段:201703-201707 啟動階段吁伺,以信息聚合和用戶習(xí)慣培養(yǎng)為主
這個階段社區(qū)冷啟動饮睬,以Admin爬取網(wǎng)絡(luò)熱點信息為主,同時積極培育用戶的使用習(xí)慣篮奄,主要的資訊來源有:
- 產(chǎn)品經(jīng)理社區(qū):人人都是產(chǎn)品經(jīng)理续捂、產(chǎn)品中國、產(chǎn)品壹佰宦搬、騰訊ISUX
- 科技資訊媒體:雷鋒網(wǎng)、36kr劫拗、未央網(wǎng)间校、互聯(lián)網(wǎng)一些事
- 人工智能和機器學(xué)習(xí)社區(qū):機器之心(對社區(qū)內(nèi)容的認可已經(jīng)體現(xiàn)到公司的投資行為中)、KDnuggets
- 數(shù)據(jù)相關(guān)社區(qū)或者自媒體: 數(shù)據(jù)猿页慷、數(shù)盟社區(qū)
- 第二階段:201708-201712 迅速增長階段憔足,文章推薦量、用戶活躍迅速發(fā)展酒繁,一些知識大V涌現(xiàn)
這個階段文章的推薦量滓彰、用戶的使用習(xí)慣都已經(jīng)形成,一些積極分享的大V涌現(xiàn)州袒,成為某個專題的KOL
- 機器學(xué)習(xí):xxxx
- 金融科技:xxxx
- 產(chǎn)品:xxx
- 新零售: xxxx
- 技術(shù):xxxx
- 當前情況:活躍有所下降揭绑,17年底18開年大家在社區(qū)上投入精力減少,結(jié)合具體的數(shù)據(jù)分析后面會提出一些運營的建議
以上是平臺總體運營情況,下面通過三個案例進行下場景化分析
- KOL影響力分析
- 用戶聚類分析
- 其他可能分析方向
社區(qū)KOL分析
知識分享社區(qū)中KOL對平臺的發(fā)展非常重要他匪,如何用數(shù)據(jù)刻畫菇存,通過爬蟲我從下面兩個維度進行了大V信息的抓取
- 大V文章的影響力數(shù)據(jù),包括
- 推薦列表文章數(shù)
- 文章的瀏覽量
- 文章的平均瀏覽量
- 點贊數(shù)
- 平均點贊數(shù)
- 回復(fù)數(shù)
- 平均回復(fù)數(shù)
- 大V們的社區(qū)行為數(shù)據(jù)邦蜜,包括
- 發(fā)布文章數(shù)
- 閱讀文章數(shù)
- 點贊數(shù)(點贊他人文章)
- 推薦數(shù)(推薦他人文章)
- 威望
上面的數(shù)據(jù)哪些最能反應(yīng)大V的論壇影響力呢依鸥? 這里先進行了下關(guān)聯(lián)度分析:
通過關(guān)聯(lián)度的顯著分析,我們是否可以這些假設(shè):
社區(qū)威望悼沈,初始規(guī)則-基于點贊和被推薦進行計算(目前Furion的設(shè)置規(guī)則不詳贱迟?),是否合理的反應(yīng)了大V的社區(qū)影響力(目前Grade并沒有太多匹配的強相關(guān)數(shù)據(jù))
推薦和發(fā)布文章強相關(guān)絮供,說明大家對內(nèi)容的把握都比較高衣吠,認為可以推薦給大家給大家?guī)硪恍椭?/p>
推薦和文章回復(fù)強相關(guān),說明被推薦的文章曝光和響應(yīng)更多
瀏覽和點贊強相關(guān)杯缺,說明瀏覽量大的文章質(zhì)量都不錯
瀏覽和回復(fù)強相關(guān)蒸播,說明瀏覽量大的文章引出的互動更多
點贊和回復(fù)強相關(guān),可以作為文章質(zhì)量的指標
閱讀和推薦強相關(guān)萍肆,讀文章多的小伙伴在給大家當知識過濾器
總體看袍榆,KOL更多還是發(fā)表優(yōu)秀的文章,通過推薦觸達更多的用戶塘揣,由所有用戶的點贊包雀、瀏覽、回復(fù)形成影響力亲铡。
以上這里KOL的界定還是以經(jīng)驗才写、數(shù)據(jù)表現(xiàn)為主,后續(xù)在全體用戶的分析中奖蔓,我會嘗試通過標注的方式赞草,讓機器告訴我們誰是KOL、誰會是潛力KOL
社區(qū)用戶聚類分析
通過用戶的行為數(shù)據(jù)進行相關(guān)的聚類分析吆鹤,主要數(shù)據(jù)如下:
- 發(fā)布文章數(shù)
- 閱讀文章數(shù)
- 回復(fù)文章數(shù)
- 點贊文章數(shù)
- 推薦文章數(shù)
- 社區(qū)威望
- 社區(qū)積分
- 被點贊數(shù)
樣本數(shù)據(jù)如下:
[圖片上傳失敗...(image-585b26-1517376880821)]
執(zhí)行聚類算法之前的假設(shè)厨疙,用戶分為:KOL高影響力人群、活躍人群疑务、潛力KOL人群沾凄、不活躍人群, 具體聚類的過程如下:
- Round1 設(shè)置 k=4 聚類結(jié)果知允,發(fā)現(xiàn)有個聚簇只有一個樣本撒蟀,查詢數(shù)據(jù)為admin(爬蟲),清洗數(shù)據(jù)繼續(xù)聚類
- Roudn2 設(shè)置k=3温鸽,具體結(jié)果如下
聚類結(jié)果中大部分KOL被分入cluster_2保屯,但是仍舊有不少KOL被列入cluster_1,而且聚簇效果一般。
需要進行數(shù)據(jù)清理兩個辦法:
數(shù)據(jù)量綱統(tǒng)一:大部分長尾數(shù)據(jù)存在的情況下 統(tǒng)一量綱不是一個好選擇配椭;
-
離群點處理:這里要注意避免誤傷真正的KOL虫溜;離群點處理使用數(shù)據(jù)過濾,維度上設(shè)置閾值股缸,針對超出的數(shù)據(jù)直接丟棄
- 閱讀量大的極端用戶:read>1000
- 被贊同量大的離群點:agreed>1000 Leo同學(xué)是不可復(fù)制的
- 無法明確含義的數(shù)據(jù):grade列去掉
-
Round3 設(shè)置閾值后的聚類效果
k=3對應(yīng)群組: KOL(發(fā)表文章衡楞、回復(fù)文章、被點贊較多)敦姻、Follower(閱讀瘾境、點贊較多)、Un-active(較不活躍)
-
k=4對應(yīng)群組:cluster_0 36位潛力KOL镰惦、cluster_1 106位積極參與者迷守、cluster_2 9位KOL、cluster_3 430人這里區(qū)分還是不夠清晰
如何進一步嘗試旺入,切換聚類的算法兑凿?重設(shè)k值?
-
Round4 設(shè)置k=5茵瘾,大概分群礼华,這次分群有一定聚簇效果,但是可視化效果比較差
- cluster_2低活躍
- cluster_4 閱讀和點贊較多
- cluster_1 活躍度更高拗秘,開始嘗試主動pub
- cluster_0 KOL
- cluster_3 輸出為主
-
經(jīng)過N輪的整理圣絮,最后選擇k=3
結(jié)果的可視化效果(長尾分布可以使用log scale視圖),通過調(diào)整得到最好的聚簇效果(弱相關(guān)特征維度上進行展現(xiàn))
- x軸-活躍:read 通過瀏覽和點贊行為可以反映用戶的活躍程度雕旨;
- y軸-發(fā)布:pub 通過發(fā)布文章反映用戶的主動分享精神扮匠;
- 氣泡-被贊同:agreed 文章被贊同一定程度反饋了內(nèi)容的價值和作者的影響力
* 大神:cluster_0(9) 高發(fā)布、高認同凡涩、高活躍棒搜,絕對的KOL(xxxx等大神)
* 勤奮學(xué)習(xí)者:cluster_1(72) 高活躍、中認同活箕、中發(fā)布帮非,積極的學(xué)習(xí)者和跟隨者應(yīng)該也是在Furion收獲最大的一群小伙伴
* 剛來的或者太忙的:cluster_2(500) 可以簡單分為兩類, 低發(fā)布低活躍低認同的小伙伴(可能新同事)讹蘑;中高發(fā)布和認同、低活躍的輸出型人才(估計都是項目上的大忙人筑舅,階段性的開壇作法座慰,xxxxx等同學(xué))
其他分析,未來引入更多的數(shù)據(jù)翠拣,可能在下面場景進行一些深入的分析
-
KOL預(yù)測(這是否一個好問題版仔? 人的行為是否可以預(yù)測? 需要引入時序數(shù)據(jù)? KOL預(yù)測的意義和價值是什么蛮粮?)
KOL預(yù)測分析基于前面用戶聚類益缎、KOL判斷的結(jié)果進行數(shù)據(jù)標注,分組后的數(shù)據(jù)通過邏輯回歸方式進行KOL預(yù)測然想,將無監(jiān)督學(xué)習(xí)的成果應(yīng)用到監(jiān)督分類模型中莺奔。
社區(qū)活躍預(yù)測分析(需要引入時序數(shù)據(jù)?)
how- 社區(qū)后續(xù)的運營建議变泄,主要從用戶令哟、內(nèi)容、產(chǎn)品三個角度分析:
- 用戶運營:拉新妨蛹、促活屏富、留存,對用戶的價值和激勵
- 內(nèi)容運營:內(nèi)容的質(zhì)量蛙卤、內(nèi)容的推薦關(guān)聯(lián)度
- 產(chǎn)品運營:哪些產(chǎn)品功能可能引爆用戶活躍和增長
用戶運營
用戶運營的關(guān)鍵在于促活(社區(qū)全員參與)狠半,增加對用戶/員工的價值:
- 激勵:通過參與獲得積分兌換TD周邊,這個要繼續(xù)做颤难,而且要增加周邊的豐富度
- 價值:推薦的文章能讓大家真正學(xué)到東西神年,目前的推薦操作可能還是太簡單粗暴,是否可以引入更好的推薦機制
內(nèi)容運營
- 優(yōu)秀資源的聚合乐严,通過爬蟲抓取更多優(yōu)秀資源
- KOL優(yōu)質(zhì)內(nèi)容的貢獻瘤袖,周期爆款文章是否有額外的積分獎勵
產(chǎn)品運營
- 搜索功能的優(yōu)化,現(xiàn)在聯(lián)結(jié)時代昂验,互聯(lián)網(wǎng)就是我們的存儲器捂敌,沒有好的索引肯定不行
- 推薦,公司2018年在模型和算法上更進一步既琴,這里可以做個試驗田
總體上下面幾個建議:
- 技術(shù)上占婉,增強搜索、推薦功能
- 運營上甫恩,建議由KOL逆济、高活躍用戶成立虛擬委員會,每周(選出輪值主席)進行優(yōu)秀資源更新磺箕、推薦文章標注奖慌、優(yōu)秀文章評選等
- 內(nèi)容上,高價值文章發(fā)掘松靡、觸達简僧、激勵
- 資源上,積分商城持續(xù)的運營加力雕欺,給大家足夠的激勵