爬了5個多月
從2017年6月16日開始垦沉,我用自己的樹莓派每天爬取簡書“短篇小說”集里的文章和讀者交互數(shù)據(jù)稿饰,做一些簡單的分析輸出:
此外栅葡,還統(tǒng)計了每天“短篇小說”頻道的以下內(nèi)容:
閱讀量
點贊量
回復量
-
打賞量(打賞金額無法獲取)
時至今日,已經(jīng)積累了足夠數(shù)據(jù)泌参,樣本集基本滿足正態(tài)分布:
感興趣的可以通過這個鏈接看基本數(shù)據(jù)。
關于數(shù)據(jù)清洗
從第一幅圖中可以看到一些數(shù)據(jù)斷片和毛刺常空,原因有以下幾個:
- 公司停電
- 出國坐飛機
- 簡書修改了頁面html導致爬蟲失效
- 重啟爬蟲導致爬取時間間隔不是嚴格的24小時
好在斷片比較好處理沽一,都設置成均值即可。
對于造成毛刺的outlier漓糙,若其zscore<-2或zscore>2锯玛,也設置成均值。
這樣處理對于統(tǒng)計結(jié)果不會有影響兼蜈。
先說結(jié)論
-
寫短篇小說很難賺錢
看第一幅圖里底部那條羸弱的黃色曲線(那是每日打賞次數(shù))攘残,從來都沒有雄起過。
確切的說为狸,每日打賞次數(shù)穩(wěn)定地維持在32次/日歼郭,占閱讀的比值大概0.3%。
單獨拿出來看辐棒,曲線是這樣的:
從直方圖可以看到病曾,這個分布是正態(tài)的。
也就是說漾根,短期不會改變泰涂。
而落到作者頭上的分布完美匹配長尾:
以上統(tǒng)計是過去5個月的數(shù)據(jù)。即使是收到打賞最多的作者辐怕,也就300多次逼蒙,算算也沒多少錢。
-
閱讀量在緩慢增長寄疏,但是很慢
如圖所示是牢,在8月份閱讀量有所上升僵井,但是后來又降下來了,造成整體趨勢沒有統(tǒng)計明顯的變化驳棱。無論做t-test還是ANOVA都得到“沒有變化”的結(jié)果批什。 -
新小說數(shù)量和回復量穩(wěn)步增長
和閱讀量、打賞量不同的是社搅,每日新帖的數(shù)量和回復量在穩(wěn)步上升驻债。
仔細看看回復的內(nèi)容,能夠明顯分析出來形葬,是作者們在互相鼓勵合呐,提建議等。
希望這種“自我鼓勵”能夠帶來更多的讀者荷并。
變量間的相互關系
分析所爬取的各種變量計算相關系數(shù)合砂,得到上面的圖,以及以下觀點:
- 閱讀量的提高能夠拉動新帖源织,點贊翩伪,回復和打賞。
- 閱讀量谈息、點贊缘屹、回復,三者之間有強烈的正向關系侠仇。
- 至于打賞轻姿,各種關系都不強烈。
更細節(jié)的非線性關系如下
閱讀量對于點贊和回復的正向關系是非常明確的逻炊。
即使在非線性模型下互亮,依然表現(xiàn)出“線性”的正向。
點贊量和回復量在正太分布的主要區(qū)間內(nèi)有正向關系余素,但是在分布的兩端卻出現(xiàn)了逆轉(zhuǎn):
- 點贊量很少的文章豹休,回復量卻反而提高。
這應該是有大牛在鼓勵新人桨吊,或者說威根,帶小號吧。 - 點贊量巨大的文章视乐, 回復量反而有下降洛搀。
這說明經(jīng)常回復的人只是一部分固定的人佑淀。除開這些人留美,其他人大都點個贊了事。
同樣的模式出現(xiàn)在了點贊和打賞的關系中:
從這些“扭曲”的關系里看出,讀者中的確有一部分是抱著”特別任務“來參與閱讀和交互的独榴。
總結(jié)
如果“短篇小說”頻道繼續(xù)以以往的方式運營下去僧叉,看來是難有突破奕枝。因為打賞的水平非常低棺榔,所以只能靠簽約來養(yǎng)活作者。但是給作者多發(fā)了工資隘道,并不能提高打賞的數(shù)量症歇,換句話說,平臺抽水還是微乎其微谭梗。
因此忘晤,“短篇小說”頻道,乃至簡書整個平臺激捏,都需要思考另外的方式來養(yǎng)活自己和作者們设塔。比如借鑒知乎出書,或者豆瓣的一些方式远舅。