在一家創(chuàng)業(yè)公司做數(shù)據(jù)業(yè)務體驗真實豐富, 苦惱而又美麗, 不同于大公司的分工明細. 一切的設計都需要根據(jù)資源和需求自己把握, 小到虛擬機, 物理機, 大到框架選型, 業(yè)務建模, 各種最基礎的技術選型都需要關心. 準備把長期積累的一些信息分享出來, 和大家討論共同進步.
WHY,?數(shù)據(jù)系統(tǒng)前面的
現(xiàn)如今國內的互聯(lián)網(wǎng)環(huán)境發(fā)展的越來越好缀拭,第三方服務提供商越來越多檀训。所以很多情況下我們都有兩個選項:接入第三方捐韩、自己做拯辙。
數(shù)據(jù)分析這塊就缆,有很多第三方服務吁脱,大的以百度統(tǒng)計、google analysis為代表即硼,通過嵌入其SDK在前端采集數(shù)據(jù)逃片,在后臺便可以查看相應的統(tǒng)計數(shù)據(jù)。這種方式的好處是簡單、免費褥实,使用非常普及呀狼,是很多初創(chuàng)企業(yè)的首選。缺點也很明顯损离,一是這樣的統(tǒng)計只能分析一些基本的訪問量哥艇、點擊率、活躍用戶量僻澎,滿足基本需求貌踏,無法結合業(yè)務數(shù)據(jù)來做深度分析;二是需要在前端很多地方埋點上報窟勃,耦合性較強祖乳;三是數(shù)據(jù)存儲在第三方的服務器中,無法直接獲取到數(shù)據(jù)源秉氧。
新興的數(shù)據(jù)分析公司了解過的有GrowingIO, 諸葛IO, 神策數(shù)據(jù). 都是優(yōu)秀的人在做的優(yōu)秀的公司, 各有特長, 有機會以后細聊, 我還是希望一篇文章的字數(shù)控制在1024左右, 不超過2048.
百度統(tǒng)計 vs 數(shù)據(jù)服務公司, 區(qū)別總結下來主要有兩點:?
一 對于搜索效果來說, 這里只說百度是因為我相信對于國內的大部分的公司來說, 互聯(lián)網(wǎng)流量的主要來源還是百度, 那我們來說70%以上的流量來源于百度. 下圖可以看到, 大量的搜索詞無法解析, 這個對于廣告投放效果, SEM/SEO的反饋優(yōu)化都不太好.?
百度統(tǒng)計內部分析行為以搜索見長, 同時也可以做轉化漏斗分析, 可以對推廣的效果有很好的了解, 可以定義ROI, 持續(xù)跟蹤推廣效果. 不斷優(yōu)化SEM. 截圖就不上了, 需要馬賽克的太多.
二 第二點不同, 相比百度統(tǒng)計, 數(shù)據(jù)分析公司提供了更靈活全面的數(shù)據(jù)采集和接入方案, 跟健全的多維分析方法, ?以及更更全面的業(yè)務指標分析, 包括留存(活躍度), 漏斗(轉化路徑)分析等等. 這一點上其實可以看到百度統(tǒng)計也在不斷引入新的功能, 新興公司如果保持上述優(yōu)勢是個問題, 可能需要提供更深入的saas服務, 與客戶的業(yè)務數(shù)據(jù)對接?
簡單分析了第三方數(shù)據(jù)服務的功能和特點. 對于我們的業(yè)務來說, 我們有復雜的內部微服務集群, mcu服務集群, 直播服務集群, 信令 323接入體系, 以及定位和功能不盡相同的設備終端. 同時我們也需要運營自己的網(wǎng)站引流. 這么多的業(yè)務數(shù)據(jù)需要收集分析和監(jiān)控, 模型的設計也很復雜, 而且要求經(jīng)常變動, 這決定了我們不可能完全依賴于三方給我們提供數(shù)據(jù)分析服務.
所以, 我們必然要上自己的分析系統(tǒng), 但合理的使用第三方服務還是必要的, 所以目前決定的是終端與網(wǎng)站等和UI操作相關的行為分析使用第三方服務, 其中留存和活躍分析提供參考信息.?
以上是為什么我們需要自己做數(shù)據(jù)分析. 也說一些官話, 隨著移動互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)思維的普及, 越來越多的創(chuàng)業(yè)者, 投資人開始重視數(shù)據(jù)的作用, 而不再是隨便拍腦袋. “數(shù)據(jù)驅動決策”, “精準化運營”, “產品快速迭代”這些概念被越來越多的人提出和使用, 其背后都離不開精準的數(shù)據(jù)分析. 對于大多數(shù)互聯(lián)網(wǎng)創(chuàng)業(yè)公司來說, 其背后沒有強大的資源與財主支撐, 如何在有限的人力, 物力下快速摸索, 少走彎路是至關重要的, 而基于“數(shù)據(jù)驅動”來做決策眷昆、運營與產品將起到一個關鍵的作用.
WHAT
我們并不是一個純粹的互聯(lián)網(wǎng)公司, 甚至可以說目前并不是, 但其實我們有非常豐富立體的數(shù)據(jù), 這塊的財富我相信隨著業(yè)務量的增長他的價值是不可估量的. 小廠做數(shù)據(jù)分析, 這個度很重要, 能做的事情很多, 尤其是面對著這么美麗的信息, 不過畢竟資源有限, 需要認真考慮那些事情是有價值的, 是可落地的. 其實即使對大廠來說, 數(shù)據(jù)分析方面的優(yōu)秀實踐好像也僅僅是我們了解到的標定特征, 推薦方面, 而且有些很高大的推薦算法所產出的效果可能并沒有那么美麗.
對于從零開始的創(chuàng)業(yè)公司, 數(shù)據(jù)的需求早期可能集中在各種報表的展示, 包括基本的運營情況, 包括各種產品使用的統(tǒng)計情況, 這個其實很重要, 讓大家看到數(shù)據(jù)很重要. 對事物的認識其實也是從簡單開始, 大家熟悉了數(shù)據(jù)之后, 必然會有很多OLAP的分析需求. 所謂數(shù)據(jù)分析師會了解更多的如何發(fā)現(xiàn)我們所不知道的知識的能力, 但其實每個深刻了解業(yè)務的人都可以是個好的"分析師", 需要給大家這個機會和途徑去分析.
數(shù)據(jù)的處理其實是個標準化的處理流程, 文章開頭的流程我覺得已經(jīng)涵蓋的很清楚, 包括數(shù)據(jù)的采集, 傳輸處理, 分析及可視化. 做這個系統(tǒng)之前一掉要有充分的心里準備, 因為數(shù)據(jù)源, 基礎數(shù)據(jù)的處理工作可能會占用你70% ~ 80%的時間, 而且可能很枯燥和煩人, 但是這個工作是一切的基礎, 必須認真對待, 包括數(shù)據(jù)的格式, 命名標準, 數(shù)據(jù)的采集方式, 數(shù)據(jù)的業(yè)務級別定義等等. 而且有個很重要的部分是元數(shù)據(jù)的管理, 隨著業(yè)務的發(fā)展, 這塊會越來越重要, 所以即使初期不知道怎么做, 也需要心心念.
這個圖是曾經(jīng)探索學習的階段, 神策數(shù)據(jù)的桑文鋒大牛課上的一張圖, 抱歉直接用了.
HOW
實現(xiàn)需要結合自身的業(yè)務,做的更靈活汁咏,盡早摸索數(shù)據(jù)業(yè)務亚斋,逐步建立相應的數(shù)據(jù)系統(tǒng)。當然梆暖,自己做并不代表是造輪子伞访,創(chuàng)業(yè)公司需要充分利用開源框架來實現(xiàn)相應的功能掂骏。
關于如何這個topic, 其實應該好好講講我自己的學習歷程, 因為我并不是這個領域的, 基本上零基礎, 當初在用mongo的mapreduce寫大量case的時候, 我連SQL都還不太會寫. 這個過程真的是非常的辛苦, 數(shù)據(jù)這個領域無論是工程方向, 還是分析挖掘方向, 即便是可視化都有很多的美的東西需要去學習和體會.
文章開頭其實是我們現(xiàn)在已經(jīng)基本建立起來的, 以后會詳細展開. [2048]