Start - Why, What, How

數(shù)據(jù)流應用框架

在一家創(chuàng)業(yè)公司做數(shù)據(jù)業(yè)務體驗真實豐富, 苦惱而又美麗, 不同于大公司的分工明細. 一切的設計都需要根據(jù)資源和需求自己把握, 小到虛擬機, 物理機, 大到框架選型, 業(yè)務建模, 各種最基礎的技術選型都需要關心. 準備把長期積累的一些信息分享出來, 和大家討論共同進步.

WHY,?數(shù)據(jù)系統(tǒng)前面的

現(xiàn)如今國內的互聯(lián)網(wǎng)環(huán)境發(fā)展的越來越好缀拭,第三方服務提供商越來越多檀训。所以很多情況下我們都有兩個選項:接入第三方捐韩、自己做拯辙。

數(shù)據(jù)分析這塊就缆,有很多第三方服務吁脱,大的以百度統(tǒng)計、google analysis為代表即硼,通過嵌入其SDK在前端采集數(shù)據(jù)逃片,在后臺便可以查看相應的統(tǒng)計數(shù)據(jù)。這種方式的好處是簡單、免費褥实,使用非常普及呀狼,是很多初創(chuàng)企業(yè)的首選。缺點也很明顯损离,一是這樣的統(tǒng)計只能分析一些基本的訪問量哥艇、點擊率、活躍用戶量僻澎,滿足基本需求貌踏,無法結合業(yè)務數(shù)據(jù)來做深度分析;二是需要在前端很多地方埋點上報窟勃,耦合性較強祖乳;三是數(shù)據(jù)存儲在第三方的服務器中,無法直接獲取到數(shù)據(jù)源秉氧。

新興的數(shù)據(jù)分析公司了解過的有GrowingIO, 諸葛IO, 神策數(shù)據(jù). 都是優(yōu)秀的人在做的優(yōu)秀的公司, 各有特長, 有機會以后細聊, 我還是希望一篇文章的字數(shù)控制在1024左右, 不超過2048.

百度統(tǒng)計 vs 數(shù)據(jù)服務公司, 區(qū)別總結下來主要有兩點:?

一 對于搜索效果來說, 這里只說百度是因為我相信對于國內的大部分的公司來說, 互聯(lián)網(wǎng)流量的主要來源還是百度, 那我們來說70%以上的流量來源于百度. 下圖可以看到, 大量的搜索詞無法解析, 這個對于廣告投放效果, SEM/SEO的反饋優(yōu)化都不太好.?

百度統(tǒng)計內部分析行為以搜索見長, 同時也可以做轉化漏斗分析, 可以對推廣的效果有很好的了解, 可以定義ROI, 持續(xù)跟蹤推廣效果. 不斷優(yōu)化SEM. 截圖就不上了, 需要馬賽克的太多.

二 第二點不同, 相比百度統(tǒng)計, 數(shù)據(jù)分析公司提供了更靈活全面的數(shù)據(jù)采集和接入方案, 跟健全的多維分析方法, ?以及更更全面的業(yè)務指標分析, 包括留存(活躍度), 漏斗(轉化路徑)分析等等. 這一點上其實可以看到百度統(tǒng)計也在不斷引入新的功能, 新興公司如果保持上述優(yōu)勢是個問題, 可能需要提供更深入的saas服務, 與客戶的業(yè)務數(shù)據(jù)對接?


簡單分析了第三方數(shù)據(jù)服務的功能和特點. 對于我們的業(yè)務來說, 我們有復雜的內部微服務集群, mcu服務集群, 直播服務集群, 信令 323接入體系, 以及定位和功能不盡相同的設備終端. 同時我們也需要運營自己的網(wǎng)站引流. 這么多的業(yè)務數(shù)據(jù)需要收集分析和監(jiān)控, 模型的設計也很復雜, 而且要求經(jīng)常變動, 這決定了我們不可能完全依賴于三方給我們提供數(shù)據(jù)分析服務.

所以, 我們必然要上自己的分析系統(tǒng), 但合理的使用第三方服務還是必要的, 所以目前決定的是終端與網(wǎng)站等和UI操作相關的行為分析使用第三方服務, 其中留存和活躍分析提供參考信息.?

以上是為什么我們需要自己做數(shù)據(jù)分析. 也說一些官話, 隨著移動互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)思維的普及, 越來越多的創(chuàng)業(yè)者, 投資人開始重視數(shù)據(jù)的作用, 而不再是隨便拍腦袋. “數(shù)據(jù)驅動決策”, “精準化運營”, “產品快速迭代”這些概念被越來越多的人提出和使用, 其背后都離不開精準的數(shù)據(jù)分析. 對于大多數(shù)互聯(lián)網(wǎng)創(chuàng)業(yè)公司來說, 其背后沒有強大的資源與財主支撐, 如何在有限的人力, 物力下快速摸索, 少走彎路是至關重要的, 而基于“數(shù)據(jù)驅動”來做決策眷昆、運營與產品將起到一個關鍵的作用.

WHAT

我們并不是一個純粹的互聯(lián)網(wǎng)公司, 甚至可以說目前并不是, 但其實我們有非常豐富立體的數(shù)據(jù), 這塊的財富我相信隨著業(yè)務量的增長他的價值是不可估量的. 小廠做數(shù)據(jù)分析, 這個度很重要, 能做的事情很多, 尤其是面對著這么美麗的信息, 不過畢竟資源有限, 需要認真考慮那些事情是有價值的, 是可落地的. 其實即使對大廠來說, 數(shù)據(jù)分析方面的優(yōu)秀實踐好像也僅僅是我們了解到的標定特征, 推薦方面, 而且有些很高大的推薦算法所產出的效果可能并沒有那么美麗.

對于從零開始的創(chuàng)業(yè)公司, 數(shù)據(jù)的需求早期可能集中在各種報表的展示, 包括基本的運營情況, 包括各種產品使用的統(tǒng)計情況, 這個其實很重要, 讓大家看到數(shù)據(jù)很重要. 對事物的認識其實也是從簡單開始, 大家熟悉了數(shù)據(jù)之后, 必然會有很多OLAP的分析需求. 所謂數(shù)據(jù)分析師會了解更多的如何發(fā)現(xiàn)我們所不知道的知識的能力, 但其實每個深刻了解業(yè)務的人都可以是個好的"分析師", 需要給大家這個機會和途徑去分析.

數(shù)據(jù)的處理其實是個標準化的處理流程, 文章開頭的流程我覺得已經(jīng)涵蓋的很清楚, 包括數(shù)據(jù)的采集, 傳輸處理, 分析及可視化. 做這個系統(tǒng)之前一掉要有充分的心里準備, 因為數(shù)據(jù)源, 基礎數(shù)據(jù)的處理工作可能會占用你70% ~ 80%的時間, 而且可能很枯燥和煩人, 但是這個工作是一切的基礎, 必須認真對待, 包括數(shù)據(jù)的格式, 命名標準, 數(shù)據(jù)的采集方式, 數(shù)據(jù)的業(yè)務級別定義等等. 而且有個很重要的部分是元數(shù)據(jù)的管理, 隨著業(yè)務的發(fā)展, 這塊會越來越重要, 所以即使初期不知道怎么做, 也需要心心念.

這個圖是曾經(jīng)探索學習的階段, 神策數(shù)據(jù)的桑文鋒大牛課上的一張圖, 抱歉直接用了.

HOW

實現(xiàn)需要結合自身的業(yè)務,做的更靈活汁咏,盡早摸索數(shù)據(jù)業(yè)務亚斋,逐步建立相應的數(shù)據(jù)系統(tǒng)。當然梆暖,自己做并不代表是造輪子伞访,創(chuàng)業(yè)公司需要充分利用開源框架來實現(xiàn)相應的功能掂骏。

關于如何這個topic, 其實應該好好講講我自己的學習歷程, 因為我并不是這個領域的, 基本上零基礎, 當初在用mongo的mapreduce寫大量case的時候, 我連SQL都還不太會寫. 這個過程真的是非常的辛苦, 數(shù)據(jù)這個領域無論是工程方向, 還是分析挖掘方向, 即便是可視化都有很多的美的東西需要去學習和體會.

文章開頭其實是我們現(xiàn)在已經(jīng)基本建立起來的, 以后會詳細展開. [2048]

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末轰驳,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子弟灼,更是在濱河造成了極大的恐慌级解,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,332評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件田绑,死亡現(xiàn)場離奇詭異勤哗,居然都是意外死亡,警方通過查閱死者的電腦和手機掩驱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,508評論 3 385
  • 文/潘曉璐 我一進店門芒划,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人欧穴,你說我怎么就攤上這事民逼。” “怎么了涮帘?”我有些...
    開封第一講書人閱讀 157,812評論 0 348
  • 文/不壞的土叔 我叫張陵拼苍,是天一觀的道長。 經(jīng)常有香客問我调缨,道長疮鲫,這世上最難降的妖魔是什么吆你? 我笑而不...
    開封第一講書人閱讀 56,607評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮俊犯,結果婚禮上妇多,老公的妹妹穿的比我還像新娘。我一直安慰自己瘫析,他們只是感情好砌梆,可當我...
    茶點故事閱讀 65,728評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著贬循,像睡著了一般咸包。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上杖虾,一...
    開封第一講書人閱讀 49,919評論 1 290
  • 那天烂瘫,我揣著相機與錄音,去河邊找鬼奇适。 笑死坟比,一個胖子當著我的面吹牛,可吹牛的內容都是我干的嚷往。 我是一名探鬼主播葛账,決...
    沈念sama閱讀 39,071評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼皮仁!你這毒婦竟也來了籍琳?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,802評論 0 268
  • 序言:老撾萬榮一對情侶失蹤贷祈,失蹤者是張志新(化名)和其女友劉穎趋急,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體势誊,經(jīng)...
    沈念sama閱讀 44,256評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡呜达,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,576評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了粟耻。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片查近。...
    茶點故事閱讀 38,712評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖挤忙,靈堂內的尸體忽然破棺而出霜威,到底是詐尸還是另有隱情,我是刑警寧澤饭玲,帶...
    沈念sama閱讀 34,389評論 4 332
  • 正文 年R本政府宣布侥祭,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏矮冬。R本人自食惡果不足惜谈宛,卻給世界環(huán)境...
    茶點故事閱讀 40,032評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望胎署。 院中可真熱鬧吆录,春花似錦、人聲如沸琼牧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽巨坊。三九已至撬槽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間趾撵,已是汗流浹背侄柔。 一陣腳步聲響...
    開封第一講書人閱讀 32,026評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留占调,地道東北人暂题。 一個月前我還...
    沈念sama閱讀 46,473評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像究珊,于是被迫代替她去往敵國和親薪者。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,606評論 2 350

推薦閱讀更多精彩內容