數(shù)據(jù)采集概述:
1.采集目的:
獲取數(shù)據(jù)滥朱,用戶后續(xù)的建設(shè)帅戒,建立數(shù)據(jù)倉(cāng)庫(kù)提供統(tǒng)一的數(shù)據(jù)分析準(zhǔn)備炸茧。
2.采集的數(shù)據(jù)源:
以O(shè)2O企業(yè)為例阔馋,大體包含了以CRM/ERP/OA系統(tǒng)為主的業(yè)務(wù)數(shù)據(jù),以網(wǎng)站日志采集的行為數(shù)據(jù)(過(guò)程數(shù)據(jù))始腾,其他數(shù)據(jù)(和第三方交換的數(shù)據(jù)州刽、爬蟲(chóng)數(shù)據(jù)等)
3.采集數(shù)據(jù)的原則:
采集業(yè)務(wù)數(shù)據(jù)需要保持?jǐn)?shù)據(jù)的冪等性(數(shù)據(jù)可重復(fù)拉取,且不影響結(jié)果)
4.階段產(chǎn)出:
·統(tǒng)一的數(shù)據(jù)采集格式窘茁;
·數(shù)據(jù)PD對(duì)業(yè)務(wù)的數(shù)據(jù)采集推動(dòng)能力和反向搭建系統(tǒng)的推動(dòng)能力怀伦;
經(jīng)驗(yàn)和教訓(xùn)
踩過(guò)的坑:
1.行為數(shù)據(jù)以消息形式進(jìn)行傳送到數(shù)據(jù)平臺(tái),會(huì)有數(shù)據(jù)損耗(不能避免)山林;
2.某些數(shù)據(jù)需要在業(yè)務(wù)系統(tǒng)中進(jìn)行埋點(diǎn)房待,但業(yè)務(wù)重視度不高,出錯(cuò)幾率高驼抹,數(shù)據(jù)團(tuán)隊(duì)維護(hù)成本巨大桑孩;
3.由于數(shù)據(jù)平臺(tái)采集數(shù)據(jù)是跨多條業(yè)務(wù)線的,所以制定統(tǒng)一的數(shù)據(jù)采集格式極其重要框冀,包含了必要的信息流椒,和一些輔助性的信息。比如對(duì)某一業(yè)務(wù)的數(shù)據(jù)采集格式是:采集標(biāo)識(shí)明也、用戶標(biāo)識(shí)宣虾、業(yè)務(wù)線行為類型、關(guān)鍵信息温数、輔助信息等绣硝;
4.業(yè)務(wù)系統(tǒng)采集的數(shù)據(jù)未必滿足運(yùn)營(yíng)的分析需要。運(yùn)營(yíng)需求“投訴率大量增高的原因”撑刺,但是系統(tǒng)中并沒(méi)有被記錄鹉胖,只能通過(guò)Excel進(jìn)行記錄;
5.數(shù)據(jù)源不足夠或數(shù)據(jù)不完整,導(dǎo)致數(shù)據(jù)產(chǎn)品殘缺or項(xiàng)目工作量重復(fù)甫菠;
解決方案:
1.關(guān)鍵節(jié)點(diǎn)數(shù)據(jù)挠铲,采用監(jiān)控系統(tǒng),數(shù)據(jù)上報(bào)寂诱,分鐘級(jí)監(jiān)控?cái)?shù)據(jù)(可配置閾值)Dashboard;
2.自動(dòng)化測(cè)試拂苹,對(duì)埋點(diǎn)進(jìn)行自動(dòng)化測(cè)試,包含Web端和APP端的測(cè)試刹衫,降低出錯(cuò)幾率醋寝;
3.核心數(shù)據(jù)采集,采用以業(yè)務(wù)數(shù)據(jù)庫(kù)為主带迟;對(duì)于行為數(shù)據(jù),通過(guò)埋點(diǎn)進(jìn)行獲取行為數(shù)據(jù)囱桨;
4.對(duì)于業(yè)務(wù)系統(tǒng)采集的數(shù)據(jù)不滿足運(yùn)營(yíng)分析需求仓犬,反向驅(qū)動(dòng)業(yè)務(wù)人員錄入“系統(tǒng)”(臨時(shí)搭建的數(shù)據(jù)格式化采集系統(tǒng)),反向收集數(shù)據(jù)舍肠。
以上