本節(jié)重點講解怎么使用 OneData 這套體系和相配套的工具實施數據系統(tǒng)的模型建設清酥,在講解中會以阿里巴巴的具體業(yè)務進行說明
指導方針
首先乌助,在建設大數據數據倉庫時呻率,要進行充分的業(yè)務調研和 求分析。這是數據倉庫建設的基石锄弱,業(yè)務調研和需求分析做得是否充分直接決定了數據倉庫建設是否成功考蕾。其次,進行數據總體架構設計会宪,主要是根據數據域對數據進行劃分肖卧;按照維度建模理論,構建總線矩陣掸鹅、抽象出業(yè)務過程和維度塞帐。再次,對報表需求進行抽象整理出相關指標體系巍沙,使用 OneData 工具完成指標規(guī)范定義和模型設計葵姥。最后,就是代碼研發(fā)和運維赎瞎。本文將會重點講解物理模型設計之前(含)步驟的內容牌里。
實施工作流
(1)數據調研
業(yè)務調研
整個阿里集團涉及的業(yè)務涵蓋電商、數 娛樂、導航(高德)牡辽、動互聯網服務等領域喳篇。各個領域又涵蓋多個業(yè)務線,如電商領域就涵蓋類(淘寶态辛、天貓麸澜、天貓國際)與 類(阿里巴巴中文站、國際站速賣通)業(yè)務奏黑。數據倉庫是要涵蓋所有業(yè)務領域炊邦,還是各個業(yè)務領域獨自建設,業(yè)務領域內的業(yè)務線也同樣面臨著這個問題熟史。所以要構建大數據數據倉庫馁害,就需要了解各個業(yè)務領域、業(yè)務線的業(yè)務有什么共同不同點 蹂匹,以及各個業(yè)務線可以細分為哪幾個業(yè)務模塊碘菜,每個業(yè)務模塊具體的業(yè)務流程又是怎樣的。業(yè)務調研是否充分限寞,將會直接決定數據倉庫建設是否成功忍啸。
在阿里巴巴, 般各個業(yè)務領域獨自建設數據倉庫履植,業(yè)務領域內的業(yè)務線由于業(yè)務相似计雌、業(yè)務相關性較大,進行統(tǒng)一集 中建設玫霎。
如表 9.3 所示是粗粒度的 類電商業(yè)務調研凿滤,不難發(fā)現幾個功能塊/業(yè)務線除了淘寶無供應鏈管理外,其他幾乎一樣庶近。
需求調研
可以想象一下鸭巴,在沒有考慮分析師、業(yè)務運營人員的數據需求的情況下拦盹,根據業(yè)務調研建設的數據倉庫無疑等于閉 門造車。了解了業(yè)務統(tǒng)的業(yè)務后并不代表就可以進行實施了溪椎,此刻要做的就是收集數據使用者的需求普舆,可以去找分析師、業(yè)務運營人員了解他們有什么數據訴求校读,此時更多的就是報表需求沼侣。
需求調研的途徑有兩種: 是根據與分析師、業(yè)務運營人員的溝通(郵件歉秫、 IM )獲知需求: 是對報表系統(tǒng)中現有的報表進行研究分析通過需求調研分析后蛾洛,就清楚數據要做成什么樣的。很多時候,都是由具體的數據需求驅動數據倉庫團隊去了解業(yè)務系統(tǒng)的業(yè)務數據轧膘,這兩者并沒有嚴格的先后順序钞螟。
舉例 分析師需要了解大淘寶(淘寶、天貓谎碍、天貓國際) 級類目的成交金額鳞滨。當獲知這個需求后,我們要分析根據什么(維度)匯總蟆淀,以及匯總什么(度量)拯啦,這里類目是維度,金額是度量:明細數據和匯總數據應該怎樣設計熔任?這是一個公用的報表嗎褒链?是需要沉淀到匯總里面,還是在報表工具中進行匯總疑苔?