內(nèi)容來源:2017年7月8日军拟,阿里云高級技術(shù)專家后稷在“阿里云—數(shù)據(jù)化運(yùn)營實踐分享【7上海站】”進(jìn)行《阿里數(shù)據(jù)倉庫搭建實踐分享》演講分享。IT大咖說(ID:itdakashuo)作為獨家視頻合作方,經(jīng)主辦方和講者審閱授權(quán)發(fā)布操漠。
閱讀字?jǐn)?shù):1605?| 4分鐘閱讀
嘉賓演講視頻回顧及PPT烹笔,請點擊鏈接:http://t.cn/RgN0RsJ
摘要
數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程澄耍,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合噪珊。它是單個數(shù)據(jù)存儲晌缘,出于分析性報告和決策支持目的而創(chuàng)建。為需要業(yè)務(wù)智能的企業(yè)痢站,提供指導(dǎo)業(yè)務(wù)流程改進(jìn)磷箕、監(jiān)視時間、成本阵难、質(zhì)量以及控制岳枷。
基礎(chǔ)
搭建數(shù)據(jù)倉庫主要需要建模的能力,還要沉淀一些維度表呜叫。除此之外還要不斷地挖掘數(shù)據(jù)空繁,來把模型建得更好。
應(yīng)該做的幾件事
簡介
在得到活動數(shù)據(jù)后朱庆,要把這些數(shù)據(jù)投入到數(shù)據(jù)倉庫中盛泡,并且做以下幾件事:
用戶或者實體的識別需要統(tǒng)一。
PC和無線端的數(shù)據(jù)打通娱颊。
圍繞實體和跨業(yè)務(wù)間的事實數(shù)據(jù)打通傲诵。
重要事實表的維度冗余。
用戶畫像或客戶畫像箱硕。
有怎樣的市場價值
目前我們已經(jīng)積累了很多用戶數(shù)據(jù)拴竹,這些數(shù)據(jù)都是非常寶貴的資源,我們基于這些數(shù)據(jù)做了一些開發(fā)利用颅痊。
搭建了數(shù)據(jù)倉庫就可以把用戶分析的數(shù)據(jù)用來做個性化推薦殖熟、定向營銷、風(fēng)控等等斑响。
數(shù)據(jù)倉庫的市場價值在于需求場景驅(qū)動的集市層建設(shè)菱属,各集市之間垂直構(gòu)建。
集市層深度挖掘數(shù)據(jù)價值舰罚,并需要能夠快速試錯纽门。
以阿里金融在后臺大數(shù)據(jù)中的運(yùn)行過程為例,我們會從關(guān)系數(shù)據(jù)庫中把用戶相關(guān)的所有數(shù)據(jù)全部導(dǎo)入到MaxCompute中营罢,然后記錄用戶的一些操作日志赏陵,比如登錄過哪些網(wǎng)站、瀏覽過哪些商品饲漾,有怎樣的喜好蝙搔。還有一些其它數(shù)據(jù),可能是從其它系統(tǒng)過來的考传。我們把這些數(shù)據(jù)做一個匯總分析吃型,最終把這些數(shù)據(jù)導(dǎo)出到業(yè)務(wù)系統(tǒng)中,也有一個統(tǒng)計服務(wù)僚楞。這樣當(dāng)用戶來進(jìn)行征信貸款的時候勤晚,我們很快就可以定位到這個用戶是否符合征信要求枉层,并迅速進(jìn)行審批。
如上圖所示赐写,DataWorks主要依賴于MaxCompute鸟蜡。右邊是阿里云目前提供的一些基礎(chǔ)組件。集成開發(fā)環(huán)境這一塊是可視化的挺邀,比如在工作流設(shè)計器上做工作流和應(yīng)用調(diào)度揉忘,在里面進(jìn)行配置。
我們提供了一個Web頁面的代碼編輯器悠夯,支持MR癌淮、SQL等等。還有一個代碼調(diào)試器沦补,寫過的代碼可以直接在這里進(jìn)行調(diào)試乳蓄。有了代碼倉庫就能保留好幾個版本,并預(yù)覽之前保存的版本夕膀。
調(diào)度分為資源調(diào)度和工作流調(diào)度兩部分虚倒。工作流調(diào)度與前面的工作流是息息相關(guān)的,在工作流設(shè)計器中設(shè)計成一個工作流的話产舞,底層的調(diào)度會按照順序進(jìn)行調(diào)度魂奥。資源調(diào)度和底層網(wǎng)關(guān)集群的資源是相關(guān)的。
數(shù)據(jù)治理中主要是任務(wù)監(jiān)控和數(shù)據(jù)質(zhì)量易猫。
大數(shù)據(jù)開發(fā)核心流程
當(dāng)我們接到一個需求耻煤,首先會進(jìn)行需求分析,然后做工作流設(shè)計准颓,比如這個任務(wù)是什么時候跑的哈蝇、依賴于哪些業(yè)務(wù)。工作流設(shè)計完成后進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)同步攘已。接下去就是數(shù)據(jù)開發(fā)炮赦,我們提供了WEB-IDE,支持SQL样勃、MR吠勘、SHELL和? PYTHON等。然后我們提供了冒煙測試的場景峡眶,測試完成后發(fā)布到線上剧防,讓它每天定時進(jìn)行自動調(diào)度,并進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控辫樱。以上步驟都完成后峭拘,就能把我們的數(shù)據(jù)環(huán)流到業(yè)務(wù)系統(tǒng)庫,或者用QuickBI、DataV這些工具進(jìn)行頁面展現(xiàn)棚唆。
我們設(shè)計的任務(wù)是離線的,每天會在12點的時候把設(shè)計的任務(wù)變成一個實例快照心例。目前我們的任務(wù)依賴在業(yè)內(nèi)也是最先進(jìn)的宵凌。
現(xiàn)在最常見的需求就是每天有日報,每周要寫周報止后,每月要寫月報瞎惫。為了節(jié)省資源,就可以使用日報的數(shù)據(jù)直接轉(zhuǎn)成周報或月報译株。
線上系統(tǒng)在每天6點的時候要保證數(shù)據(jù)已經(jīng)回籠到業(yè)務(wù)系統(tǒng)瓜喇,系統(tǒng)要開始使用了。
如上圖所示歉糜,假設(shè)有D和E兩個任務(wù)乘寒,它們依賴于B和A。任務(wù)D的運(yùn)行時間是1.5小時匪补,E是2小時伞辛。我們必須確保B每天在4點之前把B的任務(wù)運(yùn)行完成,一般正常運(yùn)行時間是2小時夯缺。那就要保證A每天任務(wù)完成的時間不晚于2點蚤氏。如果A的運(yùn)行時間是10分鐘,到1點的時候發(fā)現(xiàn)A的任務(wù)失敗了踊兜,這時就能計算出A還剩下多少余量竿滨,我們可以進(jìn)行人工監(jiān)督排查。在1:50之前人工介入捏境,從而保證任務(wù)D和E能在6點前準(zhǔn)時產(chǎn)出于游。
總結(jié)
如圖所示,MaxCompute是圖上小人的“心臟”典蝌,所有運(yùn)行的任務(wù)都在MaxCompute里面曙砂。調(diào)度是數(shù)據(jù)架構(gòu)的“大腦”】ハ疲“眼睛”是數(shù)據(jù)監(jiān)控鸠澈,目前在數(shù)據(jù)架構(gòu)平臺上它還是一個“近視眼”,還沒有正式推出截驮。數(shù)據(jù)集成就像兩只“手”笑陈,不停地從其它地方搬運(yùn)數(shù)據(jù)。底層的開發(fā)環(huán)境和運(yùn)維中心就像兩條“腿”葵袭,保證整個數(shù)據(jù)架構(gòu)平臺走得更遠(yuǎn)涵妥。而數(shù)據(jù)質(zhì)量就像是一個“人體健康中心”,也就是數(shù)據(jù)質(zhì)量的監(jiān)控坡锡。
我今天的分享就到這里蓬网,感謝聆聽窒所!