阿里數(shù)據(jù)倉庫搭建實踐分享

內(nèi)容來源:2017年7月8日军拟,阿里云高級技術(shù)專家后稷在“阿里云—數(shù)據(jù)化運(yùn)營實踐分享【7上海站】”進(jìn)行《阿里數(shù)據(jù)倉庫搭建實踐分享》演講分享。IT大咖說(ID:itdakashuo)作為獨家視頻合作方,經(jīng)主辦方和講者審閱授權(quán)發(fā)布操漠。

閱讀字?jǐn)?shù):1605?| 4分鐘閱讀

嘉賓演講視頻回顧及PPT烹笔,請點擊鏈接:http://t.cn/RgN0RsJ

摘要

數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程澄耍,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合噪珊。它是單個數(shù)據(jù)存儲晌缘,出于分析性報告和決策支持目的而創(chuàng)建。為需要業(yè)務(wù)智能的企業(yè)痢站,提供指導(dǎo)業(yè)務(wù)流程改進(jìn)磷箕、監(jiān)視時間、成本阵难、質(zhì)量以及控制岳枷。

基礎(chǔ)

搭建數(shù)據(jù)倉庫主要需要建模的能力,還要沉淀一些維度表呜叫。除此之外還要不斷地挖掘數(shù)據(jù)空繁,來把模型建得更好。

應(yīng)該做的幾件事

簡介

在得到活動數(shù)據(jù)后朱庆,要把這些數(shù)據(jù)投入到數(shù)據(jù)倉庫中盛泡,并且做以下幾件事:

用戶或者實體的識別需要統(tǒng)一。

PC和無線端的數(shù)據(jù)打通娱颊。

圍繞實體和跨業(yè)務(wù)間的事實數(shù)據(jù)打通傲诵。

重要事實表的維度冗余。

用戶畫像或客戶畫像箱硕。

有怎樣的市場價值

目前我們已經(jīng)積累了很多用戶數(shù)據(jù)拴竹,這些數(shù)據(jù)都是非常寶貴的資源,我們基于這些數(shù)據(jù)做了一些開發(fā)利用颅痊。

搭建了數(shù)據(jù)倉庫就可以把用戶分析的數(shù)據(jù)用來做個性化推薦殖熟、定向營銷、風(fēng)控等等斑响。

數(shù)據(jù)倉庫的市場價值在于需求場景驅(qū)動的集市層建設(shè)菱属,各集市之間垂直構(gòu)建。

集市層深度挖掘數(shù)據(jù)價值舰罚,并需要能夠快速試錯纽门。

以阿里金融在后臺大數(shù)據(jù)中的運(yùn)行過程為例,我們會從關(guān)系數(shù)據(jù)庫中把用戶相關(guān)的所有數(shù)據(jù)全部導(dǎo)入到MaxCompute中营罢,然后記錄用戶的一些操作日志赏陵,比如登錄過哪些網(wǎng)站、瀏覽過哪些商品饲漾,有怎樣的喜好蝙搔。還有一些其它數(shù)據(jù),可能是從其它系統(tǒng)過來的考传。我們把這些數(shù)據(jù)做一個匯總分析吃型,最終把這些數(shù)據(jù)導(dǎo)出到業(yè)務(wù)系統(tǒng)中,也有一個統(tǒng)計服務(wù)僚楞。這樣當(dāng)用戶來進(jìn)行征信貸款的時候勤晚,我們很快就可以定位到這個用戶是否符合征信要求枉层,并迅速進(jìn)行審批。

如上圖所示赐写,DataWorks主要依賴于MaxCompute鸟蜡。右邊是阿里云目前提供的一些基礎(chǔ)組件。集成開發(fā)環(huán)境這一塊是可視化的挺邀,比如在工作流設(shè)計器上做工作流和應(yīng)用調(diào)度揉忘,在里面進(jìn)行配置。

我們提供了一個Web頁面的代碼編輯器悠夯,支持MR癌淮、SQL等等。還有一個代碼調(diào)試器沦补,寫過的代碼可以直接在這里進(jìn)行調(diào)試乳蓄。有了代碼倉庫就能保留好幾個版本,并預(yù)覽之前保存的版本夕膀。

調(diào)度分為資源調(diào)度和工作流調(diào)度兩部分虚倒。工作流調(diào)度與前面的工作流是息息相關(guān)的,在工作流設(shè)計器中設(shè)計成一個工作流的話产舞,底層的調(diào)度會按照順序進(jìn)行調(diào)度魂奥。資源調(diào)度和底層網(wǎng)關(guān)集群的資源是相關(guān)的。

數(shù)據(jù)治理中主要是任務(wù)監(jiān)控和數(shù)據(jù)質(zhì)量易猫。

大數(shù)據(jù)開發(fā)核心流程

當(dāng)我們接到一個需求耻煤,首先會進(jìn)行需求分析,然后做工作流設(shè)計准颓,比如這個任務(wù)是什么時候跑的哈蝇、依賴于哪些業(yè)務(wù)。工作流設(shè)計完成后進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)同步攘已。接下去就是數(shù)據(jù)開發(fā)炮赦,我們提供了WEB-IDE,支持SQL样勃、MR吠勘、SHELL和? PYTHON等。然后我們提供了冒煙測試的場景峡眶,測試完成后發(fā)布到線上剧防,讓它每天定時進(jìn)行自動調(diào)度,并進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控辫樱。以上步驟都完成后峭拘,就能把我們的數(shù)據(jù)環(huán)流到業(yè)務(wù)系統(tǒng)庫,或者用QuickBI、DataV這些工具進(jìn)行頁面展現(xiàn)棚唆。

我們設(shè)計的任務(wù)是離線的,每天會在12點的時候把設(shè)計的任務(wù)變成一個實例快照心例。目前我們的任務(wù)依賴在業(yè)內(nèi)也是最先進(jìn)的宵凌。

現(xiàn)在最常見的需求就是每天有日報,每周要寫周報止后,每月要寫月報瞎惫。為了節(jié)省資源,就可以使用日報的數(shù)據(jù)直接轉(zhuǎn)成周報或月報译株。

線上系統(tǒng)在每天6點的時候要保證數(shù)據(jù)已經(jīng)回籠到業(yè)務(wù)系統(tǒng)瓜喇,系統(tǒng)要開始使用了。

如上圖所示歉糜,假設(shè)有D和E兩個任務(wù)乘寒,它們依賴于B和A。任務(wù)D的運(yùn)行時間是1.5小時匪补,E是2小時伞辛。我們必須確保B每天在4點之前把B的任務(wù)運(yùn)行完成,一般正常運(yùn)行時間是2小時夯缺。那就要保證A每天任務(wù)完成的時間不晚于2點蚤氏。如果A的運(yùn)行時間是10分鐘,到1點的時候發(fā)現(xiàn)A的任務(wù)失敗了踊兜,這時就能計算出A還剩下多少余量竿滨,我們可以進(jìn)行人工監(jiān)督排查。在1:50之前人工介入捏境,從而保證任務(wù)D和E能在6點前準(zhǔn)時產(chǎn)出于游。

總結(jié)

如圖所示,MaxCompute是圖上小人的“心臟”典蝌,所有運(yùn)行的任務(wù)都在MaxCompute里面曙砂。調(diào)度是數(shù)據(jù)架構(gòu)的“大腦”】ハ疲“眼睛”是數(shù)據(jù)監(jiān)控鸠澈,目前在數(shù)據(jù)架構(gòu)平臺上它還是一個“近視眼”,還沒有正式推出截驮。數(shù)據(jù)集成就像兩只“手”笑陈,不停地從其它地方搬運(yùn)數(shù)據(jù)。底層的開發(fā)環(huán)境和運(yùn)維中心就像兩條“腿”葵袭,保證整個數(shù)據(jù)架構(gòu)平臺走得更遠(yuǎn)涵妥。而數(shù)據(jù)質(zhì)量就像是一個“人體健康中心”,也就是數(shù)據(jù)質(zhì)量的監(jiān)控坡锡。

我今天的分享就到這里蓬网,感謝聆聽窒所!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市帆锋,隨后出現(xiàn)的幾起案子吵取,更是在濱河造成了極大的恐慌,老刑警劉巖锯厢,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件皮官,死亡現(xiàn)場離奇詭異,居然都是意外死亡实辑,警方通過查閱死者的電腦和手機(jī)捺氢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來剪撬,“玉大人摄乒,你說我怎么就攤上這事⌒霰迹” “怎么了缺狠?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長萍摊。 經(jīng)常有香客問我挤茄,道長,這世上最難降的妖魔是什么冰木? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任穷劈,我火速辦了婚禮,結(jié)果婚禮上踊沸,老公的妹妹穿的比我還像新娘歇终。我一直安慰自己,他們只是感情好逼龟,可當(dāng)我...
    茶點故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布评凝。 她就那樣靜靜地躺著,像睡著了一般腺律。 火紅的嫁衣襯著肌膚如雪奕短。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天匀钧,我揣著相機(jī)與錄音翎碑,去河邊找鬼。 笑死之斯,一個胖子當(dāng)著我的面吹牛日杈,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼莉擒,長吁一口氣:“原來是場噩夢啊……” “哼酿炸!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起涨冀,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤梁沧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蝇裤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡频鉴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年栓辜,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垛孔。...
    茶點故事閱讀 40,127評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡藕甩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出周荐,到底是詐尸還是另有隱情狭莱,我是刑警寧澤,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布概作,位于F島的核電站腋妙,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏讯榕。R本人自食惡果不足惜骤素,卻給世界環(huán)境...
    茶點故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望愚屁。 院中可真熱鬧济竹,春花似錦、人聲如沸霎槐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽丘跌。三九已至袭景,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間碍岔,已是汗流浹背浴讯。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留蔼啦,地道東北人榆纽。 一個月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親奈籽。 傳聞我的和親對象是個殘疾皇子饥侵,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容