數(shù)據(jù)治理實(shí)操

|0x00 數(shù)據(jù)治理的思路

數(shù)據(jù)治理是互聯(lián)網(wǎng)公司中破加,普遍遇到的痛點(diǎn)揪利,不論是作為業(yè)務(wù)支持的“數(shù)據(jù)倉(cāng)庫(kù)”部門端幼,還是承擔(dān)輔助角色的“數(shù)據(jù)分析”部門幸斥,天天被人追著問(wèn):“我們有什么數(shù)據(jù)?這數(shù)據(jù)對(duì)嗎俊庇?為什么還沒(méi)跑出來(lái)狮暑?你到底能不能做?”

當(dāng)矛盾對(duì)噴到“忍無(wú)可忍”時(shí)暇赤,數(shù)據(jù)治理工程便提上了“臺(tái)面”心例,因?yàn)殚_(kāi)發(fā)沒(méi)了服務(wù)對(duì)象等于丟了飯碗,而業(yè)務(wù)脫離數(shù)據(jù)在互聯(lián)網(wǎng)時(shí)代又等同于“裸奔”鞋囊,雙方打的難解難分止后。

但其實(shí)數(shù)據(jù)治理是一項(xiàng)比較大的工程,在實(shí)際工作中,我們需要縮小范圍译株,“把好鋼用在刀刃上”瓜喇。因此,個(gè)人傾向于如下的概念歉糜,即:數(shù)據(jù)治理 = 數(shù)據(jù)質(zhì)量治理 + 數(shù)據(jù)資產(chǎn)治理乘寒。所謂的治理,是站在數(shù)據(jù)從生產(chǎn)到最終消費(fèi)的全鏈路視角上匪补,利用平臺(tái)技術(shù)提升所帶來(lái)的紅利伞辛,以從研發(fā)視角出發(fā)所推動(dòng)的運(yùn)營(yíng)工作為錨點(diǎn),讓數(shù)據(jù)的治理變得“可持續(xù)”夯缺,并且提升研發(fā)同學(xué)的“幸福感”蚤氏。

因此,我們有三種解決問(wèn)題的思路:

第一種是從全局角度出發(fā)踊兜,由部門制定相應(yīng)的規(guī)范竿滨、標(biāo)準(zhǔn)、執(zhí)行策略捏境,在日常的研發(fā)工作中于游,將治理的任務(wù)放在最高的位置上。這樣做雖然會(huì)最有成效垫言,但落地成本也會(huì)非常大贰剥,成果的產(chǎn)出周期也很長(zhǎng)。

第二種是現(xiàn)有問(wèn)題出發(fā)骏掀,即發(fā)現(xiàn)局部的問(wèn)題鸠澈,就解決這些問(wèn)題柱告,有明確的執(zhí)行方法和結(jié)果數(shù)據(jù)來(lái)衡量截驮。

第三種是面向危機(jī)改動(dòng),當(dāng)團(tuán)隊(duì)業(yè)務(wù)線非常分散际度、同時(shí)需求壓力有很大時(shí)葵袭,往往難以推動(dòng)一些內(nèi)部治理工作的開(kāi)展,這時(shí)候只能遇到問(wèn)題乖菱、再解決問(wèn)題坡锡,用危機(jī)來(lái)反推工作的落實(shí)。

以上三種是面對(duì)問(wèn)題的態(tài)度窒所,接下來(lái)討論面對(duì)問(wèn)題的方法鹉勒,即數(shù)據(jù)質(zhì)量與數(shù)據(jù)資產(chǎn)治理的思路。

|0x01 數(shù)據(jù)質(zhì)量的治理

有道是:“數(shù)據(jù)質(zhì)量是開(kāi)發(fā)同學(xué)的紅線吵取,是一定要恪守的原則”禽额。如果交付的數(shù)據(jù)是存在問(wèn)題的,那么得出的結(jié)論往往也就是錯(cuò)誤的。

如果用簡(jiǎn)潔的語(yǔ)言來(lái)概括脯倒,那么就是及時(shí)实辑、準(zhǔn)確與一致。

及時(shí)性藻丢,是數(shù)據(jù)研發(fā)的第一道“紅線”剪撬。通常情況下,我們會(huì)設(shè)置相應(yīng)的基線悠反,由每天值班的研發(fā)來(lái)觀察和保障運(yùn)行情況残黑,數(shù)據(jù)任務(wù)一旦報(bào)錯(cuò),則通知相應(yīng)負(fù)責(zé)人處理斋否,或執(zhí)行降級(jí)運(yùn)行策略萍摊。如果上游數(shù)據(jù)產(chǎn)出存在問(wèn)題,也能夠收集相應(yīng)的問(wèn)題清單如叼,與上游共同解決冰木。這是一條基本的執(zhí)行策略,通常配置任務(wù)和安排值班也不會(huì)特別費(fèi)事笼恰,因此也是最容易解決的問(wèn)題踊沸。

準(zhǔn)確性,是數(shù)據(jù)研發(fā)的第二道“紅線”社证,大體上可以總結(jié)為兩個(gè)特點(diǎn)逼龟,即數(shù)據(jù)的準(zhǔn)確性測(cè)試、以及數(shù)據(jù)的準(zhǔn)確性監(jiān)控追葡。關(guān)于數(shù)據(jù)的準(zhǔn)確開(kāi)發(fā)腺律、運(yùn)維,上一篇文章已經(jīng)給出來(lái)了詳細(xì)論述宜肉。

一致性匀钧,是數(shù)據(jù)研發(fā)的第三道“紅線”,大致可以理解為谬返,提供給下游使用的數(shù)據(jù)之斯,要有統(tǒng)一的口徑和解釋。通常情況下遣铝,指標(biāo)是由分析師定義佑刷,但實(shí)際開(kāi)發(fā)中,業(yè)務(wù)酿炸、產(chǎn)品瘫絮、甚至是研發(fā)自己,也往往會(huì)定義一些指標(biāo)填硕,往往又會(huì)因?yàn)閿?shù)據(jù)范圍的不同麦萤,導(dǎo)致結(jié)果不一致。比如剔除某幾個(gè)商品,就會(huì)對(duì)整體GMV產(chǎn)生影響频鉴。因此栓辜,不論誰(shuí)來(lái)定義指標(biāo),都要有完整的說(shuō)明文檔垛孔,否則就是“不承認(rèn)”的藕甩。其次,數(shù)據(jù)的結(jié)果一定要有驗(yàn)證的過(guò)程周荐,不論是分析師還是業(yè)務(wù)同學(xué)狭莱,人工的校驗(yàn)是必須要做的事情,至少能夠讓最熟悉數(shù)據(jù)的同學(xué)來(lái)驗(yàn)證數(shù)據(jù)概作。

通過(guò)上述三個(gè)角度腋妙,基本能夠覆蓋90%的問(wèn)題,剩下的10%通常是需要Case by case來(lái)看待和驗(yàn)證的讯榕。

|0x02 數(shù)據(jù)資產(chǎn)的治理

數(shù)據(jù)資產(chǎn)骤素,通常是指數(shù)據(jù)的存儲(chǔ)和計(jì)算資源的管理情況,以及維護(hù)現(xiàn)有的數(shù)據(jù)資產(chǎn)愚屁,包括我們有什么數(shù)據(jù)济竹、有什么指標(biāo)、能做怎樣的事情霎槐,避免各團(tuán)隊(duì)重復(fù)開(kāi)發(fā)的事情出現(xiàn)送浊。

數(shù)據(jù)的存儲(chǔ)和計(jì)算資源管理,往往是要與運(yùn)維團(tuán)隊(duì)配合丘跌,數(shù)據(jù)集群會(huì)給出一份賬單數(shù)據(jù)袭景,研發(fā)團(tuán)隊(duì)保障成本是可控的,如果預(yù)算超支較多闭树,則需要進(jìn)行治理耸棒。

關(guān)于數(shù)據(jù)存儲(chǔ)治理,通常指對(duì)數(shù)據(jù)表進(jìn)行下線蔼啦、縮減生命周期等操作榆纽。在實(shí)際開(kāi)發(fā)過(guò)程中,由于長(zhǎng)時(shí)間的項(xiàng)目積累捏肢,我們往往會(huì)發(fā)現(xiàn)很多不再使用的表仍在在運(yùn)行,或者是一些不怎么使用的數(shù)據(jù)饥侵,存儲(chǔ)的周期非常長(zhǎng)鸵赫,這都是要治理的重點(diǎn)對(duì)象。解決的方法也很簡(jiǎn)單躏升,一是開(kāi)發(fā)前的需求與模型評(píng)審辩棒,一個(gè)是監(jiān)控?cái)?shù)據(jù)表或者數(shù)據(jù)應(yīng)用的訪問(wèn)情況,對(duì)于低頻或者無(wú)訪問(wèn)的數(shù)據(jù),則確認(rèn)必要性后一睁,進(jìn)行下線或者縮減生命周期的操作钻弄。

關(guān)于數(shù)據(jù)計(jì)算治理,則把重心集中在慢SQL的治理上者吁,檢查那些消耗資源多窘俺、或運(yùn)行時(shí)間長(zhǎng)的任務(wù),如果存在數(shù)據(jù)傾斜則進(jìn)行優(yōu)化复凳,如果數(shù)據(jù)量確實(shí)大則考慮極限存儲(chǔ)或者進(jìn)行裁剪瘤泪,當(dāng)然最基礎(chǔ)的,如對(duì)表的暴力掃描這種不合理的臨時(shí)任務(wù)育八,也是需要及時(shí)發(fā)現(xiàn)和關(guān)閉的对途。

最后,我們需要整理數(shù)據(jù)的文檔髓棋,有能力的團(tuán)隊(duì)可以把握文檔開(kāi)發(fā)成一個(gè)錄入和查詢的平臺(tái)工具实檀。這個(gè)文檔或者工具,要解決諸如我們有什么數(shù)據(jù)按声、有什么指標(biāo)劲妙、能做怎樣的事情的問(wèn)題。

文檔要有如下的幾個(gè)基本要素:

其一儒喊,要有源系統(tǒng)的模型設(shè)計(jì)镣奋,明確業(yè)務(wù)過(guò)程有哪些、業(yè)務(wù)發(fā)生時(shí)的數(shù)據(jù)流向怀愧、數(shù)據(jù)之間的ER關(guān)系等信息侨颈;

其二,要有指標(biāo)字典芯义,指標(biāo)字典是非常重要的哈垢,一定要在需求溝通的過(guò)程中沉淀下來(lái),當(dāng)我們回頭去看的時(shí)候扛拨,大量的時(shí)間在溝通指標(biāo)和維度的定義耘分;

其三,要有開(kāi)發(fā)和需求規(guī)范绑警,很多時(shí)候我們處于效率的考量求泰,會(huì)做很多“私下”的工作,但這些工作往往不在正式的列表中计盒,因此流程上還是要規(guī)范一些渴频,不要把有限時(shí)間放到無(wú)限的溝通中去。

|0xFF 治理工具的選擇

這里討論下我們需要的平臺(tái)技術(shù)應(yīng)該包括哪些北启。

其一卜朗,任務(wù)維護(hù)拔第,以DataWorks運(yùn)維中心為模板構(gòu)建,包括任務(wù)的運(yùn)行狀況維護(hù)场钉;

其二蚊俺,任務(wù)調(diào)度,類似DolphinScheduler提供的完整能力逛万;

其三泳猬,元數(shù)據(jù)管理,包括表的信息泣港、血緣信息暂殖、備注的業(yè)務(wù)信息等內(nèi)容;

其四当纱,資產(chǎn)可視呛每,包括表的數(shù)量、占用的存儲(chǔ)資源坡氯、每日任務(wù)消耗的計(jì)算資源等晨横,為治理提供依據(jù);

其五箫柳,學(xué)習(xí)中心手形,包括開(kāi)發(fā)的規(guī)范、常見(jiàn)優(yōu)化技巧等方法的集合悯恍,提供實(shí)操的手冊(cè)库糠。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市涮毫,隨后出現(xiàn)的幾起案子瞬欧,更是在濱河造成了極大的恐慌,老刑警劉巖罢防,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件艘虎,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡咒吐,警方通過(guò)查閱死者的電腦和手機(jī)野建,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)恬叹,“玉大人候生,你說(shuō)我怎么就攤上這事⊥唬” “怎么了陶舞?”我有些...
    開(kāi)封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)绪励。 經(jīng)常有香客問(wèn)我肿孵,道長(zhǎng),這世上最難降的妖魔是什么疏魏? 我笑而不...
    開(kāi)封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任停做,我火速辦了婚禮,結(jié)果婚禮上大莫,老公的妹妹穿的比我還像新娘蛉腌。我一直安慰自己,他們只是感情好只厘,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布烙丛。 她就那樣靜靜地躺著,像睡著了一般羔味。 火紅的嫁衣襯著肌膚如雪河咽。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天赋元,我揣著相機(jī)與錄音忘蟹,去河邊找鬼。 笑死搁凸,一個(gè)胖子當(dāng)著我的面吹牛媚值,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播护糖,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼褥芒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了嫡良?” 一聲冷哼從身側(cè)響起锰扶,我...
    開(kāi)封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎皆刺,沒(méi)想到半個(gè)月后少辣,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡羡蛾,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年漓帅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片痴怨。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡忙干,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出浪藻,到底是詐尸還是另有隱情捐迫,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布爱葵,位于F島的核電站施戴,受9級(jí)特大地震影響反浓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赞哗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一雷则、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧肪笋,春花似錦月劈、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至坛梁,卻和暖如春而姐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背罚勾。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工毅人, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人尖殃。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓丈莺,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親送丰。 傳聞我的和親對(duì)象是個(gè)殘疾皇子缔俄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容