永遠在路上的數(shù)據(jù)質(zhì)量管理

? ? ? ?13年入行大數(shù)據(jù)開始粱胜,從熱點技術(shù)焙压,到架構(gòu)、再到技術(shù)體系冗恨、算法應(yīng)用、線上產(chǎn)品運維虐拓,方方面面做了很多事情傲武。經(jīng)過幾年的實戰(zhàn)經(jīng)驗,對數(shù)據(jù)應(yīng)用類系統(tǒng)“70%的精力在ETL”有了切身的體會:對任何期望通過數(shù)據(jù)指導(dǎo)或者數(shù)據(jù)驅(qū)動的業(yè)務(wù)而言态兴,最重要的疟位、最核心的競爭力還是數(shù)據(jù)質(zhì)量。拋開準確性、完整性正勒、一致性傻铣、實效性談數(shù)據(jù)業(yè)務(wù),無異于沙地起廈鸭限,一句空話两踏。所以,數(shù)據(jù)質(zhì)量管理應(yīng)該是數(shù)據(jù)團隊的核心工作缆瓣,可以說其是生命線也不為過弓坞。

? ? ? ? 管理是一件很細碎的活车荔,管理要求流程化、規(guī)范化忧便,對具有浪漫主義情懷的新派互聯(lián)網(wǎng)工程師來說,確實不是一件有意思的事情超歌,這里推薦一本工具書《數(shù)據(jù)質(zhì)量征途》蒂教,其中有一段話做了非常切實的描述:

每一個組織都希望自己擁有高質(zhì)量的數(shù)據(jù),但是常常不知道如何實現(xiàn)這個目標懊悯。一類常見的做法是開發(fā)一個新系統(tǒng)來取代舊系統(tǒng)梦皮,然而常常會在實施之后立即后悔。這是因為公司實施此類方案時捧毛,總是重建一套全新的系統(tǒng),卻很少在第一時間考慮原系統(tǒng)存在困難的真正原因--數(shù)據(jù)質(zhì)量問題呀忧。比如信息系統(tǒng)部門往往熱衷于使用最新的技術(shù),開發(fā)更流行或更常見的軟七兜、硬件解決方案福扬,我們將這種方法稱為系統(tǒng)驅(qū)動型解決方案。此時狠裹,公司采取的方案的真實目標退化為開發(fā)新系統(tǒng)汽烦,而非修正數(shù)據(jù)質(zhì)量問題以提供高質(zhì)量的數(shù)據(jù)。顯然俗冻,這種舍本逐末的新系統(tǒng)非但不能解決原有問題牍颈,而且很有可能加劇數(shù)據(jù)質(zhì)量問題。即使某個解決方案偶爾會有成效讥蔽,通常真正造成問題的原因卻更容易被掩蓋或進一步隱藏画机。

? ? ? ? 多數(shù)的數(shù)據(jù)從業(yè)者應(yīng)該都會對這段話的產(chǎn)生共鳴。數(shù)據(jù)質(zhì)量的管理問題步氏,與軟件質(zhì)量戳护、項目質(zhì)量的管理本質(zhì)一樣,市面上無數(shù)的項目管理的理論和書籍腌且,從來沒有誰提出可用依靠技術(shù)升級來解決項目質(zhì)量問題,或許技術(shù)能夠提升項目管理的效率巫击,但是一味追求技術(shù)無疑是舍本逐末。指導(dǎo)軟件系統(tǒng)開發(fā)過程管理的方法論有CMMI粹懒、Scrum等顷级,在數(shù)據(jù)質(zhì)量管理領(lǐng)域,實際上近年來也已經(jīng)有成體系的方法論了帽芽,比如同屬CMMI Institute旗下的Data Management Maturity (DMM)翔冀, 以及國內(nèi)官方正在推的《數(shù)據(jù)能力成熟度評價模型》,由中國電子技術(shù)標準化研究院牽頭搬瑰,拉了一些企業(yè)控硼、銀行在制定推廣,傾向于敏捷的也有Linstedt和Inmon推的Data Vault象颖,有興趣的同學(xué)可以自行搜索研究。當然说订,所有這些理論潮瓶、方法、模型都承認數(shù)據(jù)質(zhì)量管理是一個過程埂伦,只要業(yè)務(wù)還在運轉(zhuǎn)思恐,數(shù)據(jù)質(zhì)量相關(guān)的工作就必須要繼續(xù)。

? ? ? ? 對中小型公司基跑,特別是互聯(lián)網(wǎng)行業(yè)的團隊而言描焰,考慮到項目周期、成本篱竭、投資回報、人員流動等各種因素掺逼,要照搬上述的大部頭理論并不實際吕喘。不過如果期望能夠?qū)?shù)據(jù)質(zhì)量進行管理并持續(xù)改進,工作的核心原則應(yīng)該是一致的:

灌輸持續(xù)管理的態(tài)度兽泄;建立數(shù)據(jù)應(yīng)用業(yè)務(wù)模型病梢,明確數(shù)據(jù)質(zhì)量的指標,包括:準確性蜓陌、完整性、全面性填抬、一致性隧期、實效性等等;通過工作不斷優(yōu)化上述指標宏蛉;

? ? ? ? 這里首先提到態(tài)度性置,有兩層意思:

? ? ? ? 1、需要在公司層面認識到數(shù)據(jù)質(zhì)量管理很重要嗅义。實際上目前多數(shù)公司要明確認識到這一點并不容易隐砸,在進入大數(shù)據(jù)時代之前,數(shù)據(jù)只是多數(shù)公司的附屬產(chǎn)物继控,數(shù)據(jù)分析更多的傾向于戰(zhàn)略、政策等宏觀層面霹崎,公司領(lǐng)導(dǎo)層對數(shù)據(jù)工作的印象更多的是一周或者一個月一次的周報冶忱、月報,這種情境下業(yè)務(wù)人員對指標浮動的容忍度比較高派诬,因為“采樣”链沼、“概率”、“趨勢”這些概念深入人心括勺,人們會傾向于認可某些環(huán)節(jié)出問題會影響數(shù)據(jù)質(zhì)量疾捍,只要處理得當并合理控制,就不會影響最終的統(tǒng)計結(jié)果和決策乱豆。大數(shù)據(jù)技術(shù)的推動宛裕,使得大部分公司全面使用數(shù)據(jù)構(gòu)建BI系統(tǒng)成為現(xiàn)實,這時揩尸,數(shù)據(jù)應(yīng)用業(yè)務(wù)就已經(jīng)具體而微了疲酌,例如廣告投放了袁、進銷存、ROI經(jīng)營等都對數(shù)據(jù)的準確性粥诫、實效性要求極高崭庸,各級業(yè)務(wù)人員對數(shù)據(jù)變化的敏感度顯著提高谊囚,顯然數(shù)據(jù)質(zhì)量管理的級別就必須要提升到相應(yīng)的標準执赡,仍然把數(shù)據(jù)當做附屬產(chǎn)品會帶來相當負面的影響。

? ? ? ?2奠伪、要有持續(xù)管理的認知首懈。這里需要談一下數(shù)據(jù)團隊與業(yè)務(wù)系統(tǒng)研發(fā)團隊在開發(fā)工作上的區(qū)別,傳統(tǒng)的業(yè)務(wù)系統(tǒng)研發(fā)滤否,是從產(chǎn)品經(jīng)理手中拿到產(chǎn)品需求最仑,在一個迭代周期內(nèi)不傾向于更改需求,下一個版本的需求有它的排期和計劃紊搪,這個套路已經(jīng)玩的很深并且著實有效全景。但是數(shù)據(jù)團隊的工作顯然還沒有實踐出這樣的工作模式,除了明確的數(shù)據(jù)產(chǎn)品需求外滞伟,數(shù)據(jù)團隊更多的是需要承接隨機分析炕贵、業(yè)務(wù)變化引起的不可預(yù)知的數(shù)據(jù)變化称开、數(shù)據(jù)源版本變化、人工填報錯誤排查清酥,以及相應(yīng)的數(shù)據(jù)修復(fù)等工作蕴侣,也就是大名鼎鼎的“70%在ETL”原理。顯然數(shù)據(jù)團隊的很多工作是無法提前計劃的(或者說絕大部分公司還無法提供這么大的財力去支持數(shù)據(jù)團隊做所有數(shù)據(jù)源的需求管理辱志、版本控制、測試)揩懒,這樣的特質(zhì)使得數(shù)據(jù)質(zhì)量管理更需要連續(xù)性旭从,而非周期性。

? ? ? ? 一言以蔽之退疫,就是:“數(shù)據(jù)質(zhì)量管理永遠在路上”鸽素,只有認真的思考并且明確這樣的態(tài)度,才能明確技術(shù)架構(gòu)棒坏、組織結(jié)構(gòu)遭笋、管理體系的設(shè)計原則,并持續(xù)改進喂窟。一些需要考慮的重要原則包括:

? ? ? ?1央串、任何數(shù)據(jù)質(zhì)量問題,不能寄希望于“畢其功于一役”稳摄,而是應(yīng)當換而考慮針對數(shù)據(jù)源和目標數(shù)據(jù)集建立起“監(jiān)控饲宿、反饋、自助糾錯”的自動化流程弃锐,并不斷添加規(guī)則進行優(yōu)化殿托,以最小化人工排查修復(fù)的工作量為目標支竹。

? ? ? ?2、數(shù)據(jù)團隊的組織中礼搁,需要明確具有帶“數(shù)據(jù)治理”職能的崗位馒吴,例如ETL工程師、數(shù)據(jù)倉庫工程師等豪治。對數(shù)據(jù)治理職能的工作考核扯罐,一定要考慮采用明確的數(shù)據(jù)質(zhì)量優(yōu)化目標作為KPI,否則容易導(dǎo)致工作過于發(fā)散無目標掩浙,淪為“分析師助理”秸歧、“數(shù)據(jù)系統(tǒng)管理員”。

? ? ? ?3谬墙、工作中需要面對無計劃的持續(xù)變化纱耻,并且需求點細碎而不復(fù)雜弄喘。對小團隊而言,在技術(shù)選型累奈、系統(tǒng)架構(gòu)急但、數(shù)據(jù)架構(gòu)乃至庫表設(shè)計等方面,需要重點考慮穩(wěn)定和非穩(wěn)定業(yè)務(wù)內(nèi)容的分離波桩,非穩(wěn)定業(yè)務(wù)的實現(xiàn)方式應(yīng)支持快速開發(fā)镐躲、易于修改侍筛。

? ? ? ?4撒穷、正視反復(fù)修正等枯燥工作帶來的團隊成員心態(tài)問題并做有效管理端礼,實際如果認識到這個問題,解決并不困難佳镜。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末邀杏,一起剝皮案震驚了整個濱河市唬血,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拷恨,老刑警劉巖脖律,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異腕侄,居然都是意外死亡小泉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門冕杠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來微姊,“玉大人,你說我怎么就攤上這事分预【そ唬” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵笼痹,是天一觀的道長。 經(jīng)常有香客問我凳干,道長晴裹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任救赐,我火速辦了婚禮涧团,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己少欺,他們只是感情好喳瓣,可當我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著赞别,像睡著了一般。 火紅的嫁衣襯著肌膚如雪配乓。 梳的紋絲不亂的頭發(fā)上仿滔,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天,我揣著相機與錄音犹芹,去河邊找鬼崎页。 笑死,一個胖子當著我的面吹牛腰埂,可吹牛的內(nèi)容都是我干的飒焦。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼屿笼,長吁一口氣:“原來是場噩夢啊……” “哼牺荠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起驴一,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤休雌,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后肝断,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體杈曲,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年胸懈,在試婚紗的時候發(fā)現(xiàn)自己被綠了担扑。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡趣钱,死狀恐怖涌献,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情羔挡,我是刑警寧澤洁奈,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站绞灼,受9級特大地震影響利术,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜低矮,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一印叁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦轮蜕、人聲如沸昨悼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽率触。三九已至,卻和暖如春汇竭,著一層夾襖步出監(jiān)牢的瞬間葱蝗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工细燎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留两曼,地道東北人。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓玻驻,卻偏偏與公主長得像悼凑,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子璧瞬,可洞房花燭夜當晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容