? ? ? ?13年入行大數(shù)據(jù)開始粱胜,從熱點技術(shù)焙压,到架構(gòu)、再到技術(shù)體系冗恨、算法應(yīng)用、線上產(chǎn)品運維虐拓,方方面面做了很多事情傲武。經(jīng)過幾年的實戰(zhàn)經(jīng)驗,對數(shù)據(jù)應(yīng)用類系統(tǒng)“70%的精力在ETL”有了切身的體會:對任何期望通過數(shù)據(jù)指導(dǎo)或者數(shù)據(jù)驅(qū)動的業(yè)務(wù)而言态兴,最重要的疟位、最核心的競爭力還是數(shù)據(jù)質(zhì)量。拋開準確性、完整性正勒、一致性傻铣、實效性談數(shù)據(jù)業(yè)務(wù),無異于沙地起廈鸭限,一句空話两踏。所以,數(shù)據(jù)質(zhì)量管理應(yīng)該是數(shù)據(jù)團隊的核心工作缆瓣,可以說其是生命線也不為過弓坞。
? ? ? ? 管理是一件很細碎的活车荔,管理要求流程化、規(guī)范化忧便,對具有浪漫主義情懷的新派互聯(lián)網(wǎng)工程師來說,確實不是一件有意思的事情超歌,這里推薦一本工具書《數(shù)據(jù)質(zhì)量征途》蒂教,其中有一段話做了非常切實的描述:
每一個組織都希望自己擁有高質(zhì)量的數(shù)據(jù),但是常常不知道如何實現(xiàn)這個目標懊悯。一類常見的做法是開發(fā)一個新系統(tǒng)來取代舊系統(tǒng)梦皮,然而常常會在實施之后立即后悔。這是因為公司實施此類方案時捧毛,總是重建一套全新的系統(tǒng),卻很少在第一時間考慮原系統(tǒng)存在困難的真正原因--數(shù)據(jù)質(zhì)量問題呀忧。比如信息系統(tǒng)部門往往熱衷于使用最新的技術(shù),開發(fā)更流行或更常見的軟七兜、硬件解決方案福扬,我們將這種方法稱為系統(tǒng)驅(qū)動型解決方案。此時狠裹,公司采取的方案的真實目標退化為開發(fā)新系統(tǒng)汽烦,而非修正數(shù)據(jù)質(zhì)量問題以提供高質(zhì)量的數(shù)據(jù)。顯然俗冻,這種舍本逐末的新系統(tǒng)非但不能解決原有問題牍颈,而且很有可能加劇數(shù)據(jù)質(zhì)量問題。即使某個解決方案偶爾會有成效讥蔽,通常真正造成問題的原因卻更容易被掩蓋或進一步隱藏画机。
? ? ? ? 多數(shù)的數(shù)據(jù)從業(yè)者應(yīng)該都會對這段話的產(chǎn)生共鳴。數(shù)據(jù)質(zhì)量的管理問題步氏,與軟件質(zhì)量戳护、項目質(zhì)量的管理本質(zhì)一樣,市面上無數(shù)的項目管理的理論和書籍腌且,從來沒有誰提出可用依靠技術(shù)升級來解決項目質(zhì)量問題,或許技術(shù)能夠提升項目管理的效率巫击,但是一味追求技術(shù)無疑是舍本逐末。指導(dǎo)軟件系統(tǒng)開發(fā)過程管理的方法論有CMMI粹懒、Scrum等顷级,在數(shù)據(jù)質(zhì)量管理領(lǐng)域,實際上近年來也已經(jīng)有成體系的方法論了帽芽,比如同屬CMMI Institute旗下的Data Management Maturity (DMM)翔冀, 以及國內(nèi)官方正在推的《數(shù)據(jù)能力成熟度評價模型》,由中國電子技術(shù)標準化研究院牽頭搬瑰,拉了一些企業(yè)控硼、銀行在制定推廣,傾向于敏捷的也有Linstedt和Inmon推的Data Vault象颖,有興趣的同學(xué)可以自行搜索研究。當然说订,所有這些理論潮瓶、方法、模型都承認數(shù)據(jù)質(zhì)量管理是一個過程埂伦,只要業(yè)務(wù)還在運轉(zhuǎn)思恐,數(shù)據(jù)質(zhì)量相關(guān)的工作就必須要繼續(xù)。
? ? ? ? 對中小型公司基跑,特別是互聯(lián)網(wǎng)行業(yè)的團隊而言描焰,考慮到項目周期、成本篱竭、投資回報、人員流動等各種因素掺逼,要照搬上述的大部頭理論并不實際吕喘。不過如果期望能夠?qū)?shù)據(jù)質(zhì)量進行管理并持續(xù)改進,工作的核心原則應(yīng)該是一致的:
灌輸持續(xù)管理的態(tài)度兽泄;建立數(shù)據(jù)應(yīng)用業(yè)務(wù)模型病梢,明確數(shù)據(jù)質(zhì)量的指標,包括:準確性蜓陌、完整性、全面性填抬、一致性隧期、實效性等等;通過工作不斷優(yōu)化上述指標宏蛉;
? ? ? ? 這里首先提到態(tài)度性置,有兩層意思:
? ? ? ? 1、需要在公司層面認識到數(shù)據(jù)質(zhì)量管理很重要嗅义。實際上目前多數(shù)公司要明確認識到這一點并不容易隐砸,在進入大數(shù)據(jù)時代之前,數(shù)據(jù)只是多數(shù)公司的附屬產(chǎn)物继控,數(shù)據(jù)分析更多的傾向于戰(zhàn)略、政策等宏觀層面霹崎,公司領(lǐng)導(dǎo)層對數(shù)據(jù)工作的印象更多的是一周或者一個月一次的周報冶忱、月報,這種情境下業(yè)務(wù)人員對指標浮動的容忍度比較高派诬,因為“采樣”链沼、“概率”、“趨勢”這些概念深入人心括勺,人們會傾向于認可某些環(huán)節(jié)出問題會影響數(shù)據(jù)質(zhì)量疾捍,只要處理得當并合理控制,就不會影響最終的統(tǒng)計結(jié)果和決策乱豆。大數(shù)據(jù)技術(shù)的推動宛裕,使得大部分公司全面使用數(shù)據(jù)構(gòu)建BI系統(tǒng)成為現(xiàn)實,這時揩尸,數(shù)據(jù)應(yīng)用業(yè)務(wù)就已經(jīng)具體而微了疲酌,例如廣告投放了袁、進銷存、ROI經(jīng)營等都對數(shù)據(jù)的準確性粥诫、實效性要求極高崭庸,各級業(yè)務(wù)人員對數(shù)據(jù)變化的敏感度顯著提高谊囚,顯然數(shù)據(jù)質(zhì)量管理的級別就必須要提升到相應(yīng)的標準执赡,仍然把數(shù)據(jù)當做附屬產(chǎn)品會帶來相當負面的影響。
? ? ? ?2奠伪、要有持續(xù)管理的認知首懈。這里需要談一下數(shù)據(jù)團隊與業(yè)務(wù)系統(tǒng)研發(fā)團隊在開發(fā)工作上的區(qū)別,傳統(tǒng)的業(yè)務(wù)系統(tǒng)研發(fā)滤否,是從產(chǎn)品經(jīng)理手中拿到產(chǎn)品需求最仑,在一個迭代周期內(nèi)不傾向于更改需求,下一個版本的需求有它的排期和計劃紊搪,這個套路已經(jīng)玩的很深并且著實有效全景。但是數(shù)據(jù)團隊的工作顯然還沒有實踐出這樣的工作模式,除了明確的數(shù)據(jù)產(chǎn)品需求外滞伟,數(shù)據(jù)團隊更多的是需要承接隨機分析炕贵、業(yè)務(wù)變化引起的不可預(yù)知的數(shù)據(jù)變化称开、數(shù)據(jù)源版本變化、人工填報錯誤排查清酥,以及相應(yīng)的數(shù)據(jù)修復(fù)等工作蕴侣,也就是大名鼎鼎的“70%在ETL”原理。顯然數(shù)據(jù)團隊的很多工作是無法提前計劃的(或者說絕大部分公司還無法提供這么大的財力去支持數(shù)據(jù)團隊做所有數(shù)據(jù)源的需求管理辱志、版本控制、測試)揩懒,這樣的特質(zhì)使得數(shù)據(jù)質(zhì)量管理更需要連續(xù)性旭从,而非周期性。
? ? ? ? 一言以蔽之退疫,就是:“數(shù)據(jù)質(zhì)量管理永遠在路上”鸽素,只有認真的思考并且明確這樣的態(tài)度,才能明確技術(shù)架構(gòu)棒坏、組織結(jié)構(gòu)遭笋、管理體系的設(shè)計原則,并持續(xù)改進喂窟。一些需要考慮的重要原則包括:
? ? ? ?1央串、任何數(shù)據(jù)質(zhì)量問題,不能寄希望于“畢其功于一役”稳摄,而是應(yīng)當換而考慮針對數(shù)據(jù)源和目標數(shù)據(jù)集建立起“監(jiān)控饲宿、反饋、自助糾錯”的自動化流程弃锐,并不斷添加規(guī)則進行優(yōu)化殿托,以最小化人工排查修復(fù)的工作量為目標支竹。
? ? ? ?2、數(shù)據(jù)團隊的組織中礼搁,需要明確具有帶“數(shù)據(jù)治理”職能的崗位馒吴,例如ETL工程師、數(shù)據(jù)倉庫工程師等豪治。對數(shù)據(jù)治理職能的工作考核扯罐,一定要考慮采用明確的數(shù)據(jù)質(zhì)量優(yōu)化目標作為KPI,否則容易導(dǎo)致工作過于發(fā)散無目標掩浙,淪為“分析師助理”秸歧、“數(shù)據(jù)系統(tǒng)管理員”。
? ? ? ?3谬墙、工作中需要面對無計劃的持續(xù)變化纱耻,并且需求點細碎而不復(fù)雜弄喘。對小團隊而言,在技術(shù)選型累奈、系統(tǒng)架構(gòu)急但、數(shù)據(jù)架構(gòu)乃至庫表設(shè)計等方面,需要重點考慮穩(wěn)定和非穩(wěn)定業(yè)務(wù)內(nèi)容的分離波桩,非穩(wěn)定業(yè)務(wù)的實現(xiàn)方式應(yīng)支持快速開發(fā)镐躲、易于修改侍筛。
? ? ? ?4撒穷、正視反復(fù)修正等枯燥工作帶來的團隊成員心態(tài)問題并做有效管理端礼,實際如果認識到這個問題,解決并不困難佳镜。