數(shù)倉數(shù)據(jù)質(zhì)量檢查

數(shù)據(jù)倉庫上下游表間數(shù)據(jù)質(zhì)量檢查產(chǎn)生于下游表生成過程中税手,也是下游表本身的數(shù)據(jù)質(zhì)量控制問題翠肘,上下游的關(guān)系并不僅限于數(shù)據(jù)倉庫各層數(shù)據(jù)表琴庵,還包括同一層的有上下游關(guān)系的數(shù)據(jù)表肢扯。主要有三個方面:字段合法性妒茬、數(shù)據(jù)一致性和邏輯一致性

1、字段合法性

字段合法性是檢查字段本身是否符合預(yù)期蔚晨,一般只在上游數(shù)據(jù)做檢查乍钻,除非該字段是對于上游數(shù)據(jù)來說是新字段肛循。對于從上游數(shù)據(jù)得到的同一維度字段,在數(shù)倉數(shù)據(jù)表的同一層只檢查一遍即可银择。有新邏輯加入的時候多糠,可以不做字段合法性檢查。需做合法性檢查的字段可以大致的分為可枚舉類型和非可枚舉類型

可枚舉類型

可枚舉類型字段包括枚舉類型浩考、類枚舉字符串夹孔、類枚舉事實表外健等。在實際操作中析孽,會分為兩種情況進(jìn)行合法性檢查搭伤。其一,如果可枚舉類型的取值在50個左右袜瞬,通常會把所有取值及其計數(shù)統(tǒng)計出來怜俐,一方面可以檢查該字段取值本身是否合法,另一方面還可以檢查計數(shù)本身是否符合預(yù)期邓尤。數(shù)據(jù)檢查中拍鲤,盡可能用最少取數(shù)次數(shù)查看最多的檢查項袄秩。其二诗眨,如果可枚舉類型取值較多忧换,有幾百甚至是千級萬級晚凿,檢查時可以按計數(shù)進(jìn)行排序词疼,然后按字段取值排序拢肆,檢查排序靠前與靠后字段取值及其計數(shù)嵌戈,這樣就可以定位大多數(shù)問題了则披。

非可枚舉類型

非可枚舉類型字段一忱,一般會包含很多種情況莲蜘,比如:一些32位和64位的標(biāo)識,時間戳帘营、連續(xù)性數(shù)值票渠、搜索關(guān)鍵詞等。這樣在檢查時除了可以對字段和字段計數(shù)值進(jìn)行排序外芬迄,還可以設(shè)定字段取值范圍问顷、字段本身長度等對字段進(jìn)行檢查。

2禀梳、數(shù)據(jù)一致性

數(shù)據(jù)一致性是檢查從上下游表間數(shù)據(jù)是否一致杜窄。任何一份數(shù)據(jù)表生成時都應(yīng)該保持上下游一致,不一致就意味著數(shù)據(jù)本身或驗證過程可能有問題算途。該檢查一般可以按先粗后細(xì)原則塞耕,先查看粗粒度數(shù)據(jù),沒有問題才查看更細(xì)粒度數(shù)據(jù)查看嘴瓤。比如扫外,dau數(shù)據(jù)莉钙,可以先對比上下游數(shù)據(jù)的總dau, 總dau沒有問題,再查看幾個主要維度數(shù)據(jù)筛谚,如果不是聚合數(shù)據(jù)磁玉,最后拿上下游數(shù)據(jù)中同一個用戶的明細(xì)記錄做下對比驾讲。數(shù)據(jù)更新做一致性檢查時蚊伞,如果可以在新老數(shù)據(jù)之間進(jìn)行,則在新老數(shù)據(jù)之間進(jìn)行蝎毡,不能在新老數(shù)據(jù)之間進(jìn)行則在上下游之間進(jìn)行厚柳。如果可能,一定要做取幾條明細(xì)數(shù)據(jù)做檢查沐兵。

3、邏輯合法性

邏輯一致性是檢查數(shù)據(jù)本身所包含的字段及字段之間的關(guān)系是否符合一定的預(yù)設(shè)邏輯便监。例如:uid與session_id為一對多關(guān)系扎谎,但反之不成立。也跟字段合法性檢查一樣烧董,邏輯一致性檢查一般發(fā)生在上游數(shù)據(jù)里毁靶,下游數(shù)據(jù),尤其是不添加新的維度字段的下游數(shù)據(jù)逊移,一般不進(jìn)行邏輯一致性檢查预吆。對于從上游數(shù)據(jù)得到的同一維度字段,在數(shù)倉數(shù)據(jù)表的同一層只檢查一遍即可胳泉。在該項檢查中拐叉,具體可以檢查多少項,因人而異扇商,因為每個人對數(shù)據(jù)生成機制凤瘦、業(yè)務(wù)用途等了解情況不一樣,能想到的檢查項也就會有很大不同案铺。

綜上蔬芥,數(shù)倉數(shù)據(jù)表的質(zhì)量檢查,包括字段合法性控汉、數(shù)據(jù)一致性笔诵、邏輯合法性3個方面,當(dāng)并不是左右數(shù)據(jù)都要做3方面的數(shù)據(jù)檢查姑子。另外乎婿,所有的數(shù)據(jù)質(zhì)量控制都是對最終交付數(shù)據(jù)做的,對非交付的中間數(shù)據(jù)如無必要壁酬,不做質(zhì)量檢查次酌。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末恨课,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子岳服,更是在濱河造成了極大的恐慌剂公,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吊宋,死亡現(xiàn)場離奇詭異纲辽,居然都是意外死亡,警方通過查閱死者的電腦和手機璃搜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門拖吼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人这吻,你說我怎么就攤上這事吊档。” “怎么了唾糯?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵怠硼,是天一觀的道長。 經(jīng)常有香客問我移怯,道長香璃,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任舟误,我火速辦了婚禮葡秒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘嵌溢。我一直安慰自己眯牧,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布堵腹。 她就那樣靜靜地躺著炸站,像睡著了一般。 火紅的嫁衣襯著肌膚如雪疚顷。 梳的紋絲不亂的頭發(fā)上旱易,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天,我揣著相機與錄音腿堤,去河邊找鬼阀坏。 笑死,一個胖子當(dāng)著我的面吹牛笆檀,可吹牛的內(nèi)容都是我干的忌堂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼酗洒,長吁一口氣:“原來是場噩夢啊……” “哼士修!你這毒婦竟也來了枷遂?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤棋嘲,失蹤者是張志新(化名)和其女友劉穎酒唉,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體沸移,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡痪伦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了雹锣。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片网沾。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蕊爵,靈堂內(nèi)的尸體忽然破棺而出辉哥,到底是詐尸還是另有隱情,我是刑警寧澤攒射,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布证薇,位于F島的核電站,受9級特大地震影響匆篓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜寇窑,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一鸦概、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧甩骏,春花似錦窗市、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至福青,卻和暖如春摄狱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背无午。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工媒役, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人宪迟。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓酣衷,卻偏偏與公主長得像,于是被迫代替她去往敵國和親次泽。 傳聞我的和親對象是個殘疾皇子穿仪,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容