讀數(shù)據(jù)質(zhì)量管理:數(shù)據(jù)可靠性與數(shù)據(jù)質(zhì)量問題解決之道07異常檢測(cè)

讀數(shù)據(jù)質(zhì)量管理:數(shù)據(jù)可靠性與數(shù)據(jù)質(zhì)量問題解決之道07異常檢測(cè).png

1. 監(jiān)控和異常檢測(cè)

1.1. 在數(shù)據(jù)方面享怀,所有明面上的測(cè)試和數(shù)據(jù)質(zhì)量檢查都不能完全保護(hù)你免受數(shù)據(jù)宕機(jī)的影響

  • 1.1.1. 宕機(jī)可能由于各種原因而出現(xiàn)在管道內(nèi)部和外部的各個(gè)階段

  • 1.1.2. 這些原因通常與數(shù)據(jù)本身無關(guān)

1.2. 要了解數(shù)據(jù)何時(shí)中斷牡辽,最好的做法是依靠數(shù)據(jù)監(jiān)控亲茅,特別是異常檢測(cè)技術(shù)

  • 1.2.1. 在容量瘫里、新鮮度龙考、分布和其他值沒有達(dá)到預(yù)期閾值時(shí)被及時(shí)識(shí)別

1.3. 在知道有一個(gè)好的分類(或者說分類模型)之前蛆封,你需要知道什么是好的分類

2. 異常檢測(cè)

2.1. 指的是識(shí)別出偏離常態(tài)的事件或觀察結(jié)果

2.2. 對(duì)于許多數(shù)據(jù)團(tuán)隊(duì)來說杀糯,異常檢測(cè)都被認(rèn)為是一種“有則更好”而不是“必須要有”的東西

2.3. 團(tuán)隊(duì)必須同時(shí)采取主動(dòng)方式和被動(dòng)方式來解決數(shù)據(jù)質(zhì)量問題

2.4. 監(jiān)控并發(fā)出關(guān)于數(shù)據(jù)可觀測(cè)性支柱(新鮮度、容量彤枢、分布和模式)的警報(bào)

2.5. 要明白對(duì)于任何異常檢測(cè)問題來說都沒有完美的分類器

3. 已知的未知和未知的未知

3.1. 你可以預(yù)測(cè)的(已知的未知)和你無法預(yù)測(cè)的(未知的未知)

  • 3.1.1. 測(cè)試和斷路器可以處理許多已知的未知

  • 3.1.2. 在涉及未知的未知時(shí)狰晚,監(jiān)控和異常檢測(cè)可以作為處理的基礎(chǔ)

3.2. 已知的未知是你可以輕松預(yù)測(cè)的問題

  • 3.2.1. 空值

  • 3.2.2. 特有的新鮮度問題

  • 3.2.3. 由定期更新的系統(tǒng)觸發(fā)的模式變更

  • 3.2.4. 可以在它們導(dǎo)致下游出現(xiàn)問題前把它們解決

3.3. 未知的未知指的是即使通過最全面的測(cè)試也無法解決的數(shù)據(jù)宕機(jī)

  • 3.3.1. 是整個(gè)數(shù)據(jù)管道中出現(xiàn)的問題

  • 3.3.2. 不僅僅是特定測(cè)試所涵蓋的部分

  • 3.3.3. 關(guān)鍵字段中的分布異常導(dǎo)致Tableau儀表板出現(xiàn)故障

  • 3.3.4. 其他團(tuán)隊(duì)進(jìn)行的JSON模式變更

  • 3.3.5. 對(duì)ETL(或反向ETL)的意外更改導(dǎo)致測(cè)試無法運(yùn)行而不良數(shù)據(jù)未被發(fā)現(xiàn)

  • 3.3.6. 直到幾周后才被注意到的不完整或陳舊數(shù)據(jù),影響了關(guān)鍵營(yíng)銷指標(biāo)

  • 3.3.7. 代碼變更導(dǎo)致API停止收集為重要新產(chǎn)品提供的數(shù)據(jù)

  • 3.3.8. 隨時(shí)間推移產(chǎn)生的數(shù)據(jù)漂移

    • 3.3.8.1. ETL作業(yè)通常不考慮給定表中已經(jīng)存在的數(shù)據(jù)

3.4. 利用監(jiān)控和異常檢測(cè)來識(shí)別并警告偏離給定數(shù)據(jù)管道歷史預(yù)期的數(shù)據(jù)行為缴啡。通過了解“好”數(shù)據(jù)的樣子壁晒,就會(huì)更容易主動(dòng)識(shí)別出“壞”數(shù)據(jù)

4. 構(gòu)建異常檢測(cè)的算法

4.1. 語(yǔ)言和工具

  • 4.1.1. SQLite和SQL

  • 4.1.2. Jupyter Notebooks

  • 4.1.3. Python

4.2. 新鮮度監(jiān)控

  • 4.2.1. 可以為我們提供一個(gè)強(qiáng)有力的指標(biāo)來說明關(guān)鍵數(shù)據(jù)資產(chǎn)上次更新的時(shí)間

  • 4.2.2. 如果一份按小時(shí)定期更新的報(bào)告突然看起來很陳舊,這類異常應(yīng)該給我們提供了一個(gè)強(qiáng)烈的信號(hào)业栅,表明某些地方是不準(zhǔn)確的或者可能是錯(cuò)誤的

  • 4.2.3. SQL不存儲(chǔ)元數(shù)據(jù)秒咐,所以為了在這種追溯環(huán)境中對(duì)新鮮度進(jìn)行可視化,我們需要自己跟蹤這些信息

    • 4.2.3.1. 到底多少天未更新數(shù)據(jù)就算太久沒更新了呢碘裕?

4.3. 分布

  • 4.3.1. 評(píng)估數(shù)據(jù)的字段級(jí)分布健康狀況

  • 4.3.2. 分布會(huì)告訴我們數(shù)據(jù)的所有期望值携取,以及每個(gè)值出現(xiàn)的頻率

  • 4.3.3. 在許多情況下,一定程度的數(shù)據(jù)不完整是可以接受的帮孔,但如果10%的空值率變成了90%歹茶,那我們就必須要知道到底發(fā)生了什么

  • 4.3.4. 假設(shè)觀測(cè)值數(shù)據(jù)集來自符合數(shù)學(xué)規(guī)則的基準(zhǔn)分布

    • 4.3.4.1. 樣本分布

    • 4.3.4.2. 真實(shí)分布

  • 4.3.5. 中心極限定理

    • 4.3.5.1. 隨著樣本數(shù)量的增加,獨(dú)立生成的隨機(jī)樣本的分布會(huì)接近于某個(gè)分布

    • 4.3.5.2. 如果在一個(gè)均值為μ你弦、標(biāo)準(zhǔn)差為σ的給定數(shù)據(jù)集中有一個(gè)足夠隨機(jī)的樣本,則樣本均值的分布將近似正態(tài)分布

    • 4.3.5.3. 正態(tài)分布或高斯分布是統(tǒng)計(jì)課中大家都很熟悉的著名鐘形曲線

      4.3.5.3.1. 應(yīng)用高斯分布可能會(huì)得到一種進(jìn)行異常檢測(cè)的初始方法

      4.3.5.3.2. 中心極限定理陳述了許多人都會(huì)忽略的一個(gè)數(shù)據(jù)生成過程中的關(guān)鍵特征:獨(dú)立燎孟、隨機(jī)的觀測(cè)值在極限情況下產(chǎn)生正態(tài)分布

      4.3.5.3.3. 在商業(yè)智能數(shù)據(jù)中禽作,觀測(cè)值結(jié)果往往具有高度的相關(guān)性,并與其他變量相混淆

    • 4.3.5.4. “異晨常”和“有趣”的觀測(cè)值之間是有區(qū)別的旷偿,這不能完全用純粹的統(tǒng)計(jì)思維來理解

      4.3.5.4.1. 時(shí)間序列包含重要的前后背景信息

      4.3.5.4.1.1. 季節(jié)性是指時(shí)間序列在一定時(shí)間間隔內(nèi)觀察到可預(yù)測(cè)的波動(dòng)趨勢(shì)

      4.3.5.4.2. 并非所有的異常觀測(cè)值都是有趣的,它們并不能幫助我們識(shí)別并糾正數(shù)據(jù)宕機(jī)

  • 4.3.6. 如果空值率的“峰值”代表著比之前平均值的增加爆侣,則更應(yīng)令人擔(dān)憂

    • 4.3.6.1. 當(dāng)空值率突然下降時(shí)萍程,可能不值得進(jìn)行監(jiān)控,而檢測(cè)空值率是否增加的價(jià)值是顯而易見的

4.4. 良好的異常檢測(cè)肯定是數(shù)據(jù)可觀測(cè)性難題的一部分兔仰,但這并不是全部

  • 4.4.1. 同樣重要的還有前后的背景信息

5. 構(gòu)建監(jiān)控器

5.1. 模式變更和沿襲的異常檢測(cè)

  • 5.1.1. 跟蹤模式變更和沿襲可以讓你前所未有地了解數(shù)據(jù)的健康狀況和使用模式茫负,提供有關(guān)何人、何事乎赴、何地忍法、何因以及如何使用你數(shù)據(jù)的關(guān)鍵前后上下文信息

  • 5.1.2. 其實(shí)在理解數(shù)據(jù)宕機(jī)對(duì)下游(通常也是現(xiàn)實(shí)世界)的影響時(shí)潮尝,模式和沿襲是兩個(gè)最重要的數(shù)據(jù)可觀測(cè)性支柱

5.2. 當(dāng)對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行更改時(shí),就會(huì)發(fā)生模式變更

  • 5.2.1. 模式變更可以指關(guān)于數(shù)據(jù)的任何事

    • 5.2.1.1. 添加新的API端點(diǎn)

    • 5.2.1.2. 假定已棄用的字段尚未被棄用

    • 5.2.1.3. 增加或減少列饿序、行或整個(gè)表

  • 5.2.2. 有版本歷史

    • 5.2.2.1. 模式變更很容易悄悄地突然降臨到我們身上
  • 5.2.3. 識(shí)別發(fā)出表明管道健康的信號(hào)的有用元數(shù)據(jù)

    • 5.2.3.1. 跟蹤它勉失,同時(shí)構(gòu)建檢測(cè)器來提醒我們潛在的問題

    • 5.2.3.2. 提供額外的表是跟蹤模式的一種方法,但還有許多其他不同的方法

5.3. 對(duì)沿襲進(jìn)行可視化

  • 5.3.1. 沿襲是數(shù)據(jù)可觀測(cè)性5個(gè)支柱中最全面的一個(gè)

  • 5.3.2. 沿襲通過告訴我們哪些下游來源可能受到影響以及哪些上游來源可能是根本原因這兩件事來貫穿整個(gè)事件

  • 5.3.3. 沿襲信息可以幫助我們確定事件的根本原因并更快地解決它們

5.4. 調(diào)查數(shù)據(jù)異常

  • 5.4.1. 解釋僅使用發(fā)生了數(shù)據(jù)異常的事實(shí)

  • 5.4.2. 解釋使用了沿襲原探,根據(jù)表和字段之間的依賴關(guān)系乱凿,將事件置于整個(gè)前后上下文中并確定了問題的根本原因

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市咽弦,隨后出現(xiàn)的幾起案子徒蟆,更是在濱河造成了極大的恐慌,老刑警劉巖离唬,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件后专,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡输莺,警方通過查閱死者的電腦和手機(jī)戚哎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嫂用,“玉大人型凳,你說我怎么就攤上這事≈龊” “怎么了甘畅?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)往弓。 經(jīng)常有香客問我疏唾,道長(zhǎng),這世上最難降的妖魔是什么函似? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任槐脏,我火速辦了婚禮,結(jié)果婚禮上撇寞,老公的妹妹穿的比我還像新娘顿天。我一直安慰自己,他們只是感情好蔑担,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布牌废。 她就那樣靜靜地躺著,像睡著了一般啤握。 火紅的嫁衣襯著肌膚如雪鸟缕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天恨统,我揣著相機(jī)與錄音叁扫,去河邊找鬼三妈。 笑死,一個(gè)胖子當(dāng)著我的面吹牛莫绣,可吹牛的內(nèi)容都是我干的畴蒲。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼对室,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼模燥!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起掩宜,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤蔫骂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后牺汤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辽旋,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年檐迟,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了补胚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡追迟,死狀恐怖溶其,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情敦间,我是刑警寧澤瓶逃,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站廓块,受9級(jí)特大地震影響厢绝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜带猴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一代芜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧浓利,春花似錦、人聲如沸钞速。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)渴语。三九已至苹威,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間驾凶,已是汗流浹背牙甫。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工掷酗, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人窟哺。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓泻轰,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親且轨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子浮声,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容