Data Quality

Data quality includes

  • missing
  • inconsistent
  • invaild
  • implausible(難以置信的)

Data preparation workflow

  • 1: How to use data profiling(剖析) methods to
    Characterise data and provide high-level insights
    Investigate data quality so it may be cleaned

  • Data preparation workflow includes three steps

  • Firstly, Discover
    What data sources and level of detail
    What spatio-temporal coverage(時空覆蓋) and cost

  • Secondly, Wrangle(爭辯)
    **Read in data, reformat(重新格式化), transform(轉(zhuǎn)換), link(鏈接)

  • Profile
    Rigorous investigation of data quality

Subset of Data preparation

  • I: Look at your data
    Number of rows
    Example of Values
    Data Formate
    Data Type
    How is it encoded?

    1. Why people must care for Data Encoded
      Explain: If you use anything other than the most basic English text, people may not be able to read your data unless you state the character encoding
    1. File size & number of rows
    1. Check the data types
      Check the format yourself
      Don’t rely on heuristics(啟發(fā)法)
      Don’t assume that all your data files use the same format, even if the files come from one source
    1. Example values
  • II: read your data correctly ---->Watch out for special values

  • III:Is all the data there?

  • 1:Missing values
    Terrible statistical terminology
    Advantages of visualization

  • 1.1: Missing at random(MAR)
    -Related to other variables
    – Term is misleading!

  • 1.2: Missing completely at random (MCAR)
    – Haphazard
    – Unrelated to values of variable, or other variables

  • 1.3: Missing not at random (MNAR)
    – Related to values of the variable itself

  • 2:Coverage (e.g. temporal or geographic)

  • 2.1: Temporal coverage

  • 2.2: Spatialcoverage

  • 3:Duplicates(重復(fù)值)

  • IV: Rigorously check data quality

  • How to write data validation rules
    1.1: Subject-matter special lists typically use free text to describe valid values and explain how to clean them
    1.2: Data scientist may need to write validation & cleaning rules as pseudocode

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市渔期,隨后出現(xiàn)的幾起案子疏橄,更是在濱河造成了極大的恐慌默蚌,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件呛凶,死亡現(xiàn)場離奇詭異违霞,居然都是意外死亡,警方通過查閱死者的電腦和手機季率,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蟀伸,“玉大人蚀同,你說我怎么就攤上這事缅刽“√停” “怎么了蠢络?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長迟蜜。 經(jīng)常有香客問我刹孔,道長,這世上最難降的妖魔是什么娜睛? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任髓霞,我火速辦了婚禮,結(jié)果婚禮上畦戒,老公的妹妹穿的比我還像新娘方库。我一直安慰自己,他們只是感情好障斋,可當(dāng)我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布纵潦。 她就那樣靜靜地躺著,像睡著了一般垃环。 火紅的嫁衣襯著肌膚如雪邀层。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天遂庄,我揣著相機與錄音寥院,去河邊找鬼。 笑死涛目,一個胖子當(dāng)著我的面吹牛秸谢,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播霹肝,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼钮追,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了阿迈?” 一聲冷哼從身側(cè)響起元媚,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎苗沧,沒想到半個月后刊棕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡待逞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年甥角,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片识樱。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡嗤无,死狀恐怖震束,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情当犯,我是刑警寧澤垢村,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站嚎卫,受9級特大地震影響嘉栓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拓诸,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一侵佃、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧奠支,春花似錦馋辈、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至枢劝,卻和暖如春井联,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背您旁。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工烙常, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人鹤盒。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓蚕脏,卻偏偏與公主長得像,于是被迫代替她去往敵國和親侦锯。 傳聞我的和親對象是個殘疾皇子驼鞭,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容