經(jīng)過一段時(shí)間的代碼閱讀获雕,我對(duì)歷史項(xiàng)目的流程和數(shù)據(jù)庫(kù)結(jié)構(gòu)已經(jīng)有了初步的認(rèn)知了竭鞍,確實(shí)有了一些可以落地的數(shù)據(jù)倉(cāng)庫(kù)的做法。
首先還是要把原始表全部倒入進(jìn)來龙致,然后在數(shù)據(jù)倉(cāng)庫(kù)上做數(shù)據(jù)粗加工邓夕。
首先是導(dǎo)出原始表刘莹,這里有2個(gè)問題亿笤,一個(gè)是導(dǎo)出多少字段,不少表的字段我也不清楚栋猖,但是為了以后的分析,還是導(dǎo)出所有字段汪榔,第二個(gè)問題是增量還是全量蒲拉,首先增量,但是要確保每個(gè)記錄嗯更新時(shí)間是有的痴腌,這個(gè)還需要進(jìn)一步完善雌团。
然后是歷史數(shù)據(jù)的處理,要多多少士聪?我這里只做到把標(biāo)志位從字符解析出來單獨(dú)保存就行锦援。
由于歷史數(shù)據(jù)的處理上,很多標(biāo)志位沒有采用數(shù)據(jù)庫(kù)字段的方式剥悟,這就導(dǎo)致了無法做到標(biāo)準(zhǔn)的查詢一下灵寺,所以需要在建立新的標(biāo)志位,將文本中標(biāo)志位的內(nèi)容存放在一段中区岗,例如在合同的開頭字母是表示合同類型的略板,就需要在etl過程中把合同類型單獨(dú)存放,還好之前做了一些數(shù)據(jù)清洗慈缔,這部分問題不大叮称。