哎许饿,這兩天又在搞數(shù)據(jù)阳欲,之前的底層表沒法用,只好自己同步一下陋率,同步完之后球化,發(fā)現(xiàn)兩邊的數(shù)據(jù)不一致,找來找去瓦糟,發(fā)現(xiàn)是增量數(shù)據(jù)的問題筒愚,業(yè)務(wù)系統(tǒng)里沒有對所有的記錄的時間字段進行更新,經(jīng)常手動update數(shù)據(jù)菩浙,而且update_time還沒更新巢掺。
所以吧,我得監(jiān)控一下這個數(shù)據(jù)質(zhì)量劲蜻,打算用python來寫陆淀,記錄下遇到的小問題。
ModuleNotFoundError: No module named 'MySQLdb'
服務(wù)器上的anaconda是新安裝的先嬉,默認貌似沒有這個mysql的驅(qū)動轧苫,就配置下
conda install mysqlclient
python3的話,是安裝這個
ModuleNotFoundError: No module named 'cx_Oracle'
Oracle驅(qū)動包沒有疫蔓,同樣安裝一下
conda install cx_Oracle
Python代碼寫完了含懊,目前是滿足基本需求,后面分享下大概思路
1.每天定時執(zhí)行腳本
2.查詢業(yè)務(wù)庫的表數(shù)據(jù)
3.查詢ODS庫的表數(shù)據(jù)
4.匹配差異
5.調(diào)用企業(yè)微信接口發(fā)送消息
目前主要對比下訂單表衅胀,用戶表绢要,其他后續(xù)應(yīng)該還會有增加,代碼持續(xù)優(yōu)化下拗小。
愈發(fā)的感覺到一個好用的調(diào)度工具重罪,太重要了,有點兒懷念DataWorks了