今天進(jìn)行了AGS的姓名匹配工作后豫,由于系統(tǒng)默認(rèn)在發(fā)動機(jī)關(guān)車后進(jìn)行數(shù)據(jù)上傳营密,因此實際觀察下來后可以按照QAR系統(tǒng)接收時間和航班實際關(guān)車時間做對比進(jìn)行匹配灾杰,一般間隔時間均為幾分鐘內(nèi),實際匹配過程中按照1小時30分鐘掌握即可,如果間隔再拉大粤咪,對于短航班可能會匹配到下一航段,所以時間間隔不宜太大。
另外需要注意的一點是:最好按照前后2天劝术,總共5天的航班進(jìn)行匹配,因為長航線10幾個小時计螺,在數(shù)據(jù)接收時間上很容易跨天夯尽,所以間隔短了很容易匹配不到。
具體代碼如下:
#進(jìn)行mysql語句層面的匹配登馒,規(guī)則為取前后三天的航班進(jìn)行時間間隔相減匙握,如果兩者時間間隔小于一小時且數(shù)據(jù)只有一條,則認(rèn)為精確匹配
sql="select key_id,timediff('%s' ,實到) as 時間間隔 from flight_link_chn where 航班日期 between '%s' and '%s' and 機(jī)號='%s' having 時間間隔<='01:00:00' and 時間間隔>='00:00:00'" % (ags_datetime,ags_datetime-timedelta(days = 2),ags_datetime+timedelta(days = 2),ags_reg[2:6])
實際測試效果:
2018年1-2月份總快照數(shù)量為17954陈轿,剔除掉無效數(shù)據(jù)409條后還剩余有效數(shù)據(jù)17545條圈纺。
進(jìn)行上述匹配后精確匹配的數(shù)據(jù)總量為17145條,匹配率97.7%
未匹配的數(shù)據(jù)大部分為國際航班麦射,可能和無線QAR數(shù)據(jù)上傳延遲有關(guān)蛾娶,比如當(dāng)段上傳失敗,后續(xù)回到國內(nèi)再進(jìn)行上傳的潜秋,按照我的匹配規(guī)則時間間隔太長蛔琅,導(dǎo)致匹配失敗
還有一部分航班日期和航班號相同,但機(jī)號不同峻呛,顯示數(shù)據(jù)錯亂的可能性罗售,具體原因未知