1. 摘要
人地關(guān)系的家和公司挖掘兆龙,經(jīng)過三輪迭代宛官,融合了AMap和開放平臺用戶數(shù)據(jù)媒咳,挖掘出來3.32億名用戶的常駐地,家和公司(截至2015-05-01)。其中針對amap日活用戶而言蜜徽,家的總體覆蓋率達到77.32%祝懂,公司的總體覆蓋率達到80.17%。
我們采用了兩份不同樣本集來對挖掘結(jié)果校驗拘鞋,交通訂閱樣本共計5269條砚蓬,家準(zhǔn)確率為89.31%,公司準(zhǔn)確率79.18%盆色。公司同事反饋樣本共計90條灰蛙,家和公司的準(zhǔn)確率均為94.44%。目前挖掘結(jié)果基本達到年前所設(shè)定的準(zhǔn)確率80%隔躲,覆蓋率50%的目標(biāo)摩梧,可以投入使用。
通過追蹤樣本集蹭越,目前存在IOS平臺準(zhǔn)確率和覆蓋率都偏低障本,公司準(zhǔn)確率相對偏低兩個問題教届,會通過進一步升級挖掘算法响鹃,以及推進開放平臺的IOS SDK日志升級和融合,甚至未來考慮融合UC或者手淘IOS平臺定位日志案训,來解決這些問題买置。
2. 數(shù)據(jù)集
2.1 挖掘數(shù)據(jù)源
人地關(guān)系挖掘數(shù)據(jù)來源包括Amap的AOS層所有日志,以及開放平臺定位SDK日志强霎。通過數(shù)據(jù)融合忿项、預(yù)處理,每日處理日志條數(shù)約計50~60億條城舞。
由于開放平臺REST 服務(wù)日志轩触,缺乏包括用戶標(biāo)識號(idfa),定位經(jīng)緯度等重要信息家夺,未能參與挖掘計算脱柱。未來融入該部分日志,能夠一定程度上補充目前iOS平臺用戶位置不足拉馋。五月中旬榨为,我們會發(fā)起開放平臺的日志規(guī)范討論,希望能夠推動開放平臺SDK和服務(wù)端能夠帶回更多關(guān)鍵字段數(shù)據(jù)煌茴。
2.2 校驗樣本集
路況訂閱樣本為了盡量保證交通訂閱的起始地和目的地與用戶真實的家和公司一致随闺,對交通訂閱數(shù)據(jù)采用了以下兩條規(guī)則坞生,篩選出準(zhǔn)確度較高的數(shù)據(jù)集计济,共計5269條粱年。(采用了強篩選規(guī)則)1)只選擇訂閱兩條路線的用戶钦睡,并篩選出起點為“家”逆皮、終點為“公司”的訂閱數(shù)據(jù)2)起點落在編碼為3011的樓塊中,終點落在非3011的其他居民地及設(shè)施中柳譬。
用戶反饋樣本通過提供可視化網(wǎng)站的形式群扶,收集了高德地圖內(nèi)部員工90條家和公司的反饋信息。
3. 校驗方法
3.1 坐標(biāo)系
校驗樣本集的數(shù)據(jù)都是采用的火星坐標(biāo)系(GCJ-02)笨使,挖掘結(jié)果是采用的標(biāo)準(zhǔn)GPS坐標(biāo),采用WGS84坐標(biāo)系卿樱。兩者均未指定橢球體。GCJ-02本質(zhì)加密是超越二項式硫椰,無法反解繁调,只能二分法逼近。在本次校驗中靶草,采用通用的二分法逼近算法蹄胰,經(jīng)過驗證顯示,GCJ02到WGS84的坐標(biāo)轉(zhuǎn)換的誤差不超過3m奕翔。在此應(yīng)用場景上使用裕寨,坐標(biāo)轉(zhuǎn)換所損失的精度處于容忍范圍內(nèi)。因此派继,樣本集和挖掘結(jié)果的距離量測宾袜,是在WGS84坐標(biāo)系下計算。
3.2 大地距離
本次校驗采用大地距離(球面距離)驾窟,采用Vincenty算法庆猫。通過計算挖掘結(jié)果和樣本集的WGS84坐標(biāo)系下的大地距離。在路況訂閱樣本下绅络,由于路況訂閱數(shù)據(jù)月培,用戶在選擇家或者公司操作,一般都是選小區(qū)的POI恩急,和用戶實際所在樓塊本身有一定距離杉畜,我們采用計算兩者距離<1000m,則判定為準(zhǔn)確衷恭。在用戶反饋樣本下此叠,公司內(nèi)部用戶精確地將自己的家和公司位置定位到自己所在的樓上,我們采用計算兩者距離<50m匾荆,則判定為準(zhǔn)確拌蜘。
4. 校驗結(jié)果與結(jié)論
4.1 路況訂閱樣本
總體:家 準(zhǔn)確率為89.13%,公司 準(zhǔn)確率為79.18%牙丽。家 覆蓋率為77.32%简卧,公司的覆蓋率為80.17%。
分平臺:iOS : 家 準(zhǔn)確率 86.96%烤芦,公司 準(zhǔn)確率 68.89%举娩。家 覆蓋率 31.39%,公司 覆蓋率 27.43%。Android:家 準(zhǔn)確率 89.96%, 公司 準(zhǔn)確率 79.18%铜涉。家 覆蓋率 80.61%, 公司 覆蓋率 81.55%智玻。
可以看到iOS平臺的準(zhǔn)確率和覆蓋率都相對偏低,公司的準(zhǔn)確率相對偏低芙代。通過對具體Case(大約100個)追蹤吊奢,總結(jié)原因如下:
一. AMap數(shù)據(jù)覆蓋不足。AMap使用場景更多傾向未知地點纹烹,使用頻率偏低页滚。由于開放平臺iOS相關(guān)SDK并沒有帶回idfa,用戶經(jīng)緯度等數(shù)據(jù)铺呵。改進:(1) 協(xié)調(diào)開放平臺iOS SDK PM和REST 服務(wù)RD裹驰,帶回目前日志所缺失參數(shù)。(2) 希望PM能夠協(xié)調(diào)UC片挂,支付寶幻林,手淘等集團內(nèi)部的頭部BU,授權(quán)融合使用iOS平臺用戶定位數(shù)據(jù)音念。期望收益:iOS準(zhǔn)確率整體提升到80%以上沪饺,覆蓋率整體提升到50%以上。
二. 公司語義更廣泛症昏。我們通過跟蹤具體的Case随闽,發(fā)現(xiàn)大量和汽車相關(guān)的職業(yè)的用戶(如出租車司機父丰,專車司機)并不存在傳統(tǒng)含義的公司肝谭,并沒有固定的辦公地址。公司的挖掘相對家的語義更加廣泛蛾扇,涉及到不同社會階層攘烛,公司的意義不甚一致(學(xué)生,自由工作者等)镀首,導(dǎo)致了公司挖掘準(zhǔn)確率相對較低坟漱。改進:(1) 進行新一輪算法迭代,提升公司的語義判斷準(zhǔn)確率更哄。(2) 融合其他數(shù)據(jù)維度來增強公司語義判斷準(zhǔn)確率芋齿。期望收益: 公司準(zhǔn)確率整體提升到和家持平,即90%左右成翩。
4.2 用戶反饋樣本
總體:家和公司準(zhǔn)確率均為94.44%觅捆。由于樣本集比較小,就不分平臺分析麻敌,直接針對錯誤的Case進行分析栅炒。一. 兩個iOS用戶家和公司挖掘都出錯。都是屬于挖掘得分較低的用戶,也就是說數(shù)據(jù)覆蓋不足赢赊,但是算法本身參數(shù)也需要進行一定調(diào)整乙漓。改進:調(diào)整算法參數(shù),觀察不同參數(shù)的挖掘結(jié)果释移。期望收益:準(zhǔn)確率會有一定提升叭披,但是覆蓋率會相應(yīng)下降。具體的比例很難預(yù)估玩讳。
二. 剩余主要是家或者公司挖掘出錯趋观。屬于更新時間較早,也就是說搬家或者換公司锋边,沒被探測出來皱坛。目前采用的選擇算法傾向于惰性,時間參數(shù)的衰減較慢豆巨,搬家或者換公司一般要一到兩個月才能更新位置剩辟。改進: 調(diào)整目前惰性算法,加大時間衰減權(quán)重往扔。期望收益:能更快探測到用戶新家或公司贩猎,但是有可能帶來準(zhǔn)確率的下降。
5. 總結(jié)
綜上所述萍膛,目前家和公司第一期的挖掘已經(jīng)按時符合質(zhì)量產(chǎn)出吭服,下一期需要融合更多數(shù)據(jù),進一步升級挖掘算法蝗罗。從數(shù)據(jù)層面艇棕,保證挖掘的準(zhǔn)確率和覆蓋率。下一步的工作串塑,包括提供家和公司的數(shù)據(jù)服務(wù)沼琉,進一步深化人地關(guān)系的挖掘。主要包括桩匪,用戶常去區(qū)域打瘪,用戶軌跡等挖掘。同時傻昙,我們會啟動ID Mapping 和 用戶標(biāo)簽體系的構(gòu)建闺骚,最終都采用標(biāo)準(zhǔn)的REST 服務(wù)提供,預(yù)期ID Mapping 會在六月中旬提供服務(wù)妆档。用戶標(biāo)簽體系則是長期工作僻爽,會在五月底提供部分標(biāo)簽的數(shù)據(jù)服務(wù)。