人地關(guān)系第一期挖掘結(jié)果校驗報告與工作規(guī)劃

1. 摘要

人地關(guān)系的家和公司挖掘兆龙,經(jīng)過三輪迭代宛官,融合了AMap和開放平臺用戶數(shù)據(jù)媒咳,挖掘出來3.32億名用戶的常駐地,家和公司(截至2015-05-01)。其中針對amap日活用戶而言蜜徽,家的總體覆蓋率達到77.32%祝懂,公司的總體覆蓋率達到80.17%。
我們采用了兩份不同樣本集來對挖掘結(jié)果校驗拘鞋,交通訂閱樣本共計5269條砚蓬,家準(zhǔn)確率為89.31%,公司準(zhǔn)確率79.18%盆色。公司同事反饋樣本共計90條灰蛙,家和公司的準(zhǔn)確率均為94.44%。目前挖掘結(jié)果基本達到年前所設(shè)定的準(zhǔn)確率80%隔躲,覆蓋率50%的目標(biāo)摩梧,可以投入使用。
通過追蹤樣本集蹭越,目前存在IOS平臺準(zhǔn)確率和覆蓋率都偏低障本,公司準(zhǔn)確率相對偏低兩個問題教届,會通過進一步升級挖掘算法响鹃,以及推進開放平臺的IOS SDK日志升級和融合,甚至未來考慮融合UC或者手淘IOS平臺定位日志案训,來解決這些問題买置。

2. 數(shù)據(jù)集

2.1 挖掘數(shù)據(jù)源

人地關(guān)系挖掘數(shù)據(jù)來源包括Amap的AOS層所有日志,以及開放平臺定位SDK日志强霎。通過數(shù)據(jù)融合忿项、預(yù)處理,每日處理日志條數(shù)約計50~60億條城舞。
由于開放平臺REST 服務(wù)日志轩触,缺乏包括用戶標(biāo)識號(idfa),定位經(jīng)緯度等重要信息家夺,未能參與挖掘計算脱柱。未來融入該部分日志,能夠一定程度上補充目前iOS平臺用戶位置不足拉馋。五月中旬榨为,我們會發(fā)起開放平臺的日志規(guī)范討論,希望能夠推動開放平臺SDK和服務(wù)端能夠帶回更多關(guān)鍵字段數(shù)據(jù)煌茴。

2.2 校驗樣本集

路況訂閱樣本為了盡量保證交通訂閱的起始地和目的地與用戶真實的家和公司一致随闺,對交通訂閱數(shù)據(jù)采用了以下兩條規(guī)則坞生,篩選出準(zhǔn)確度較高的數(shù)據(jù)集计济,共計5269條粱年。(采用了強篩選規(guī)則)1)只選擇訂閱兩條路線的用戶钦睡,并篩選出起點為“家”逆皮、終點為“公司”的訂閱數(shù)據(jù)2)起點落在編碼為3011的樓塊中,終點落在非3011的其他居民地及設(shè)施中柳譬。
用戶反饋樣本通過提供可視化網(wǎng)站的形式群扶,收集了高德地圖內(nèi)部員工90條家和公司的反饋信息。

3. 校驗方法

3.1 坐標(biāo)系

校驗樣本集的數(shù)據(jù)都是采用的火星坐標(biāo)系(GCJ-02)笨使,挖掘結(jié)果是采用的標(biāo)準(zhǔn)GPS坐標(biāo),采用WGS84坐標(biāo)系卿樱。兩者均未指定橢球體。GCJ-02本質(zhì)加密是超越二項式硫椰,無法反解繁调,只能二分法逼近。在本次校驗中靶草,采用通用的二分法逼近算法蹄胰,經(jīng)過驗證顯示,GCJ02到WGS84的坐標(biāo)轉(zhuǎn)換的誤差不超過3m奕翔。在此應(yīng)用場景上使用裕寨,坐標(biāo)轉(zhuǎn)換所損失的精度處于容忍范圍內(nèi)。因此派继,樣本集和挖掘結(jié)果的距離量測宾袜,是在WGS84坐標(biāo)系下計算。

3.2 大地距離

本次校驗采用大地距離(球面距離)驾窟,采用Vincenty算法庆猫。通過計算挖掘結(jié)果和樣本集的WGS84坐標(biāo)系下的大地距離。在路況訂閱樣本下绅络,由于路況訂閱數(shù)據(jù)月培,用戶在選擇家或者公司操作,一般都是選小區(qū)的POI恩急,和用戶實際所在樓塊本身有一定距離杉畜,我們采用計算兩者距離<1000m,則判定為準(zhǔn)確衷恭。在用戶反饋樣本下此叠,公司內(nèi)部用戶精確地將自己的家和公司位置定位到自己所在的樓上,我們采用計算兩者距離<50m匾荆,則判定為準(zhǔn)確拌蜘。

4. 校驗結(jié)果與結(jié)論

4.1 路況訂閱樣本

總體:家 準(zhǔn)確率為89.13%,公司 準(zhǔn)確率為79.18%牙丽。家 覆蓋率為77.32%简卧,公司的覆蓋率為80.17%。
分平臺:iOS : 家 準(zhǔn)確率 86.96%烤芦,公司 準(zhǔn)確率 68.89%举娩。家 覆蓋率 31.39%,公司 覆蓋率 27.43%。Android:家 準(zhǔn)確率 89.96%, 公司 準(zhǔn)確率 79.18%铜涉。家 覆蓋率 80.61%, 公司 覆蓋率 81.55%智玻。

可以看到iOS平臺的準(zhǔn)確率和覆蓋率都相對偏低,公司的準(zhǔn)確率相對偏低芙代。通過對具體Case(大約100個)追蹤吊奢,總結(jié)原因如下:
一. AMap數(shù)據(jù)覆蓋不足。AMap使用場景更多傾向未知地點纹烹,使用頻率偏低页滚。由于開放平臺iOS相關(guān)SDK并沒有帶回idfa,用戶經(jīng)緯度等數(shù)據(jù)铺呵。改進:(1) 協(xié)調(diào)開放平臺iOS SDK PM和REST 服務(wù)RD裹驰,帶回目前日志所缺失參數(shù)。(2) 希望PM能夠協(xié)調(diào)UC片挂,支付寶幻林,手淘等集團內(nèi)部的頭部BU,授權(quán)融合使用iOS平臺用戶定位數(shù)據(jù)音念。期望收益:iOS準(zhǔn)確率整體提升到80%以上沪饺,覆蓋率整體提升到50%以上。
二. 公司語義更廣泛症昏。我們通過跟蹤具體的Case随闽,發(fā)現(xiàn)大量和汽車相關(guān)的職業(yè)的用戶(如出租車司機父丰,專車司機)并不存在傳統(tǒng)含義的公司肝谭,并沒有固定的辦公地址。公司的挖掘相對家的語義更加廣泛蛾扇,涉及到不同社會階層攘烛,公司的意義不甚一致(學(xué)生,自由工作者等)镀首,導(dǎo)致了公司挖掘準(zhǔn)確率相對較低坟漱。改進:(1) 進行新一輪算法迭代,提升公司的語義判斷準(zhǔn)確率更哄。(2) 融合其他數(shù)據(jù)維度來增強公司語義判斷準(zhǔn)確率芋齿。期望收益: 公司準(zhǔn)確率整體提升到和家持平,即90%左右成翩。

4.2 用戶反饋樣本

總體:家和公司準(zhǔn)確率均為94.44%觅捆。由于樣本集比較小,就不分平臺分析麻敌,直接針對錯誤的Case進行分析栅炒。一. 兩個iOS用戶家和公司挖掘都出錯。都是屬于挖掘得分較低的用戶,也就是說數(shù)據(jù)覆蓋不足赢赊,但是算法本身參數(shù)也需要進行一定調(diào)整乙漓。改進:調(diào)整算法參數(shù),觀察不同參數(shù)的挖掘結(jié)果释移。期望收益:準(zhǔn)確率會有一定提升叭披,但是覆蓋率會相應(yīng)下降。具體的比例很難預(yù)估玩讳。
二. 剩余主要是家或者公司挖掘出錯趋观。屬于更新時間較早,也就是說搬家或者換公司锋边,沒被探測出來皱坛。目前采用的選擇算法傾向于惰性,時間參數(shù)的衰減較慢豆巨,搬家或者換公司一般要一到兩個月才能更新位置剩辟。改進: 調(diào)整目前惰性算法,加大時間衰減權(quán)重往扔。期望收益:能更快探測到用戶新家或公司贩猎,但是有可能帶來準(zhǔn)確率的下降。

5. 總結(jié)

綜上所述萍膛,目前家和公司第一期的挖掘已經(jīng)按時符合質(zhì)量產(chǎn)出吭服,下一期需要融合更多數(shù)據(jù),進一步升級挖掘算法蝗罗。從數(shù)據(jù)層面艇棕,保證挖掘的準(zhǔn)確率和覆蓋率。下一步的工作串塑,包括提供家和公司的數(shù)據(jù)服務(wù)沼琉,進一步深化人地關(guān)系的挖掘。主要包括桩匪,用戶常去區(qū)域打瘪,用戶軌跡等挖掘。同時傻昙,我們會啟動ID Mapping 和 用戶標(biāo)簽體系的構(gòu)建闺骚,最終都采用標(biāo)準(zhǔn)的REST 服務(wù)提供,預(yù)期ID Mapping 會在六月中旬提供服務(wù)妆档。用戶標(biāo)簽體系則是長期工作僻爽,會在五月底提供部分標(biāo)簽的數(shù)據(jù)服務(wù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末过吻,一起剝皮案震驚了整個濱河市进泼,隨后出現(xiàn)的幾起案子蔗衡,更是在濱河造成了極大的恐慌,老刑警劉巖乳绕,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件绞惦,死亡現(xiàn)場離奇詭異,居然都是意外死亡洋措,警方通過查閱死者的電腦和手機济蝉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來菠发,“玉大人王滤,你說我怎么就攤上這事∽茵” “怎么了雁乡?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長糜俗。 經(jīng)常有香客問我踱稍,道長,這世上最難降的妖魔是什么悠抹? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任珠月,我火速辦了婚禮,結(jié)果婚禮上楔敌,老公的妹妹穿的比我還像新娘啤挎。我一直安慰自己,他們只是感情好卵凑,可當(dāng)我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布庆聘。 她就那樣靜靜地躺著,像睡著了一般氛谜。 火紅的嫁衣襯著肌膚如雪掏觉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天值漫,我揣著相機與錄音,去河邊找鬼织盼。 笑死杨何,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的沥邻。 我是一名探鬼主播危虱,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼唐全!你這毒婦竟也來了埃跷?” 一聲冷哼從身側(cè)響起蕊玷,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎弥雹,沒想到半個月后垃帅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡剪勿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年贸诚,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片厕吉。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡酱固,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出头朱,到底是詐尸還是另有隱情运悲,我是刑警寧澤,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布项钮,位于F島的核電站扇苞,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏寄纵。R本人自食惡果不足惜鳖敷,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望程拭。 院中可真熱鬧定踱,春花似錦、人聲如沸恃鞋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽恤浪。三九已至畅哑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間水由,已是汗流浹背荠呐。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留砂客,地道東北人泥张。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像鞠值,于是被迫代替她去往敵國和親媚创。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內(nèi)容