以下文章來源于京東城市?盛末,作者JUST團隊-何天賦
? ? ? 市民的出行軌跡數(shù)據(jù)無論是對于城市管理、規(guī)劃矿卑,還是商業(yè)活動襟衰,都是重要的參考信息。然而,獲取一個城市的人群軌跡數(shù)據(jù)卻非常困難瀑晒。
在今年4月份召開的國際頂級互聯(lián)網(wǎng)會議WWW 2020(CCF-A類)上绍坝,京東城市報告了被會議收錄的論文《What is the Human Mobility in a New City: Transfer Mobility KnowledgeAcross Cities》,研究了如何通過遷移學(xué)習(xí)苔悦,根據(jù)一個城市的POI轩褐、路網(wǎng)、交通信息來推測它的人群軌跡分布玖详。
1. 背景
城市人群出行所產(chǎn)生的軌跡信息是公共交通規(guī)劃把介、城市基礎(chǔ)建設(shè)、商業(yè)選址智能系統(tǒng)的重要參考數(shù)據(jù)蟋座。但由于隱私拗踢、商業(yè)保密和傳感器部署預(yù)算等原因,想要得到城市大量的軌跡是非常困難的向臀,尤其是對于一個新的巢墅、缺乏數(shù)據(jù)采集的城市區(qū)域。
然而我們知道券膀,一個城市的出行軌跡分布君纫,與該城市的POI、公交芹彬、路網(wǎng)信息存在關(guān)聯(lián)蓄髓。那么,是否可以通過已有軌跡的城市區(qū)域舒帮,去學(xué)習(xí)這種關(guān)聯(lián)会喝,并將這種關(guān)聯(lián)應(yīng)用在目標(biāo)城市上呢?這正是該工作所作的研究玩郊。正如圖1示例肢执,通過對已有軌跡的城市如北京、合肥進行出行知識建模瓦宜,通過雄安的路網(wǎng)、POI岭妖、公交信息临庇,得到雄安的軌跡數(shù)據(jù)分布。
作者將出行的本質(zhì)歸為三個階段(圖2):1)產(chǎn)生出行意圖昵慌、選擇目的地和路線選擇假夺。順著這個思路,該論文將新城市的軌跡生成問題拆分成三步:1)出行意圖遷移斋攀;2)起始點-終點(OD)生成已卷;3)路線生成。
2. 出行意圖生成
由于不同城市的建設(shè)程度淳蔼、規(guī)劃風(fēng)格存在差異侧蘸,從源城市中顯式學(xué)習(xí)到的出行規(guī)律裁眯,無法很好應(yīng)用于目標(biāo)城市。一個典型例子是讳癌,北京有大量從家到地鐵站的短途出行需求穿稳,而小城市沒有地鐵站,就不存在家-地鐵的出行模式晌坤。這就是各城市在顯式特征空間中的分布不一致現(xiàn)象(圖3左)逢艘。
雖然顯式出行模式不能直接應(yīng)用在新的城市,但作者嘗試找到一個隱空間骤菠,在這個空間里它改,各個城市的數(shù)據(jù)分布相近,通過源城市學(xué)習(xí)得到這個一致分布商乎,并將其作為目標(biāo)城市的分布(圖3右)——這就是遷移學(xué)習(xí)領(lǐng)域的域泛化(Domain Generalization)思想央拖。
圖4展示了出行意圖生成模塊的具體過程。
首先截亦,根據(jù)兩個源城市軌跡的起始點終點爬泥,提取顯式的特征——空間信息特征(Spatial Context Features)。提取包括了POI分布崩瓤、起終點在路網(wǎng)中的拓撲特征袍啡、與公交站的距離等信息(圖4b)。
接下來却桶,基于域泛化思想境输,從不同源城市OD點的空間信息特征中學(xué)習(xí)泛化函數(shù)G,最小化G函數(shù)映射后源城市之間的分布最大平均差異颖系。如圖4c所示嗅剖,通過學(xué)得的G映射函數(shù),在G目標(biāo)空間——出行意圖空間(MobilityIntention Space)中嘁扼,不同源城市的分布相近信粮。
最后,對出行意圖空間中的數(shù)據(jù)進行建模趁啸,對出行意圖分布建立生成模型(圖4d)强缘。根據(jù)作者在早期探查中的試驗,從源城市得到的出行意圖分布不傅,與目標(biāo)城市的出行意圖分布也很接近旅掂。因此,該工作將源城市的出行意圖分布直接作為目標(biāo)城市的出行意圖分布访娶。
3. 目標(biāo)城市的起終點生成
通過上一步商虐,我們得到了出行意圖空間的生成模型,產(chǎn)生目標(biāo)城市的出行意圖數(shù)據(jù)。但出行意圖數(shù)據(jù)是隱空間數(shù)據(jù)秘车,如何通過產(chǎn)生的出行意圖向量典勇,來算得目標(biāo)城市真實的起終點?
其實換一種問法就是鲫尊,產(chǎn)生的出行意圖痴柔,最接近目標(biāo)城市從哪里到哪里的意圖?這就轉(zhuǎn)成了是一個相似查詢問題疫向。
圖5形象化了該模塊的執(zhí)行過程咳蔚。分為三步:
首先是候選起終點獲取。我們先計算目標(biāo)城市的所有可能出現(xiàn)的起終點對搔驼。根據(jù)相關(guān)研究谈火,91.7%的短途出行集中在6公里以內(nèi)。因此舌涨,該工作枚舉了目標(biāo)城市所有6公里以內(nèi)的起終點作為候選集糯耍。
然后,通過同樣的空間信息特征提取方法囊嘉,和上一模塊學(xué)得的域泛化函數(shù)G温技,得到目標(biāo)城市的起終點候選集映射的出行意圖信息(圖5b)。
最后扭粱,如圖5c舵鳞,利用上一模塊生成出行意圖f,并查找與其最相似的目標(biāo)城市的候選起終點作為最終的生成結(jié)果琢蛤。該工作對出行意圖空間中的目標(biāo)城市的候選OD集建立KD-Tree索引蜓堕,提高了相似性查詢的效率。
4. 路線生成
在解決了起終點生成之后博其,另一個問題是套才,如何生成起終點間的具體路徑?人們對路線的偏好慕淡,取決于路線本身的特征:是否是大路背伴、需要經(jīng)過多少個拐彎、路程是否接近最近路程長度等等峰髓∩导牛基于此思想,該工作的路線生成分為兩步:
首先是候選路線集生成儿普。作者發(fā)現(xiàn)崎逃,大部分軌跡都會選擇最短或者接近最短的路線來完成出行掷倔。為此眉孩,該工作對起終點計算了前m短非重疊路線,作為候選路線集。這里注意該工作并非直接使用前m短路線作為候選路線浪汪,這是因為巴柿,前m短路線往往近乎重疊在一起(圖6a)。該工作通過wJCD指標(biāo)計算兩條路徑的重疊指數(shù)死遭,設(shè)定wJCD值θ作為重疊閾值广恢,篩掉重疊度高的路徑。
那前m短非重疊路線是否覆蓋了大部分軌跡呢呀潭?圖6c統(tǒng)計了真實數(shù)據(jù)中钉迷,軌跡的覆蓋比例與m、非重疊閾值θ的關(guān)系钠署】反希可以看出,當(dāng)選擇非重疊閾值為0.7的前5短路徑時谐鼎,已經(jīng)可以覆蓋將近90%的真實軌跡舰蟆,而不引入非重疊條件(θ=1)時只能覆蓋少量軌跡。這證實了非重疊約束的有效性狸棍。
其次是選擇各條候選路線集的概率計算身害。該工作通過類似于排序問題中的Listwise方式進行訓(xùn)練,得到各條路線的概率草戈。如圖7所示塌鸯,對給定的起終點OD,先獲取三條候選路線猾瘸,并進行路線特征提取分別得到p1界赔,p2,p3牵触。評分函數(shù)Gu會給各條路線進行打分淮悼,并通過Softmax函數(shù)轉(zhuǎn)為最終的概率分布,再以真實軌跡數(shù)據(jù)的分布算得交叉熵損失揽思,來訓(xùn)練Gu評分函數(shù)袜腥。該工作中,Gu采用多層全連接網(wǎng)絡(luò)實現(xiàn)钉汗。
5. 實驗
作者通過四個城市區(qū)域來驗證該方法的有效性:北京朝陽區(qū)羹令、北京海淀區(qū)、成都损痰、合肥福侈,覆蓋了一、二卢未、三線城市肪凛。數(shù)據(jù)包含了:軌跡數(shù)據(jù)堰汉、POI數(shù)據(jù)、路網(wǎng)數(shù)據(jù)伟墙、交通站點數(shù)據(jù)翘鸭。下表列出了詳細的統(tǒng)計量信息。
該工作的任務(wù)是在目標(biāo)城市比較生成的軌跡與真實軌跡的分布是否一致戳葵。對軌跡分布就乓,如何設(shè)置評判標(biāo)準(zhǔn)呢?作者認為拱烁,現(xiàn)有的工作會直接比較軌跡熱力圖的分布一致性并不嚴謹生蚁,因為不同的軌跡集合可以產(chǎn)生同樣的軌跡熱力分布。為此戏自,作者采用兩步驗證來衡量結(jié)果的準(zhǔn)確性守伸,即起終點分布和路線偏好分布——這是因為如果起終點分布準(zhǔn)確,且基于起終點的路線偏好分布準(zhǔn)確浦妄,則最后的軌跡分布也準(zhǔn)確尼摹。起終點可以看作一對經(jīng)緯度<lat1, lng1, lat2, lng2>,即四維歐氏空間剂娄。作者采用nMMD來衡量分布相似性蠢涝。而路線分布的準(zhǔn)確性,可以通過KL散度來計算阅懦。
圖8展示了起終點生成的準(zhǔn)確度和二,其中MMD越小越好,并對比了不通過域泛化(No Adpt. )的方法耳胎。作者發(fā)現(xiàn)惯吕,通過域泛化,能明顯提高生成的效果怕午;并且废登,源城市與目標(biāo)城市的組合也對生成結(jié)果也有明顯影響。比如郁惜,圖8a中堡距,朝陽成都-合肥的泛化效果非常好,而成都合肥-朝陽的效果較差兆蕉。作者猜測這與城市的發(fā)展程度導(dǎo)致的出行多樣化程度有關(guān)羽戒。
圖9展示了路線偏好模型的實驗結(jié)果。并對比了前m短路線(mSP)和基于本城市數(shù)據(jù)的模型(Ours-T2T)這兩個基準(zhǔn)線方法虎韵。作者發(fā)現(xiàn)易稠,通過設(shè)定候選路線的重疊閾值,可以明顯提高準(zhǔn)確度包蓝,這是因為前m短非重疊路線可以更好地覆蓋真實軌跡驶社;另外呆奕,無論采用哪個城市的數(shù)據(jù)進行路線偏好訓(xùn)練得到的模型,都與本城市數(shù)據(jù)訓(xùn)練得到的模型結(jié)果相近(圖9d)衬吆,說明各個城市的路線偏好具有相似性。由于m值的增加可以提高準(zhǔn)確度绳泉,卻會使得前m短路線計算時間增加逊抡,作者還測試了m值的選取對準(zhǔn)確度、時間性能的影響零酪,發(fā)現(xiàn)在m=5時冒嫡,可以取得準(zhǔn)確度和時間性能的最好折中(圖9e)。
作者以雄安容城作為案例分析地點四苇。在獲取了該區(qū)域的POI孝凌、路網(wǎng)、交通數(shù)據(jù)后月腋,以北京成都為源城市訓(xùn)練模型蟀架,并生成容城的軌跡數(shù)據(jù)。圖10展示了生成的軌跡與實地考察結(jié)果榆骚。分析當(dāng)時片拍,容城的主要居住娛樂區(qū)域集中于市中心(圖10de),周圍老住宅和工廠環(huán)繞(圖10a)妓肢。說明了考察地點人群流動情況與生成結(jié)果有較好的符合度捌省。
論文鏈接:http://bucket.kangry.net/paper%2Fwww1208tianfu.pdf
論文PPT:http://urban-computing.com/slides/WWW2020_HumanMobility.pptx