在大數(shù)據(jù)時代,位置數(shù)據(jù)成為各方都亟待挖掘的數(shù)據(jù)寶藏币旧,比如在城市交通基建規(guī)劃践险、商業(yè)選址、線下廣告等場景中,都是以位置數(shù)據(jù)為重要基礎(chǔ)巍虫。但在此過程中彭则,隱私問題一直未得到有效解決,如何在保護(hù)原始數(shù)據(jù)不被泄露同時占遥,更好地服務(wù)于各種城市應(yīng)用呢贰剥?
本文將介紹南洋理工大學(xué)與SAP聯(lián)合在IJCAI 2018上發(fā)表的論文《A Non-Parametric Generative Model for Human Trajectories》,文章通過真實(shí)軌跡學(xué)習(xí)城市人群的出行分布來生成軌跡筷频,生成軌跡可以代替包含用戶隱私信息的真實(shí)軌跡蚌成,來達(dá)到相近數(shù)據(jù)分析、上層業(yè)務(wù)建設(shè)的效果凛捏,避免位置信息外泄担忧。文章有效地學(xué)習(xí)了軌跡的位置序列Embedding,進(jìn)而坯癣,通過對抗式生成網(wǎng)絡(luò)(GAN)來學(xué)習(xí)軌跡分布并生成模擬軌跡瓶盛。
一、問題背景
想要建模城市中的人群移動特性是很有挑戰(zhàn)的:1)軌跡狀態(tài)空間很大示罗;2)軌跡具有很強(qiáng)的獨(dú)一無二性惩猫,很難找到兩個軌跡完全相同的人;3)人群的軌跡具有相似的隱式語義蚜点,比如上班轧房、下班、旅游绍绘,需要用有效的表征刻畫出這些相似的語義來奶镶;4)軌跡序列內(nèi)的位置相關(guān)性與軌跡間的相關(guān)性難以顯式定義。
圖1?算法框架
為了解決上述挑戰(zhàn)陪拘,論文首先將軌跡映射到空間網(wǎng)格中厂镇,轉(zhuǎn)為矩陣,每個網(wǎng)格包含了軌跡的訪問該網(wǎng)格時間與駐留該網(wǎng)格時長信息左刽;然后捺信,通過對抗式生成網(wǎng)絡(luò)來學(xué)習(xí)上述矩陣化后的軌跡數(shù)據(jù),并生成相似軌跡欠痴。實(shí)驗(yàn)驗(yàn)證了生成軌跡對個體軌跡特征迄靠、軌跡統(tǒng)計(jì)特征有較好的保留,并與真實(shí)軌跡難以區(qū)分斋否。
二梨水、問題定義
我們記一條軌跡
為經(jīng)緯度時序序列
其中
表示軌跡在時刻經(jīng)過坐標(biāo)。給定軌跡數(shù)據(jù)茵臭,問題定義為學(xué)習(xí)軌跡數(shù)據(jù)的分布函數(shù),即
在軌跡長度很大時舅世,想要學(xué)出
的分布是非常困難的旦委。作者認(rèn)為奇徒,馬爾科夫模型的有限階依賴關(guān)系無法學(xué)習(xí)長軌跡的先后位置關(guān)聯(lián)關(guān)系;而基于循環(huán)神經(jīng)網(wǎng)絡(luò)如LSTM的做法缨硝,由于也被發(fā)現(xiàn)在長序列生成中會出現(xiàn)偏離[1]摩钙,也不能很好適用于軌跡生成。
三查辩、軌跡表征
這里介紹論文的軌跡表征方式胖笛。不同于往常用時間序列來表示軌跡(就如問題定義中介紹那樣),作者從空間視角出發(fā)宜岛,將軌跡時間序列轉(zhuǎn)化為矩陣形式长踊。
具體來說,首先城市被劃分為
的網(wǎng)格萍倡,并將輸入軌跡
轉(zhuǎn)為大小為
的矩陣
包含了計(jì)算軌跡與每個網(wǎng)格的兩項(xiàng)信息身弊,其中
分別為:軌跡進(jìn)入該網(wǎng)格的時間,與軌跡在網(wǎng)格內(nèi)停留的時間列敲。例如阱佛,下圖a的城市網(wǎng)格中,圖b的軌跡在5:00出現(xiàn)在網(wǎng)格0戴而,一個小時后進(jìn)入網(wǎng)格3凑术,然后經(jīng)過兩小時在8:00進(jìn)入網(wǎng)格4直到9:00。圖c是以一小時位精度的矩陣化的結(jié)果所意,以網(wǎng)格3對應(yīng)位置麦萤,即為例
,由于軌跡在6:00開始進(jìn)入網(wǎng)格3扁眯,所以壮莹,且在8:00離開,期間經(jīng)過2小時姻檀,所以
命满。
圖?2 軌跡表征實(shí)例
上述方法還需考慮一種情況——軌跡多次訪問某一個網(wǎng)格。論文的做法是將矩陣擴(kuò)展為三維張量
绣版,以記錄軌跡第K次訪問的時間與停留時長胶台。
四、對抗式生成模型GAN及其訓(xùn)練
區(qū)別于需要人工設(shè)定目標(biāo)分布形式的參數(shù)化分成模型杂抽,對抗式生成模型使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)出目標(biāo)分部形式诈唬,避免人工設(shè)定,來達(dá)到無參數(shù)化的目的缩麸。作者利用了對抗式生成模型的這一優(yōu)勢铸磅,來學(xué)習(xí)軌跡數(shù)據(jù)的分布。
作者直接采用了梯度較為穩(wěn)定的WGAN-GP的框架進(jìn)行模型訓(xùn)練。形式化來說阅仔,若給定真實(shí)軌跡數(shù)據(jù)吹散,GAN同時學(xué)習(xí)用于生成軌跡的生成網(wǎng)絡(luò)和用于辨別軌跡是否真實(shí)(而非人造)的辨別網(wǎng)絡(luò)。和均采用卷積網(wǎng)絡(luò)CNN來處理矩陣化的軌跡數(shù)據(jù)八酒,以豐富軌跡局部特征的提取空民。訓(xùn)練的損失函數(shù)為
其中
是簡單隨機(jī)分布如均勻分布、高斯分布等羞迷;
通過真實(shí)數(shù)據(jù)與生成數(shù)據(jù)
的凸組合得到界轩。優(yōu)化目標(biāo)分為三項(xiàng),A項(xiàng)為辨別人工軌跡的損失衔瓮,B項(xiàng)為辨別真實(shí)軌跡的損失浊猾,C項(xiàng)是避免梯度異常的懲罰項(xiàng),以表示懲罰權(quán)重报辱。
注意不同于常規(guī)模型訓(xùn)練僅更新參數(shù)來縮小損失函數(shù)值与殃,對抗式生成模型的訓(xùn)練過程會反復(fù)地通過先更新
來最大化辨別誤差,以欺騙
碍现;再更新
來最小化辨別誤差幅疼,以破解
。詳細(xì)過程可以參考GAN相關(guān)文獻(xiàn)昼接。
五爽篷、實(shí)驗(yàn)結(jié)果
1.實(shí)驗(yàn)設(shè)定
軌跡時序數(shù)據(jù)具有高維特點(diǎn),直接驗(yàn)證生成軌跡的概率分布是否符合真實(shí)數(shù)據(jù)慢睡,在計(jì)算量上可行性較差逐工。為此,作者選了四項(xiàng)統(tǒng)計(jì)量漂辐,通過驗(yàn)證統(tǒng)計(jì)量分布是否一致來驗(yàn)證軌跡分布是否一致泪喊,這里列出兩項(xiàng):
,分別表示網(wǎng)格與停留時長的聯(lián)合分布髓涯,和網(wǎng)格
與進(jìn)入網(wǎng)格時間的聯(lián)合分布袒啼。分布差的通過常用的琴森香農(nóng)散度(JSD)來衡量:
2.準(zhǔn)確度效果
實(shí)驗(yàn)將原始軌跡數(shù)據(jù)對半分成訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),并在每一輪訓(xùn)練后生成軌跡纬纪。如下圖所示蚓再,生成軌跡與訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)分別計(jì)算JSD值包各,分別以藍(lán)摘仅、紅表示。
圖3 訓(xùn)練過程
3.生成軌跡語義真實(shí)性
作者同時對生成軌跡的語義進(jìn)行分析问畅,判斷生成軌跡是否還原了真實(shí)軌跡的語義娃属。這包含了兩項(xiàng)驗(yàn)證:常訪問位置真實(shí)度和相對語義真實(shí)度六荒。
圖4 常訪問位置top50準(zhǔn)確性
在常訪問位置真實(shí)度驗(yàn)證中,作者分別用論文方法與馬爾科夫方法生成了軌跡膳犹,并統(tǒng)計(jì)top50的常訪問地恬吕,與真實(shí)top50常訪問位置進(jìn)行比較計(jì)算精確度签则。如上圖所示须床,論文方法比馬爾科夫方法更準(zhǔn)確地反映了真實(shí)top50訪問位置,并達(dá)到至少70%的精度渐裂。
在相對語義真實(shí)度驗(yàn)證中豺旬,作者采用了pair-wise軌跡語義距離的分布作為評價指標(biāo)。首先作者采用了一種常用的軌跡語義距離公式:
然后對生成軌跡與真實(shí)軌跡分別提取1000個軌跡pair計(jì)算pair-wise距離柒凉,得到了生成軌跡與真實(shí)軌跡的語義距離樣本集族阅,并對比生成距離樣本與真實(shí)距離樣本的分布,下圖展示了兩組樣本的各分位數(shù)對比情況膝捞,驗(yàn)證了生成軌跡在相對語義分布上與真實(shí)軌跡相似坦刀。
圖5 相對語義距離分布的分位數(shù)對比
六、小結(jié)
本文主要介紹了一篇比較有代表性的蔬咬,在已有軌跡城市生成人造軌跡的論文鲤遥。在智慧城市建設(shè)中,這些人造軌跡在避免用戶位置信息被泄露同時林艘,可以為城市交通基建規(guī)劃盖奈、商業(yè)選址、線下廣告投等業(yè)務(wù)提供數(shù)據(jù)支撐狐援。技術(shù)上钢坦,本論文在發(fā)表當(dāng)時的創(chuàng)新的點(diǎn)在于對軌跡的矩陣化表征、和GAN的應(yīng)用啥酱,將來會分享更多軌跡生成和城市流動性建模的相關(guān)研究或觀點(diǎn)爹凹。
相關(guān)文章
JUST技術(shù):從空間關(guān)系到空間連接,JUST提升信息挖掘意義
JUST技術(shù):利用基于軌跡數(shù)據(jù)的人口流向分析技術(shù)镶殷,精準(zhǔn)病毒傳播追蹤
JUST技術(shù):利用基于時空孿生神經(jīng)網(wǎng)絡(luò)的軌跡識別禾酱,降低出行乘車風(fēng)險
JUST技術(shù):CK實(shí)現(xiàn)時序數(shù)據(jù)管理
JUST技術(shù):利用遷移學(xué)習(xí)生成新城市的軌跡