JUST技術(shù):基于無參生成模型的軌跡生成

在大數(shù)據(jù)時代,位置數(shù)據(jù)成為各方都亟待挖掘的數(shù)據(jù)寶藏币旧,比如在城市交通基建規(guī)劃践险、商業(yè)選址、線下廣告等場景中,都是以位置數(shù)據(jù)為重要基礎(chǔ)巍虫。但在此過程中彭则,隱私問題一直未得到有效解決,如何在保護(hù)原始數(shù)據(jù)不被泄露同時占遥,更好地服務(wù)于各種城市應(yīng)用呢贰剥?

本文將介紹南洋理工大學(xué)與SAP聯(lián)合在IJCAI 2018上發(fā)表的論文《A Non-Parametric Generative Model for Human Trajectories》,文章通過真實(shí)軌跡學(xué)習(xí)城市人群的出行分布來生成軌跡筷频,生成軌跡可以代替包含用戶隱私信息的真實(shí)軌跡蚌成,來達(dá)到相近數(shù)據(jù)分析、上層業(yè)務(wù)建設(shè)的效果凛捏,避免位置信息外泄担忧。文章有效地學(xué)習(xí)了軌跡的位置序列Embedding,進(jìn)而坯癣,通過對抗式生成網(wǎng)絡(luò)(GAN)來學(xué)習(xí)軌跡分布并生成模擬軌跡瓶盛。

一、問題背景

想要建模城市中的人群移動特性是很有挑戰(zhàn)的:1)軌跡狀態(tài)空間很大示罗;2)軌跡具有很強(qiáng)的獨(dú)一無二性惩猫,很難找到兩個軌跡完全相同的人;3)人群的軌跡具有相似的隱式語義蚜点,比如上班轧房、下班、旅游绍绘,需要用有效的表征刻畫出這些相似的語義來奶镶;4)軌跡序列內(nèi)的位置相關(guān)性與軌跡間的相關(guān)性難以顯式定義。

圖1?算法框架

為了解決上述挑戰(zhàn)陪拘,論文首先將軌跡映射到空間網(wǎng)格中厂镇,轉(zhuǎn)為矩陣,每個網(wǎng)格包含了軌跡的訪問該網(wǎng)格時間與駐留該網(wǎng)格時長信息左刽;然后捺信,通過對抗式生成網(wǎng)絡(luò)來學(xué)習(xí)上述矩陣化后的軌跡數(shù)據(jù),并生成相似軌跡欠痴。實(shí)驗(yàn)驗(yàn)證了生成軌跡對個體軌跡特征迄靠、軌跡統(tǒng)計(jì)特征有較好的保留,并與真實(shí)軌跡難以區(qū)分斋否。


二梨水、問題定義

我們記一條軌跡

為經(jīng)緯度時序序列

其中

表示軌跡在時刻經(jīng)過坐標(biāo)。給定軌跡數(shù)據(jù)茵臭,問題定義為學(xué)習(xí)軌跡數(shù)據(jù)的分布函數(shù),即

在軌跡長度很大時舅世,想要學(xué)出

的分布是非常困難的旦委。作者認(rèn)為奇徒,馬爾科夫模型的有限階依賴關(guān)系無法學(xué)習(xí)長軌跡的先后位置關(guān)聯(lián)關(guān)系;而基于循環(huán)神經(jīng)網(wǎng)絡(luò)如LSTM的做法缨硝,由于也被發(fā)現(xiàn)在長序列生成中會出現(xiàn)偏離[1]摩钙,也不能很好適用于軌跡生成。

三查辩、軌跡表征

這里介紹論文的軌跡表征方式胖笛。不同于往常用時間序列來表示軌跡(就如問題定義中介紹那樣),作者從空間視角出發(fā)宜岛,將軌跡時間序列轉(zhuǎn)化為矩陣形式长踊。

具體來說,首先城市被劃分為

的網(wǎng)格萍倡,并將輸入軌跡

轉(zhuǎn)為大小為

的矩陣

包含了計(jì)算軌跡與每個網(wǎng)格的兩項(xiàng)信息身弊,其中

分別為:軌跡進(jìn)入該網(wǎng)格的時間,與軌跡在網(wǎng)格內(nèi)停留的時間列敲。例如阱佛,下圖a的城市網(wǎng)格中,圖b的軌跡在5:00出現(xiàn)在網(wǎng)格0戴而,一個小時后進(jìn)入網(wǎng)格3凑术,然后經(jīng)過兩小時在8:00進(jìn)入網(wǎng)格4直到9:00。圖c是以一小時位精度的矩陣化的結(jié)果所意,以網(wǎng)格3對應(yīng)位置麦萤,即為例

,由于軌跡在6:00開始進(jìn)入網(wǎng)格3扁眯,所以壮莹,且在8:00離開,期間經(jīng)過2小時姻檀,所以

命满。

圖?2 軌跡表征實(shí)例

上述方法還需考慮一種情況——軌跡多次訪問某一個網(wǎng)格。論文的做法是將矩陣擴(kuò)展為三維張量

绣版,以記錄軌跡第K次訪問的時間與停留時長胶台。

四、對抗式生成模型GAN及其訓(xùn)練

區(qū)別于需要人工設(shè)定目標(biāo)分布形式的參數(shù)化分成模型杂抽,對抗式生成模型使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)出目標(biāo)分部形式诈唬,避免人工設(shè)定,來達(dá)到無參數(shù)化的目的缩麸。作者利用了對抗式生成模型的這一優(yōu)勢铸磅,來學(xué)習(xí)軌跡數(shù)據(jù)的分布。

作者直接采用了梯度較為穩(wěn)定的WGAN-GP的框架進(jìn)行模型訓(xùn)練。形式化來說阅仔,若給定真實(shí)軌跡數(shù)據(jù)吹散,GAN同時學(xué)習(xí)用于生成軌跡的生成網(wǎng)絡(luò)和用于辨別軌跡是否真實(shí)(而非人造)的辨別網(wǎng)絡(luò)。和均采用卷積網(wǎng)絡(luò)CNN來處理矩陣化的軌跡數(shù)據(jù)八酒,以豐富軌跡局部特征的提取空民。訓(xùn)練的損失函數(shù)為

其中

是簡單隨機(jī)分布如均勻分布、高斯分布等羞迷;

通過真實(shí)數(shù)據(jù)與生成數(shù)據(jù)

的凸組合得到界轩。優(yōu)化目標(biāo)分為三項(xiàng),A項(xiàng)為辨別人工軌跡的損失衔瓮,B項(xiàng)為辨別真實(shí)軌跡的損失浊猾,C項(xiàng)是避免梯度異常的懲罰項(xiàng),以表示懲罰權(quán)重报辱。

注意不同于常規(guī)模型訓(xùn)練僅更新參數(shù)來縮小損失函數(shù)值与殃,對抗式生成模型的訓(xùn)練過程會反復(fù)地通過先更新

來最大化辨別誤差,以欺騙

碍现;再更新

來最小化辨別誤差幅疼,以破解

。詳細(xì)過程可以參考GAN相關(guān)文獻(xiàn)昼接。

五爽篷、實(shí)驗(yàn)結(jié)果

1.實(shí)驗(yàn)設(shè)定

軌跡時序數(shù)據(jù)具有高維特點(diǎn),直接驗(yàn)證生成軌跡的概率分布是否符合真實(shí)數(shù)據(jù)慢睡,在計(jì)算量上可行性較差逐工。為此,作者選了四項(xiàng)統(tǒng)計(jì)量漂辐,通過驗(yàn)證統(tǒng)計(jì)量分布是否一致來驗(yàn)證軌跡分布是否一致泪喊,這里列出兩項(xiàng):

,分別表示網(wǎng)格與停留時長的聯(lián)合分布髓涯,和網(wǎng)格

與進(jìn)入網(wǎng)格時間的聯(lián)合分布袒啼。分布差的通過常用的琴森香農(nóng)散度(JSD)來衡量:

2.準(zhǔn)確度效果

實(shí)驗(yàn)將原始軌跡數(shù)據(jù)對半分成訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),并在每一輪訓(xùn)練后生成軌跡纬纪。如下圖所示蚓再,生成軌跡與訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)分別計(jì)算JSD值包各,分別以藍(lán)摘仅、紅表示。

圖3 訓(xùn)練過程

3.生成軌跡語義真實(shí)性

作者同時對生成軌跡的語義進(jìn)行分析问畅,判斷生成軌跡是否還原了真實(shí)軌跡的語義娃属。這包含了兩項(xiàng)驗(yàn)證:常訪問位置真實(shí)度和相對語義真實(shí)度六荒。

圖4 常訪問位置top50準(zhǔn)確性

在常訪問位置真實(shí)度驗(yàn)證中,作者分別用論文方法與馬爾科夫方法生成了軌跡膳犹,并統(tǒng)計(jì)top50的常訪問地恬吕,與真實(shí)top50常訪問位置進(jìn)行比較計(jì)算精確度签则。如上圖所示须床,論文方法比馬爾科夫方法更準(zhǔn)確地反映了真實(shí)top50訪問位置,并達(dá)到至少70%的精度渐裂。

在相對語義真實(shí)度驗(yàn)證中豺旬,作者采用了pair-wise軌跡語義距離的分布作為評價指標(biāo)。首先作者采用了一種常用的軌跡語義距離公式:

然后對生成軌跡與真實(shí)軌跡分別提取1000個軌跡pair計(jì)算pair-wise距離柒凉,得到了生成軌跡與真實(shí)軌跡的語義距離樣本集族阅,并對比生成距離樣本與真實(shí)距離樣本的分布,下圖展示了兩組樣本的各分位數(shù)對比情況膝捞,驗(yàn)證了生成軌跡在相對語義分布上與真實(shí)軌跡相似坦刀。

圖5 相對語義距離分布的分位數(shù)對比


六、小結(jié)

本文主要介紹了一篇比較有代表性的蔬咬,在已有軌跡城市生成人造軌跡的論文鲤遥。在智慧城市建設(shè)中,這些人造軌跡在避免用戶位置信息被泄露同時林艘,可以為城市交通基建規(guī)劃盖奈、商業(yè)選址、線下廣告投等業(yè)務(wù)提供數(shù)據(jù)支撐狐援。技術(shù)上钢坦,本論文在發(fā)表當(dāng)時的創(chuàng)新的點(diǎn)在于對軌跡的矩陣化表征、和GAN的應(yīng)用啥酱,將來會分享更多軌跡生成和城市流動性建模的相關(guān)研究或觀點(diǎn)爹凹。

相關(guān)文章

JUST技術(shù):從空間關(guān)系到空間連接,JUST提升信息挖掘意義

JUST技術(shù):分布式時序相似查詢初探

JUST技術(shù):JUST高效時空索引揭秘及使用指南

JUST技術(shù):利用基于軌跡數(shù)據(jù)的人口流向分析技術(shù)镶殷,精準(zhǔn)病毒傳播追蹤

JUST技術(shù):基于軌跡的新冠易感人群查詢方案

JUST技術(shù):利用基于時空孿生神經(jīng)網(wǎng)絡(luò)的軌跡識別禾酱,降低出行乘車風(fēng)險

JUST技術(shù):CK實(shí)現(xiàn)時序數(shù)據(jù)管理

JUST技術(shù):利用遷移學(xué)習(xí)生成新城市的軌跡

JUST技術(shù):利用軌跡拼接分析實(shí)時可達(dá)區(qū)域

JUST技術(shù):如何通過軌跡相似性度量方法,發(fā)現(xiàn)新冠易感人群

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末批钠,一起剝皮案震驚了整個濱河市宇植,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌埋心,老刑警劉巖指郁,帶你破解...
    沈念sama閱讀 222,807評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異拷呆,居然都是意外死亡闲坎,警方通過查閱死者的電腦和手機(jī)疫粥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來腰懂,“玉大人梗逮,你說我怎么就攤上這事⌒辶铮” “怎么了慷彤?”我有些...
    開封第一講書人閱讀 169,589評論 0 363
  • 文/不壞的土叔 我叫張陵,是天一觀的道長怖喻。 經(jīng)常有香客問我底哗,道長,這世上最難降的妖魔是什么锚沸? 我笑而不...
    開封第一講書人閱讀 60,188評論 1 300
  • 正文 為了忘掉前任跋选,我火速辦了婚禮,結(jié)果婚禮上哗蜈,老公的妹妹穿的比我還像新娘前标。我一直安慰自己,他們只是感情好距潘,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,185評論 6 398
  • 文/花漫 我一把揭開白布炼列。 她就那樣靜靜地躺著,像睡著了一般绽昼。 火紅的嫁衣襯著肌膚如雪唯鸭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,785評論 1 314
  • 那天硅确,我揣著相機(jī)與錄音目溉,去河邊找鬼。 笑死菱农,一個胖子當(dāng)著我的面吹牛缭付,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播循未,決...
    沈念sama閱讀 41,220評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼陷猫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了的妖?” 一聲冷哼從身側(cè)響起绣檬,我...
    開封第一講書人閱讀 40,167評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎嫂粟,沒想到半個月后娇未,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,698評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡星虹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,767評論 3 343
  • 正文 我和宋清朗相戀三年零抬,在試婚紗的時候發(fā)現(xiàn)自己被綠了镊讼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,912評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡平夜,死狀恐怖蝶棋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情忽妒,我是刑警寧澤玩裙,帶...
    沈念sama閱讀 36,572評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站锰扶,受9級特大地震影響献酗,放射性物質(zhì)發(fā)生泄漏寝受。R本人自食惡果不足惜坷牛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,254評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望很澄。 院中可真熱鬧京闰,春花似錦、人聲如沸甩苛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,746評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽讯蒲。三九已至痊土,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間墨林,已是汗流浹背赁酝。 一陣腳步聲響...
    開封第一講書人閱讀 33,859評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旭等,地道東北人酌呆。 一個月前我還...
    沈念sama閱讀 49,359評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像搔耕,于是被迫代替她去往敵國和親隙袁。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,922評論 2 361

推薦閱讀更多精彩內(nèi)容