GeoMan模型數(shù)據(jù)預(yù)處理

geoman模型基于編解碼網(wǎng)絡(luò)及分層注意力機(jī)制設(shè)計(jì)而成,可以對(duì)多源時(shí)間序列進(jìn)行預(yù)測(cè)允蚣。在編碼端,引入局部及全局注意力呆贿,并將傳感器之間的距離作為全局注意力的一部分嚷兔;在解碼端森渐,引入時(shí)間注意力,用于挖掘時(shí)間上的依賴關(guān)系冒晰。該模型相關(guān)代碼可以在github上找到同衣,但是缺少數(shù)據(jù)處理的部分,本文介紹其數(shù)據(jù)處理部分壶运,數(shù)據(jù)集下載地址為http://urban-computing.com/index-40.htm耐齐。相關(guān)代碼如下:

# load data of beijing
    data_path = './data'
    air_quality_data = pd.read_csv('{}/airquality.csv'.format(data_path), nrows=278023)

    # remove data from 1022 that with lot of null data
    air_quality_data = air_quality_data[air_quality_data['station_id'] != 1022]
    columns = ['PM25_Concentration', 'PM10_Concentration',
               'NO2_Concentration', 'CO_Concentration',
               'O3_Concentration', 'SO2_Concentration']
    # pivot the data
    pivot_air_data = air_quality_data.pivot(index='time', columns='station_id', values=columns)
    # linear interpolate to fill the loss value
    pivot_air_data1 = pivot_air_data.interpolate(method='linear').dropna()

    air_quality_data = pivot_air_data1.stack(level=1).reset_index().sort_values(by=['station_id', 'time'])
    # feature normalization
    temp_data = air_quality_data.values
    temp_data1 = temp_data[:, 2:].astype('float32')
    scaler = MinMaxScaler(feature_range=(0, 1))
    scaled = scaler.fit_transform(temp_data1)
    temp_data[:, 2:] = scaled
    air_quality_data = pd.DataFrame(temp_data, columns=['time', 'station_id'] + columns)

    # select the 1001 point as the local input
    local_input = air_quality_data[air_quality_data.station_id == 1001].drop(['station_id', 'time'], axis=1).values
    # transform time series to supervised
    time_length = local_input.shape[0]
    local_data = []
    label = []
    for i in range(hps.n_steps_encoder, time_length - hps.n_steps_decoder):
        local_data.append(scaled[i - hps.n_steps_encoder:i, :])
        label.append(scaled[i:i + hps.n_steps_decoder, 0])  # take pm2.5 as the target series
    local_data = np.array(local_data)
    label = np.array(label)
    length = local_data.shape[0]
    global_attn_index = np.arange(0, length, 1)
    global_inp_index = np.arange(0, length, 1)
    split_ratio = int(length / 10)

    # split the data into train/valid/test with the ratio of 8:1:1
    training_data = [local_data[:8 * split_ratio],
                     global_attn_index[:8 * split_ratio],
                     global_inp_index[:8 * split_ratio],
                     label.reshape(label.shape[0], label.shape[1], 1)[:8 * split_ratio],
                     label[:8 * split_ratio]]
    valid_data = [local_data[8 * split_ratio:9 * split_ratio],
                  global_attn_index[8 * split_ratio:9 * split_ratio],
                  global_inp_index[8 * split_ratio:9 * split_ratio],
                  label.reshape(label.shape[0], label.shape[1], 1)[8 * split_ratio:9 * split_ratio],
                  label[8 * split_ratio:9 * split_ratio]]
    test_data = [local_data[9 * split_ratio:],
                 global_attn_index[9 * split_ratio:],
                 global_inp_index[9 * split_ratio:],
                 label.reshape(label.shape[0], label.shape[1], 1)[9 * split_ratio:],
                 label[9 * split_ratio:]]
    # construct global_input data
    pivot_df = air_quality_data.pivot(index='time', columns='station_id', values=columns)
    global_inputs = pivot_df['PM25_Concentration'].values.astype('float32')
    points = np.arange(1001, 1037, 1).tolist()
    points.remove(1022)
    global_attn_states = []
    for station_id in points:
        id_df = air_quality_data[air_quality_data.station_id == station_id].drop(['station_id', 'time'], axis=1)
        factor_agg = []
        for factor in columns:
            id_fac_df = id_df[factor]
            lags, cols = list(), list()
            for i in range(hps.n_steps_encoder - 1, -1, -1):
                lags.append(id_fac_df.shift(i))
                cols.append('{}(t-{})'.format(factor, i))
            agg = pd.concat(lags, axis=1).dropna()
            agg.columns = cols
            factor_agg.append(agg)
        global_attn_states.append(pd.concat(factor_agg, axis=1).values)
    global_attn_states = np.concatenate(global_attn_states, axis=1)
    time_len = global_attn_states.shape[0]
    global_attn_states = global_attn_states.reshape(time_len, len(points), 6, hps.n_steps_encoder)

    # measure sensor geospatial similarity
    sensors = pd.read_csv('{}/station.csv'.format(data_path), nrows=36).drop(index=21)
    # lat and lng of sensors
    lat = sensors['latitude'].values
    lng = sensors['longitude'].values
    end_lats, start_lngs = np.meshgrid(lat, lng)
    start_lats = end_lats.T
    end_lngs = start_lngs.T
    distance = get_distance_hav(start_lngs, start_lats, end_lngs, end_lats)
    sensor_sim = 1 / (distance + 1)
    # normalization
    min_sim = np.min(sensor_sim)
    max_sim = np.max(sensor_sim)
    sensor_sim_nor = (sensor_sim - min_sim) / (max_sim - min_sim)
    sensor_sim_nor = sensor_sim_nor[0, :]

模型結(jié)果如下:


rmse=23.8
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蒋情,隨后出現(xiàn)的幾起案子埠况,更是在濱河造成了極大的恐慌,老刑警劉巖恕出,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件询枚,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡浙巫,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門刷后,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)的畴,“玉大人,你說(shuō)我怎么就攤上這事尝胆∩ゲ茫” “怎么了?”我有些...
    開封第一講書人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵含衔,是天一觀的道長(zhǎng)煎娇。 經(jīng)常有香客問(wèn)我,道長(zhǎng)贪染,這世上最難降的妖魔是什么缓呛? 我笑而不...
    開封第一講書人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮杭隙,結(jié)果婚禮上哟绊,老公的妹妹穿的比我還像新娘。我一直安慰自己痰憎,他們只是感情好票髓,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著铣耘,像睡著了一般洽沟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蜗细,一...
    開封第一講書人閱讀 51,718評(píng)論 1 305
  • 那天裆操,我揣著相機(jī)與錄音,去河邊找鬼。 笑死跷车,一個(gè)胖子當(dāng)著我的面吹牛棘利,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播朽缴,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼善玫,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了密强?” 一聲冷哼從身側(cè)響起茅郎,我...
    開封第一講書人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎或渤,沒想到半個(gè)月后系冗,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡薪鹦,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年掌敬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片池磁。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡奔害,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出地熄,到底是詐尸還是另有隱情华临,我是刑警寧澤,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布端考,位于F島的核電站雅潭,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏却特。R本人自食惡果不足惜扶供,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望核偿。 院中可真熱鬧诚欠,春花似錦、人聲如沸漾岳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)尼荆。三九已至左腔,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間捅儒,已是汗流浹背液样。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工振亮, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人鞭莽。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓坊秸,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親澎怒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子褒搔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Swift1> Swift和OC的區(qū)別1.1> Swift沒有地址/指針的概念1.2> 泛型1.3> 類型嚴(yán)謹(jǐn) 對(duì)...
    cosWriter閱讀 11,104評(píng)論 1 32
  • 原文鏈接 《Python數(shù)據(jù)分析》(Python for Data Analysis, 2nd Edition)第...
    李紹俊閱讀 8,341評(píng)論 0 5
  • 最近幾天一直在北京出差星瘾,美美地體會(huì)了一把首都的繁華和熱鬧,同時(shí)也認(rèn)識(shí)了同一系統(tǒng)的很多人惧辈,增長(zhǎng)了見識(shí)琳状,提高了技...
    艾問(wèn)才會(huì)贏閱讀 235評(píng)論 2 1
  • 葉青竹說(shuō)少坤是君子,所以心里常計(jì)較盒齿,又說(shuō)少坤是小人念逞,所以才不敢面對(duì)。如果少坤是竹葉青一樣的小人县昂,也許就真真的忘了了...
    落寞的納蘭閱讀 183評(píng)論 0 0
  • 看了今年的KT肮柜,我好像看就了另外一個(gè)UZI,為什么倒彰? 請(qǐng)聽我慢慢的道來(lái)。 KT是一個(gè)戰(zhàn)隊(duì)莱睁,而UZI是一個(gè)職業(yè)選手啊...
    黃銅刀閱讀 494評(píng)論 0 0