目錄
- Pandas重采樣方法resample
- 降采樣
- 升采樣
Pandas提供了便捷的方式對時間序列進行重采樣璧南,根據時間粒度的變大或者變小分為降采樣和升采樣:
- 降采樣:時間粒度變大伶授。例如涮因,原來是按天統(tǒng)計的數據拒迅,現(xiàn)在變成按周統(tǒng)計沥寥。降采樣會涉及到數據的聚合颤练,比如天數據變成周數據既忆,那么就得對一周的7天數據聚合,聚合的方式可以是求和嗦玖,求均值等等患雇。
- 升采樣:時間粒度變小。例如宇挫,原來是按周統(tǒng)計的數據苛吱,現(xiàn)在變成按天統(tǒng)計。升采樣會涉及到數據的填充器瘪,根據填充的方法不同填充的數據也就不同翠储。
下面涉及的例子绘雁,都需要導入numpy和pandas(如下),并且對于降采樣數據的聚合做簡單的求和處理援所。
import numpy as np
import pandas as pd
Pandas重采樣方法resample
在Pandas里庐舟,通過resample來處理重采樣,根據頻率的不同(freq)會處理成降采樣或者升采樣住拭。我們先來看看Resample的定義和關鍵參數注釋:
resample(self, rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start', kind=None, loffset=None, limit=None, base=0, on=None, level=None)
Convenience method for frequency conversion and resampling of time
series. Object must have a datetime-like index (DatetimeIndex,
PeriodIndex, or TimedeltaIndex), or pass datetime-like values
to the on or level keyword.
Parameters
----------
closed : {'right', 'left'}
Which side of bin interval is closed. The default is ‘left’ for all frequency offsets except for ‘M’, ‘A’, ‘Q’, ‘BM’, ‘BA’, ‘BQ’, and ‘W’ which all have a default of ‘right’.
label : {'right', 'left'}
Which bin edge label to label bucket with. The default is ‘left’ for all frequency offsets except for ‘M’, ‘A’, ‘Q’, ‘BM’, ‘BA’, ‘BQ’, and ‘W’ which all have a default of ‘right’.
第一眼看closed和label這兩個參數继阻,會感覺云里霧里,即使看了例子也可能會覺得莫名奇妙废酷。下面我們通過具體的降采樣和升采樣例子瘟檩,來解讀一下這個兩個參數內含的玄機。
降采樣
首先先來創(chuàng)建一個時間序列澈蟆,起始日期是2018/01/01墨辛,一共12天,每天對應的數值分別是1到12:
rng = pd.date_range('20180101', periods=12)
ts = pd.Series(np.arange(1,13), index=rng)
print(ts)
#### Outputs ####
2018-01-01 1
2018-01-02 2
2018-01-03 3
2018-01-04 4
2018-01-05 5
2018-01-06 6
2018-01-07 7
2018-01-08 8
2018-01-09 9
2018-01-10 10
2018-01-11 11
2018-01-12 12
Freq: D, dtype: int32
下面使用resample方法來做降采樣處理趴俘,頻率是5天睹簇,上面提到的兩個參數,都使用默認值:
ts_5d = ts.resample('5D').sum()
print(ts_5d)
#### Outputs ####
2018-01-01 15
2018-01-06 40
2018-01-11 23
Freq: 5D, dtype: int32
到這里寥闪,我相信不論是代碼還是代碼的結果都很好理解:無非就是每5天來個求和太惠。在第一部分中,我們列出了closed參數的注釋疲憋,從注釋可知凿渊,closed默認的值是'left'。那如果把closed的值改為'right'缚柳,結果有是怎么樣的埃脏?
ts_5d_rightclosed = ts.resample('5D', closed='right').sum()
print(ts_5d_rightclosed)
#### Outputs ####
2017-12-27 1
2018-01-01 20
2018-01-06 45
2018-01-11 12
Freq: 5D, dtype: int32
怎么會這樣?為什么變成了四個區(qū)間秋忙?closed=right到底做了什么彩掐?
別著急,我們來一步一步看看灰追,這其中發(fā)生了什么事情堵幽。原始的時間序列是從18年1月1號到1月12號,一共12天弹澎。以5天為單位降采樣處理后朴下,變成了三個5天,分別是:
- 第一個5天:1-2-3-4-5-6
- 第二個5天:6-7-8-9-10-11
- 第三個5天:12-13-14-15-16
實際上裁奇,這三個5天就是三個區(qū)間了桐猬。和數學里區(qū)間的概念一樣,區(qū)間有開和閉的概念刽肠。在resample中溃肪,區(qū)間的開和閉免胃,就是通過closed這個參數來控制。用數學符號表示的話:
closed = 'left' 左閉右開
上面的三個5天可以由以下的三個左閉右開的區(qū)間構成:
- 區(qū)間1:[1, 6)
- 區(qū)間2: [6, 11)
- 區(qū)間3:[11, 16) 例子中惫撰,時間只到12號為止羔沙,但是這里會往后補足5天
現(xiàn)在,在這三個區(qū)間上做數據聚合也就很好理解了厨钻。對于區(qū)間1進行求和扼雏,也就是12、13夯膀、14诗充、15、16這5天的值求和即可诱建。區(qū)間2和區(qū)間3也是同理蝴蜓。所以下面的代碼就很好理解了:
ts_5d_leftclosed = ts.resample('5D', closed='right').sum()
print(ts_5d_leftclosed)
#### Outputs ####
2018-01-01 15
2018-01-06 40
2018-01-11 23
Freq: 5D, dtype: int32
closed = 'right' 左開右閉
上面的三個5天可以由以下的四個左開右閉的區(qū)間構成。注意俺猿,由于第一個5天是從1號到6號茎匠,但由于是左開區(qū)間,1號就落不到1到6號的那個區(qū)間押袍,所以要往前補足:
- 區(qū)間1:(27, 1]
- 區(qū)間2:(1, 6]
- 區(qū)間3: (6, 11]
- 區(qū)間4:(11, 16]
現(xiàn)在诵冒,在這四個區(qū)間上做數據聚合也是一樣的道理了:對于區(qū)間1,是對28谊惭,29汽馋,30,31午笛,1這五天的值求和(這里只有1號是有值的)惭蟋,其余的區(qū)間也是同理,但需要注意是左開右閉药磺。所以到這里,上面“莫名其妙”的代碼和結果就好理解了煤伟。復制代碼和結果如下:
ts_5d_rightclosed = ts.resample('5D', closed='right').sum()
print(ts_5d_rightclosed)
#### Outputs ####
2017-12-27 1
2018-01-01 20
2018-01-06 45
2018-01-11 12
Freq: 5D, dtype: int32
理解了clsoed的意義以后癌佩,再來理解label就so easy了。由注釋可知便锨,label的默認值是left围辙。下面在closed='right'的基礎上,將label設置為right:
ts_5d_rightclosed_rightlable = ts.resample('5D', closed='right', label='right').sum()
print(ts_5d_rightclosed_rightlable)
#### Outputs ####
2018-01-01 1
2018-01-06 20
2018-01-11 45
2018-01-16 12
Freq: 5D, dtype: int32
于label為left相比放案,二者結果的異同點如下:
- 相同點:一樣是四個區(qū)間姚建,每個區(qū)間的聚合的值是一樣的
- 不同點:每個區(qū)間的索引不同
不難發(fā)現(xiàn),label為left的時候吱殉,就以區(qū)間左邊的那個日期作為索引掸冤;label厘托,就以區(qū)間的右邊那個日期作為索引。
綜上稿湿,我們可以總結一下closed和label的用法和意義了:
- closed:劃分區(qū)間的依據铅匹,left會劃成左閉右開區(qū)間;right會劃分成左開右閉的區(qū)間饺藤。一般來說包斑,closed為right的時候,區(qū)間會比為left的時候多一個涕俗。區(qū)間劃分完畢罗丰,聚合運算就在這個區(qū)間內執(zhí)行。
- label:劃分區(qū)間完畢再姑,根據label的不同萌抵,區(qū)間的索引就不同。如果label為left询刹,則區(qū)間左邊的日期作為索引谜嫉;如果label為right,則區(qū)間右邊的日期作為索引凹联。
升采樣
創(chuàng)建一個時間序列沐兰,起始日期是2018/01/01,一共2天蔽挠,每天對應的數值分別是1到2:
rng = pd.date_range('20180101', periods=2)
ts = pd.Series(np.arange(1,2), index=rng)
print(ts)
#### Outputs ####
2018-01-01 1
2018-01-02 2
Freq: D, dtype: int32
升采樣就不涉及到closed和label的值住闯,也就是會忽略(筒子們可以驗證一下),所以我們在使用的時候無需設置這兩個值澳淑。對于升采樣比原,前面也提到,主要是涉及到值的填充杠巡。有下面的四種填充方法(實際是三種):
- 不填充量窘。那么對應無值的地方,用NaN代替氢拥。對應的方法是asfreq蚌铜。
- 用前值填充。用前面的值填充無值的地方嫩海。對應的方法是ffill或者pad冬殃。這里方便記憶,ffill的第一個f是代表forward叁怪,向前的意思
- 用后值填充审葬。對應的方法是bfill,b代表back。
下面是一個例子:
ts_6h_asfreq = ts.resample('6H').asfreq()
print(ts_6h_asfreq)
ts_6h_pad = ts.resample('6H').pad()
print(ts_6h_pad)
ts_6h_ffill = ts.resample('6H').ffill()
print(ts_6h_ffill)
ts_6h_bfill = ts.resample('6H').bfill()
print(ts_6h_bfill)
#### Outputs ####
2018-01-01 00:00:00 1.0
2018-01-01 06:00:00 NaN
2018-01-01 12:00:00 NaN
2018-01-01 18:00:00 NaN
2018-01-02 00:00:00 2.0
Freq: 6H, dtype: float64
2018-01-01 00:00:00 1
2018-01-01 06:00:00 1
2018-01-01 12:00:00 1
2018-01-01 18:00:00 1
2018-01-02 00:00:00 2
Freq: 6H, dtype: int32
2018-01-01 00:00:00 1
2018-01-01 06:00:00 1
2018-01-01 12:00:00 1
2018-01-01 18:00:00 1
2018-01-02 00:00:00 2
Freq: 6H, dtype: int32
2018-01-01 00:00:00 1
2018-01-01 06:00:00 2
2018-01-01 12:00:00 2
2018-01-01 18:00:00 2
2018-01-02 00:00:00 2
Freq: 6H, dtype: int32