課程學習:Pandas 數(shù)據(jù)處理基礎(chǔ)入門
數(shù)據(jù)填充
除了直接填充值,我們還可以通過參數(shù),將缺失值前面或者后面的值填充給相應(yīng)的缺失值活喊。例如使用缺失值前面的值進行填充:
df.fillna(method='pad')
或者是后面的值:
df.fillna(method='bfill')
可以看到栋齿,連續(xù)缺失值也是按照前序數(shù)值進行填充的,并且完全填充帖族。這里,我們可以通過 limit=
參數(shù)設(shè)置連續(xù)填充的限制數(shù)量:
df.fillna(method='pad', limit=1) # 最多填充一項
除了上面的填充方式,還可以通過 Pandas 自帶的求平均值方法等來填充特定列或行爹凹。舉個例子:
df.fillna(df.mean()['C':'E']) # 對 C 列到 E 列用平均值填充
插值填充
插值是數(shù)值分析中一種方法。簡而言之镶殷,就是借助于一個函數(shù)(線性或非線性)禾酱,再根據(jù)已知數(shù)據(jù)去求解未知數(shù)據(jù)的值。插值在數(shù)據(jù)領(lǐng)域非常常見绘趋,它的好處在于颤陶,可以盡量去還原數(shù)據(jù)本身的樣子。我們可以通過 interpolate()
方法完成線性插值陷遮。
df_interpolate = df.interpolate()
df_interpolate
對于 interpolate()
支持的插值算法滓走,也就是 method=
。下面給出幾條選擇的建議:
- 如果你的數(shù)據(jù)增長速率越來越快帽馋,可以選擇
method='quadratic'
二次插值搅方。 - 如果數(shù)據(jù)集呈現(xiàn)出累計分布的樣子,推薦選擇
method='pchip'
绽族。 - 如果需要填補缺省值姨涡,以平滑繪圖為目標,推薦選擇
method='akima'
吧慢。
其他用法
除了上面提到的一些方法和技巧涛漂,實際上 Pandas 常用的還有:
-
數(shù)據(jù)計算,例如:
DataFrame.add
等检诗。 -
數(shù)據(jù)聚合匈仗,例如:
DataFrame.groupby
等底哗。 -
統(tǒng)計分析,例如:
DataFrame.abs
等锚沸。 -
時間序列跋选,例如:
DataFrame.shift
等。
--- End ---