數(shù)據(jù)不完整在數(shù)據(jù)分析的過程中很常見。
pandas使用浮點值NaN表示浮點和非浮點數(shù)組里的缺失數(shù)據(jù)设拟。
pandas使用isnull()和notnull()函數(shù)來判斷缺失情況。
對于缺失數(shù)據(jù)一般處理方法為濾掉或者填充。
濾除缺失數(shù)據(jù):dropna()函數(shù)
對于一個Series,dropna()函數(shù)返回一個包含非空數(shù)據(jù)和索引值的Series钾唬,例如:
對于DataFrame万哪,dropna()函數(shù)同樣會丟掉所有含有空元素的數(shù)據(jù)侠驯,例如:
但是可以指定how='all'抡秆,這表示只有行里的數(shù)據(jù)全部為空時才丟棄,例如:
如果想以同樣的方式按列丟棄吟策,可以傳入axis=1儒士,例如:
填充缺失數(shù)據(jù):fillna()函數(shù)
如果不想丟掉缺失的數(shù)據(jù)而是想用默認值填充這些空洞,可以使用fillna()函數(shù):
如果不想只以某個標量填充檩坚,可以傳入一個字典着撩,對不同的列填充不同的值: