在處理數(shù)據(jù)的時候,很多時候會遇到批量替換的情況纯衍,如果一個一個去修改效率過低栋齿,也容易出錯。replace()是很好的方法襟诸。
1瓦堵、替換全部或者某一行
replace的基本結(jié)構(gòu)是:df.replace(to_replace, value) 前面是需要替換的值,后面是替換后的值歌亲。
例如我們要將南岸改為城區(qū):
這樣Python就會搜索整個DataFrame并將文檔中所有的南岸替換成了城區(qū)(要注意這樣的操作并沒有改變文檔的源數(shù)據(jù)菇用,要改變源數(shù)據(jù)需要使用inplace = True)。
由于南岸只有城市一列具有相同值陷揪,使用起來比較方便惋鸥。
但是如果我們要改變表1Lon里的某個數(shù)據(jù)杂穷,而不改變Longitude的數(shù)據(jù)要怎么做呢?
所以只想替換部分數(shù)據(jù)的時候并且要寫入源數(shù)據(jù)就需要指定inplace卦绣。
在上面的操作只改變了表1Lon的數(shù)據(jù)绞佩,其它列的數(shù)據(jù)并沒有被替換嘴拢,而且在替換后的結(jié)果不需要我們再和源數(shù)據(jù)進行合并操作弟跑,可以直接體現(xiàn)在源數(shù)據(jù)中添寺。
2、替換指定的某個或指定的多個數(shù)值(用字典的形式)
這個很好理解溅漾,就是字典里的建作為原值山叮,字典里的值作為替換的新值。
當然添履,我們也可是使用列表的形式進行替換:df.replace(['A','29.54'],['B',100])
還有如果想要替換的新值是一樣的話屁倔,我們還可以這樣做:
部分替換和替換某個值結(jié)合使用的話就可以替換單個列的數(shù)值:
3、使用正則表達式替換
正則表達式很強大缝龄,能夠讓我們實現(xiàn)一次替換很多很多個不同的值:
使用正則表達式的時候記得后面加 regex=True參數(shù)汰现。
有圖中我們可以看到只要包含有大寫的英文字母的數(shù)據(jù)都被替換了,如果我們要寫入源數(shù)據(jù)還需要指定inpla = True叔壤。
當需要將缺失值替換掉的時候瞎饲,我們可以考慮直接只用fillna(),功能更強大炼绘,這個前面已經(jīng)有說過了嗅战。
在某些情況下,如果我們只需要某個數(shù)據(jù)的部分內(nèi)容俺亮,我們該怎么操作呢驮捍?
比如要把變電站都改為transformer_substation,或者是把Latitude列的前面的ab改為AB:
需要注意的時更好指定列的時候脚曾,使用str.replace時不能使用inplace = True參數(shù)东且,因此需要改成賦值,賦值的時候不要忘了是列的賦值而不是整個表格的賦值本讥。