Pandas可以讀取多種類型文件,如excel, txt, csv等, 這里小結(jié)下讀取csv文件捐祠。
讀取CSV文件
默認(rèn)分割符是",", 可以不用指定,如果是其他分割符需要指定seq參數(shù)桑李。在路徑前面加上r, 是防止被轉(zhuǎn)義踱蛀。
1.路徑前加r
2.指定分隔符
處理解析文件內(nèi)容
1.查看文件內(nèi)容,通過newdf.head(),查看前100行贵白,可以用newdf.head(100), 也可以直接輸入變量名df查看全部內(nèi)容率拒,如上圖
2.查看DataFrames數(shù)據(jù)類型及文件大小, 用newdf.info()
3. 處理數(shù)據(jù)禁荒,刪除可以用drop或del, drop會(huì)將刪除后的數(shù)據(jù)生成副本猬膨,原先的數(shù)據(jù)不做修改,如下圖呛伴。
4. del 刪除勃痴,是直接刪除
5. drop時(shí),默認(rèn)axis=0,不設(shè)置時(shí)是按行刪除热康,設(shè)置axis=1時(shí)是按列刪除沛申。DataFrame默認(rèn)生成行索引,可通過index指定索引值去刪除行姐军。刪除列時(shí)铁材,可用columns指定列名尖淘,也可直接用列名指定。
6. 讀取數(shù)據(jù)
iloc方法為默認(rèn)著觉,可通過行索引取值德澈,可以讀取切片數(shù)據(jù),如下:
列讀取可以直接用列名讀取
7. 設(shè)置列索引,可以手動(dòng)定義列索引固惯,一旦定義列索引后,行索引自動(dòng)消失缴守,也就不能用iloc訪問數(shù)據(jù)葬毫。如下圖a列被定義為索引
可以用loc來訪問列為索引列, 當(dāng)然索引列是不能訪問的。用索引列訪問會(huì)報(bào)錯(cuò)屡穗,該列為索引列 df['a']贴捡,其他列依然可以用列名訪問數(shù)據(jù)。
下圖是用loc來訪問列索引來得到數(shù)據(jù)村砂。
8.數(shù)據(jù)填充或處理
填充空白值(NaN)烂斋,最簡單的可以直接替換,設(shè)置指定列替換為指定值础废,指定列的空值就會(huì)被替換為目標(biāo)數(shù)據(jù)汛骂,如newdf2=df.fillna({'b':3,'f':7})?
數(shù)據(jù)處理,如將d列都設(shè)置為兩位數(shù)據(jù)评腺,取值可以根據(jù)需求用正則表達(dá)式設(shè)定帘瞭,如這里取d里最前2位數(shù)為d列的值。