簡介: 本文主要介紹如何利用pandas讀入表單數(shù)據(jù)。
讀入數(shù)據(jù)
- pandas.read_csv()
從文件技肩,URL且轨,文件型對象中加載帶分隔符的數(shù)據(jù)。默認分隔符為''," - pandas.read_table()
從文件,URL旋奢,文件型對象中加載帶分隔符的數(shù)據(jù)泳挥。默認分隔符為"\t"
參數(shù):
- 分隔符參數(shù):sep=
read_csv和read_table的區(qū)別在于separator分隔符。csv是逗號分隔值(Comma-Separated Values)至朗,僅能正確讀入以 "," 分割的數(shù)據(jù)屉符。
pd.read_table("ex1.csv", sep=",")
- 是否讀取文本數(shù)據(jù)的header:header=
headers = None表示使用默認分配的列名,一般用在讀取沒有header的數(shù)據(jù)文件锹引。
pd.read_table("ex1.csv", header=None)
- 為文本的數(shù)據(jù)加上列名: names=
names = user_cols 筑煮,自定義列名為user_cols。
pd.read_table("ex1.csv", names = user_cols)
- 明確索引值: index_col=
index_col = user_col粤蝎,明確表示要將user_col放入索引位置真仲。
pd.read_table("ex1.csv", names = names, index_col = user_col)
也可以將多個列都放入索引位置,做成層次化索引初澎。
pd.read_table("ex1.csv", names = names, index_col = ["col1", "col2"])
- 跳過指定行: skiprows=
skiprows = row_list_to_skipped秸应,可以用與跳過非有效數(shù)據(jù)如注釋等情形下。
pd.read_table("ex1.csv", skiprows = [row1, row2,..., rown])
- 缺失值處理:na_values=
na_values= ["null"]碑宴,用null字符替換缺失值软啼。
pd.read_table("ex1.csv", na_values= ["null"])
- 嘗試將數(shù)據(jù)解析為日期:parse_dates=
parse_dates = True,嘗試解析所有可能為日期類型的列延柠。
pd.read_table("ex1.csv", parse_dates = True)
parse_dates = [1, 2]祸挪,嘗試解析給定列為日期類型的列。
pd.read_table("ex1.csv", parse_dates = [1, 2])
- 指定需要讀取的行數(shù):nrows=
nrows = 100贞间, 指定讀取前100行數(shù)據(jù)贿条。
pd.read_table("ex1.csv", nrows = 100)
寫出數(shù)據(jù)
- pandas.read_csv()
從文件,URL增热,文件型對象中加載帶分隔符的數(shù)據(jù)整以。默認分隔符為''," - pandas.read_table()
從文件,URL峻仇,文件型對象中加載帶分隔符的數(shù)據(jù)公黑。默認分隔符為"\t"
參數(shù)和讀入數(shù)據(jù)類似。
附上函數(shù)原型:
附上小哥哥的視頻鏈接Data analysis in Python with pandas
所有文章列表