DataFrame有多種初始化方法错邦,主要分為以下幾種情況:
- 通過Object初始化
- 通過文件初始化
- 通過SQL查詢結(jié)果初始化
- 通過NoSQL數(shù)據(jù)庫查詢結(jié)果初始化
下面分別介紹:
通過object初始化
這又分為以下幾種方式
- Dict of 1D ndarrays, lists, dicts, or Series
- 2-D numpy.ndarray
- Structured or record ndarray
- A Series
- Another DataFrame
總的來說伊诵,如果容器對(duì)象是一個(gè)list幻梯,那么其中的item就是一條行記錄拄踪,而如果是dict任岸,那么就相當(dāng)于列記錄竖共,即key對(duì)應(yīng)的是column name,而values即為這一列的值乳绕,而values一般可以通過list存儲(chǔ)绞惦,也可以通過Series對(duì)象存儲(chǔ)。
通過list
通過1D data series初始化的時(shí)候洋措,如果有多列济蝉,那么需要等長
# columns參數(shù)是通過一個(gè)list參數(shù)來指定column labels
df = pd.DataFrame([['a1', 1], ['a2', 4]], columns=['uid', 'score'])
In [477]: df
Out[477]:
uid score
0 a1 1
1 a2 4
通過Dict of 1D ndarray
In [298]: df = pd.DataFrame({'col1': np.arange(3), 'col2': np.arange(5, 8)})
In [299]: df
Out[299]:
col1 col2
0 0 5
1 1 6
2 2 7
通過Dict of lists
In [294]: df = pd.DataFrame({'col1': [1, 2, 3, 4], 'col2': ['a', 'b', 'c', 'd']})
In [295]: df
Out[295]:
col1 col2
0 1 a
1 2 b
2 3 c
3 4 d
通過list of dicts
注意與上邊的dict of lists區(qū)分,如果最外層是dict,那么key值默認(rèn)是column label王滤。
而在list of dicts中贺嫂,每個(gè)dict都是一個(gè)record,或者說一行
# 可以不等長淑仆,缺失值自動(dòng)設(shè)為NaN
In [49]: data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
In [50]: pd.DataFrame(data2)
Out[50]:
a b c
0 1 2 NaN
1 5 10 20.0
In [51]: pd.DataFrame(data2, index=['first', 'second'])
Out[51]:
a b c
first 1 2 NaN
second 5 10 20.0
In [52]: pd.DataFrame(data2, columns=['a', 'b'])
Out[52]:
a b
0 1 2
1 5 10
通過Dict of Series
In [314]: s = pd.Series(range(5))
In [315]: s
Out[315]:
0 0
1 1
2 2
3 3
4 4
dtype: int64
In [316]: p = pd.Series(range(8, 13))
In [317]: p
Out[317]:
0 8
1 9
2 10
3 11
4 12
dtype: int64
In [318]: df = pd.DataFrame({'a': s, 'b': p})
In [319]: df
Out[319]:
a b
0 0 8
1 1 9
2 2 10
3 3 11
4 4 12
通過2-D numpy.ndarray
In [289]: df = pd.DataFrame(np.arange(16).reshape((4,4)), columns=['one', 'two', 'three',
...: 'four'], index=['a', 'b', 'c','d'])
In [290]: df
Out[290]:
one two three four
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11
d 12 13 14 15
通過文件初始化
pandas通過各種數(shù)據(jù)文件也可以初始化涝婉,比如csv文件,excel文件蔗怠,json文件墩弯,html文件等,詳見下圖
下面以read_csv
詳細(xì)解釋下讀取csv文件以及初始化的過程
read_csv
的完整文檔參考read_csv api寞射,下面通過示例對(duì)常用的parameter進(jìn)行解釋:
csv_path = "./test.csv"
columns = ['id', 'name', 'age']
dtype = {'id': int, 'name': object, 'age': int}
pd.read_csv(csv_path, header=None, names=columns, dtype=dtype)
- filepath_or_buffer, 這個(gè)是最基本的參數(shù)渔工,用以指明文件的路徑(路徑可以是字符串,也可以是各種path對(duì)象桥温,詳見文檔)或者文件對(duì)象(也可以接收類文件對(duì)象, 即提供read method引矩, 如StringIO對(duì)象)。另外侵浸,這個(gè)參數(shù)也可以是一個(gè)URL旺韭,而這個(gè)URL可以http, ftp, 或者s3的url.
對(duì)于沒有權(quán)限限制的url,直接使用read_csv可以大大簡化代碼掏觉,但是通常我們的數(shù)據(jù)不會(huì)放置到公開的url地址上区端,因此這就涉及權(quán)限的問題,通常還是通過其它手段將文件下載到本地后再讀取澳腹。
- header, 這個(gè)參數(shù)用于設(shè)置第幾行為column names, 默認(rèn)是'infer'织盼,即Pandas會(huì)自動(dòng)推斷哪一行是column names。當(dāng)文件中沒有column names時(shí)酱塔,相當(dāng)于設(shè)定header=0沥邻。很多時(shí)候想要忽略原始的column names而自己設(shè)定column names,那么可以將這個(gè)參數(shù)設(shè)置為None, 然后通過names參數(shù)來設(shè)定column names
- names, 用于設(shè)定column names
- dtype, 用于設(shè)定每一列對(duì)應(yīng)的數(shù)據(jù)類型羊娃,需要注意的是對(duì)string類型需要設(shè)置為object
- nrows, 要讀取多少行唐全,通過這個(gè)參數(shù)我們可以部分讀取文件
- usecols, 用于選定列,即指定哪些列l(wèi)oad進(jìn)DataFrame中蕊玷,通過這個(gè)參數(shù)可以只讀取我們需要的數(shù)據(jù)邮利,從而減少內(nèi)存占用,加快load速度集畅。
通過SQL查詢結(jié)果初始化
import pandas.io.sql as sql
# conn是數(shù)據(jù)庫的連接對(duì)象
sql.read_frame('select * from test', conn)
NoSQL查詢結(jié)果初始化
這里以MongoDB為例
# 從MongoDB中查詢年齡大于20歲的用戶近弟,查詢返回一個(gè)cursor對(duì)象
user_results = user.find({"age": {"$gt": 20}})
# 將cursor對(duì)象轉(zhuǎn)化為list,然后初始化
# columns可以用于選取相應(yīng)的field的數(shù)據(jù)挺智,只有在這個(gè)列表中的field才會(huì)被load進(jìn)DataFrame對(duì)象當(dāng)中祷愉,如果沒有對(duì)應(yīng)的數(shù)據(jù)窗宦,會(huì)被填入NaN
df = pd.DataFrame(list(user_results), columns=['id', 'age', 'name']
這里需要注意的是如果不指定columns參數(shù),有可能導(dǎo)致某些為空的field沒有對(duì)應(yīng)的列二鳄,如果指定了列名稱赴涵,則如果相對(duì)應(yīng)的域沒有數(shù)據(jù)的話,就會(huì)自動(dòng)置為nan
References
- read_csv API
- IO Tools
- 《利用Python進(jìn)行數(shù)據(jù)分析》