Pandas系列1-DataFrame之初始化

DataFrame有多種初始化方法错邦,主要分為以下幾種情況:

  • 通過Object初始化
  • 通過文件初始化
  • 通過SQL查詢結(jié)果初始化
  • 通過NoSQL數(shù)據(jù)庫查詢結(jié)果初始化

下面分別介紹:

通過object初始化

這又分為以下幾種方式

  • Dict of 1D ndarrays, lists, dicts, or Series
  • 2-D numpy.ndarray
  • Structured or record ndarray
  • A Series
  • Another DataFrame

總的來說伊诵,如果容器對(duì)象是一個(gè)list幻梯,那么其中的item就是一條行記錄拄踪,而如果是dict任岸,那么就相當(dāng)于列記錄竖共,即key對(duì)應(yīng)的是column name,而values即為這一列的值乳绕,而values一般可以通過list存儲(chǔ)绞惦,也可以通過Series對(duì)象存儲(chǔ)。

通過list

通過1D data series初始化的時(shí)候洋措,如果有多列济蝉,那么需要等長

# columns參數(shù)是通過一個(gè)list參數(shù)來指定column labels
df = pd.DataFrame([['a1', 1], ['a2', 4]], columns=['uid', 'score'])
In [477]: df
Out[477]:
  uid  score
0  a1      1
1  a2      4

通過Dict of 1D ndarray

In [298]: df = pd.DataFrame({'col1': np.arange(3), 'col2': np.arange(5, 8)})

In [299]: df
Out[299]:
   col1  col2
0     0     5
1     1     6
2     2     7

通過Dict of lists

In [294]: df = pd.DataFrame({'col1': [1, 2, 3, 4], 'col2': ['a', 'b', 'c', 'd']})

In [295]: df
Out[295]:
   col1 col2
0     1    a
1     2    b
2     3    c
3     4    d

通過list of dicts

注意與上邊的dict of lists區(qū)分,如果最外層是dict,那么key值默認(rèn)是column label王滤。
而在list of dicts中贺嫂,每個(gè)dict都是一個(gè)record,或者說一行

# 可以不等長淑仆,缺失值自動(dòng)設(shè)為NaN
In [49]: data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

In [50]: pd.DataFrame(data2)
Out[50]: 
   a   b     c
0  1   2   NaN
1  5  10  20.0

In [51]: pd.DataFrame(data2, index=['first', 'second'])
Out[51]: 
        a   b     c
first   1   2   NaN
second  5  10  20.0

In [52]: pd.DataFrame(data2, columns=['a', 'b'])
Out[52]: 
   a   b
0  1   2
1  5  10

通過Dict of Series

In [314]: s = pd.Series(range(5))

In [315]: s
Out[315]:
0    0
1    1
2    2
3    3
4    4
dtype: int64

In [316]: p = pd.Series(range(8, 13))

In [317]: p
Out[317]:
0     8
1     9
2    10
3    11
4    12
dtype: int64

In [318]: df = pd.DataFrame({'a': s, 'b': p})

In [319]: df
Out[319]:
   a   b
0  0   8
1  1   9
2  2  10
3  3  11
4  4  12

通過2-D numpy.ndarray

In [289]: df = pd.DataFrame(np.arange(16).reshape((4,4)), columns=['one', 'two', 'three',
     ...:  'four'], index=['a', 'b', 'c','d'])

In [290]: df
Out[290]:
   one  two  three  four
a    0    1      2     3
b    4    5      6     7
c    8    9     10    11
d   12   13     14    15

通過文件初始化

pandas通過各種數(shù)據(jù)文件也可以初始化涝婉,比如csv文件,excel文件蔗怠,json文件墩弯,html文件等,詳見下圖


IO Tools

下面以read_csv詳細(xì)解釋下讀取csv文件以及初始化的過程
read_csv的完整文檔參考read_csv api寞射,下面通過示例對(duì)常用的parameter進(jìn)行解釋:

csv_path = "./test.csv"
columns = ['id', 'name', 'age']
dtype = {'id': int, 'name': object, 'age': int}
pd.read_csv(csv_path, header=None, names=columns, dtype=dtype)
  • filepath_or_buffer, 這個(gè)是最基本的參數(shù)渔工,用以指明文件的路徑(路徑可以是字符串,也可以是各種path對(duì)象桥温,詳見文檔)或者文件對(duì)象(也可以接收類文件對(duì)象, 即提供read method引矩, 如StringIO對(duì)象)。另外侵浸,這個(gè)參數(shù)也可以是一個(gè)URL旺韭,而這個(gè)URL可以http, ftp, 或者s3的url.

對(duì)于沒有權(quán)限限制的url,直接使用read_csv可以大大簡化代碼掏觉,但是通常我們的數(shù)據(jù)不會(huì)放置到公開的url地址上区端,因此這就涉及權(quán)限的問題,通常還是通過其它手段將文件下載到本地后再讀取澳腹。

  • header, 這個(gè)參數(shù)用于設(shè)置第幾行為column names, 默認(rèn)是'infer'织盼,即Pandas會(huì)自動(dòng)推斷哪一行是column names。當(dāng)文件中沒有column names時(shí)酱塔,相當(dāng)于設(shè)定header=0沥邻。很多時(shí)候想要忽略原始的column names而自己設(shè)定column names,那么可以將這個(gè)參數(shù)設(shè)置為None, 然后通過names參數(shù)來設(shè)定column names
  • names, 用于設(shè)定column names
  • dtype, 用于設(shè)定每一列對(duì)應(yīng)的數(shù)據(jù)類型羊娃,需要注意的是對(duì)string類型需要設(shè)置為object
  • nrows, 要讀取多少行唐全,通過這個(gè)參數(shù)我們可以部分讀取文件
  • usecols, 用于選定列,即指定哪些列l(wèi)oad進(jìn)DataFrame中蕊玷,通過這個(gè)參數(shù)可以只讀取我們需要的數(shù)據(jù)邮利,從而減少內(nèi)存占用,加快load速度集畅。

通過SQL查詢結(jié)果初始化

import pandas.io.sql as sql

# conn是數(shù)據(jù)庫的連接對(duì)象
sql.read_frame('select * from test', conn)

NoSQL查詢結(jié)果初始化

這里以MongoDB為例

# 從MongoDB中查詢年齡大于20歲的用戶近弟,查詢返回一個(gè)cursor對(duì)象
user_results = user.find({"age": {"$gt": 20}})

# 將cursor對(duì)象轉(zhuǎn)化為list,然后初始化
# columns可以用于選取相應(yīng)的field的數(shù)據(jù)挺智,只有在這個(gè)列表中的field才會(huì)被load進(jìn)DataFrame對(duì)象當(dāng)中祷愉,如果沒有對(duì)應(yīng)的數(shù)據(jù)窗宦,會(huì)被填入NaN
df = pd.DataFrame(list(user_results), columns=['id', 'age', 'name']

這里需要注意的是如果不指定columns參數(shù),有可能導(dǎo)致某些為空的field沒有對(duì)應(yīng)的列二鳄,如果指定了列名稱赴涵,則如果相對(duì)應(yīng)的域沒有數(shù)據(jù)的話,就會(huì)自動(dòng)置為nan

References

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末订讼,一起剝皮案震驚了整個(gè)濱河市髓窜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌欺殿,老刑警劉巖寄纵,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異脖苏,居然都是意外死亡程拭,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門棍潘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來恃鞋,“玉大人,你說我怎么就攤上這事亦歉⌒衾耍” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵肴楷,是天一觀的道長水由。 經(jīng)常有香客問我,道長阶祭,這世上最難降的妖魔是什么绷杜? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任直秆,我火速辦了婚禮濒募,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘圾结。我一直安慰自己瑰剃,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布筝野。 她就那樣靜靜地躺著晌姚,像睡著了一般。 火紅的嫁衣襯著肌膚如雪歇竟。 梳的紋絲不亂的頭發(fā)上挥唠,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音焕议,去河邊找鬼宝磨。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的唤锉。 我是一名探鬼主播世囊,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼窿祥!你這毒婦竟也來了株憾?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤晒衩,失蹤者是張志新(化名)和其女友劉穎嗤瞎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體听系,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡猫胁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了跛锌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片弃秆。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖髓帽,靈堂內(nèi)的尸體忽然破棺而出菠赚,到底是詐尸還是另有隱情,我是刑警寧澤郑藏,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布衡查,位于F島的核電站,受9級(jí)特大地震影響必盖,放射性物質(zhì)發(fā)生泄漏拌牲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一歌粥、第九天 我趴在偏房一處隱蔽的房頂上張望塌忽。 院中可真熱鬧,春花似錦失驶、人聲如沸土居。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽擦耀。三九已至,卻和暖如春涩堤,著一層夾襖步出監(jiān)牢的瞬間眷蜓,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工胎围, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吁系,地道東北人芹敌。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像垮抗,于是被迫代替她去往敵國和親氏捞。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容