Pandas系列1-DataFrame之初始化

DataFrame有多種初始化方法错邦，主要分為以下幾種情況：

通過Object初始化
通過文件初始化
通過SQL查詢結(jié)果初始化
通過NoSQL數(shù)據(jù)庫查詢結(jié)果初始化

下面分別介紹：

通過object初始化

這又分為以下幾種方式

Dict of 1D ndarrays, lists, dicts, or Series
2-D numpy.ndarray
Structured or record ndarray
A Series
Another DataFrame

總的來說伊诵，如果容器對(duì)象是一個(gè)list幻梯，那么其中的item就是一條行記錄拄踪，而如果是dict任岸，那么就相當(dāng)于列記錄竖共，即key對(duì)應(yīng)的是column name，而values即為這一列的值乳绕，而values一般可以通過list存儲(chǔ)绞惦，也可以通過Series對(duì)象存儲(chǔ)。

通過list

通過1D data series初始化的時(shí)候洋措，如果有多列济蝉，那么需要等長

# columns參數(shù)是通過一個(gè)list參數(shù)來指定column labels
df = pd.DataFrame([['a1', 1], ['a2', 4]], columns=['uid', 'score'])
In [477]: df
Out[477]:
  uid  score
0  a1      1
1  a2      4

通過Dict of 1D ndarray

In [298]: df = pd.DataFrame({'col1': np.arange(3), 'col2': np.arange(5, 8)})

In [299]: df
Out[299]:
   col1  col2
0     0     5
1     1     6
2     2     7

通過Dict of lists

In [294]: df = pd.DataFrame({'col1': [1, 2, 3, 4], 'col2': ['a', 'b', 'c', 'd']})

In [295]: df
Out[295]:
   col1 col2
0     1    a
1     2    b
2     3    c
3     4    d

通過list of dicts

注意與上邊的dict of lists區(qū)分，如果最外層是dict，那么key值默認(rèn)是column label王滤。
而在list of dicts中贺嫂，每個(gè)dict都是一個(gè)record，或者說一行

# 可以不等長淑仆，缺失值自動(dòng)設(shè)為NaN
In [49]: data2 = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]

In [50]: pd.DataFrame(data2)
Out[50]: 
   a   b     c
0  1   2   NaN
1  5  10  20.0

In [51]: pd.DataFrame(data2, index=['first', 'second'])
Out[51]: 
        a   b     c
first   1   2   NaN
second  5  10  20.0

In [52]: pd.DataFrame(data2, columns=['a', 'b'])
Out[52]: 
   a   b
0  1   2
1  5  10

通過Dict of Series

In [314]: s = pd.Series(range(5))

In [315]: s
Out[315]:
0    0
1    1
2    2
3    3
4    4
dtype: int64

In [316]: p = pd.Series(range(8, 13))

In [317]: p
Out[317]:
0     8
1     9
2    10
3    11
4    12
dtype: int64

In [318]: df = pd.DataFrame({'a': s, 'b': p})

In [319]: df
Out[319]:
   a   b
0  0   8
1  1   9
2  2  10
3  3  11
4  4  12

通過2-D numpy.ndarray

In [289]: df = pd.DataFrame(np.arange(16).reshape((4,4)), columns=['one', 'two', 'three',
     ...:  'four'], index=['a', 'b', 'c','d'])

In [290]: df
Out[290]:
   one  two  three  four
a    0    1      2     3
b    4    5      6     7
c    8    9     10    11
d   12   13     14    15

通過文件初始化

pandas通過各種數(shù)據(jù)文件也可以初始化涝婉，比如csv文件，excel文件蔗怠，json文件墩弯，html文件等，詳見下圖

IO Tools

下面以read_csv詳細(xì)解釋下讀取csv文件以及初始化的過程
read_csv的完整文檔參考read_csv api寞射，下面通過示例對(duì)常用的parameter進(jìn)行解釋：

csv_path = "./test.csv"
columns = ['id', 'name', 'age']
dtype = {'id': int, 'name': object, 'age': int}
pd.read_csv(csv_path, header=None, names=columns, dtype=dtype)

filepath_or_buffer, 這個(gè)是最基本的參數(shù)渔工，用以指明文件的路徑(路徑可以是字符串，也可以是各種path對(duì)象桥温，詳見文檔)或者文件對(duì)象(也可以接收類文件對(duì)象, 即提供read method引矩，如StringIO對(duì)象)。另外侵浸，這個(gè)參數(shù)也可以是一個(gè)URL旺韭，而這個(gè)URL可以http, ftp, 或者s3的url.

對(duì)于沒有權(quán)限限制的url，直接使用read_csv可以大大簡化代碼掏觉，但是通常我們的數(shù)據(jù)不會(huì)放置到公開的url地址上区端，因此這就涉及權(quán)限的問題，通常還是通過其它手段將文件下載到本地后再讀取澳腹。

header, 這個(gè)參數(shù)用于設(shè)置第幾行為column names, 默認(rèn)是'infer'织盼，即Pandas會(huì)自動(dòng)推斷哪一行是column names。當(dāng)文件中沒有column names時(shí)酱塔，相當(dāng)于設(shè)定header=0沥邻。很多時(shí)候想要忽略原始的column names而自己設(shè)定column names，那么可以將這個(gè)參數(shù)設(shè)置為None, 然后通過names參數(shù)來設(shè)定column names
names, 用于設(shè)定column names
dtype, 用于設(shè)定每一列對(duì)應(yīng)的數(shù)據(jù)類型羊娃，需要注意的是對(duì)string類型需要設(shè)置為object
nrows, 要讀取多少行唐全，通過這個(gè)參數(shù)我們可以部分讀取文件
usecols, 用于選定列，即指定哪些列l(wèi)oad進(jìn)DataFrame中蕊玷，通過這個(gè)參數(shù)可以只讀取我們需要的數(shù)據(jù)邮利，從而減少內(nèi)存占用，加快load速度集畅。

通過SQL查詢結(jié)果初始化

import pandas.io.sql as sql

# conn是數(shù)據(jù)庫的連接對(duì)象
sql.read_frame('select * from test', conn)

NoSQL查詢結(jié)果初始化

這里以MongoDB為例

# 從MongoDB中查詢年齡大于20歲的用戶近弟，查詢返回一個(gè)cursor對(duì)象
user_results = user.find({"age": {"$gt": 20}})

# 將cursor對(duì)象轉(zhuǎn)化為list，然后初始化
# columns可以用于選取相應(yīng)的field的數(shù)據(jù)挺智，只有在這個(gè)列表中的field才會(huì)被load進(jìn)DataFrame對(duì)象當(dāng)中祷愉，如果沒有對(duì)應(yīng)的數(shù)據(jù)窗宦，會(huì)被填入NaN
df = pd.DataFrame(list(user_results), columns=['id', 'age', 'name']

這里需要注意的是如果不指定columns參數(shù)，有可能導(dǎo)致某些為空的field沒有對(duì)應(yīng)的列二鳄，如果指定了列名稱赴涵，則如果相對(duì)應(yīng)的域沒有數(shù)據(jù)的話，就會(huì)自動(dòng)置為nan

References

read_csv API
IO Tools
《利用Python進(jìn)行數(shù)據(jù)分析》

最后編輯于：2020.04.15 15:04:07

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末订讼，一起剝皮案震驚了整個(gè)濱河市髓窜，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌欺殿，老刑警劉巖寄纵，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異脖苏，居然都是意外死亡程拭，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門棍潘，熙熙樓的掌柜王于貴愁眉苦臉地迎上來恃鞋，“玉大人，你說我怎么就攤上這事亦歉⌒衾耍” “怎么了？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵肴楷，是天一觀的道長水由。經(jīng)常有香客問我，道長阶祭，這世上最難降的妖魔是什么绷杜？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任直秆，我火速辦了婚禮濒募，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘圾结。我一直安慰自己瑰剃，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布筝野。她就那樣靜靜地躺著晌姚，像睡著了一般。火紅的嫁衣襯著肌膚如雪歇竟。梳的紋絲不亂的頭發(fā)上挥唠，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音焕议，去河邊找鬼宝磨。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的唤锉。我是一名探鬼主播世囊，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼窿祥！你這毒婦竟也來了株憾？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤晒衩，失蹤者是張志新（化名）和其女友劉穎嗤瞎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體听系，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡猫胁，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了跛锌。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片弃秆。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖髓帽，靈堂內(nèi)的尸體忽然破棺而出菠赚，到底是詐尸還是另有隱情，我是刑警寧澤郑藏，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布衡查，位于F島的核電站，受9級(jí)特大地震影響必盖，放射性物質(zhì)發(fā)生泄漏拌牲。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一歌粥、第九天我趴在偏房一處隱蔽的房頂上張望塌忽。院中可真熱鬧，春花似錦失驶、人聲如沸土居。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案嬉探，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽擦耀。三九已至，卻和暖如春涩堤，著一層夾襖步出監(jiān)牢的瞬間眷蜓，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工胎围，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吁系，地道東北人芹敌。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像垮抗，于是被迫代替她去往敵國和親氏捞。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345