pandas的基本功能與常用的數(shù)學(xué)統(tǒng)計(jì)方法

python高級(jí)應(yīng)用與數(shù)據(jù)分析學(xué)習(xí)筆記 13

1督禽、pandas的基本功能

1)數(shù)據(jù)文件讀取 文本數(shù)據(jù)讀取

2)索引隅茎、選取和數(shù)據(jù)過濾

3)算術(shù)運(yùn)算和數(shù)據(jù)對(duì)齊

4)函數(shù)的應(yīng)用和映射

5)重置索引

2吱抚、數(shù)據(jù)文件讀取 文本數(shù)據(jù)讀取

2.1 直接讀取文本數(shù)據(jù)

data01.csv文件

name,age,source
張伊曼,27,90
張巧玲,27,90
張?jiān)娫?27,90
張思思,27,90

data02.txt文件

張伊曼:27:90
張巧玲:27:90
張?jiān)娫?27:90
張思思:27:90
import numpy as np
import pandas as pd

df = pd.read_csv('data01.csv')                       #默認(rèn)sep=','
print("data01.csv文件的原始數(shù)據(jù)==========================")
print(df)

df = pd.read_csv('data01.csv',header=None)           #去除表頭
print("data01.csv文件的去表頭數(shù)據(jù)==========================")
print(df)

df = pd.read_csv('data02.txt',sep=':',header=None)   #根據(jù)文本數(shù)據(jù)更換sep
print("data02.txt.txt文件的原始數(shù)據(jù)==========================")
print(df)
image.png

2.2 代碼生成數(shù)據(jù)文件然后在讀取

#1.2 代碼生成數(shù)據(jù)文件然后再讀取
df0 = pd.DataFrame(np.arange(18).reshape((6, 3)))
df0.columns = ['張伊曼', '張巧玲', '張?jiān)娫?]
print("df0=============================")
print(df0)
df0.to_csv('df0.csv', index=False)

print("df1=============================")
df1 = pd.read_csv('df0.csv')
print(df1)
image.png
image.png

注意:當(dāng)設(shè)置index的值唯卖,就會(huì)變成如圖的樣子:

#1.2 代碼生成數(shù)據(jù)文件然后再讀取
df0 = pd.DataFrame(np.arange(18).reshape((6, 3)))
df0.columns = ['張伊曼', '張巧玲', '張?jiān)娫?]
df0.index = ['a1', 'a2', 'a3','a4', 'a5', 'a6']
print("df0=============================")
print(df0)
df0.to_csv('df0.csv')

print("df1=============================")
df1 = pd.read_csv('df0.csv')
print(df1)
image.png

image.png

3、數(shù)據(jù)過濾獲取

3.1 大概知識(shí)點(diǎn)介紹

1}诸尽、pandas中缺省值NaN的4種處理方法:1 isnull 2 notnull 3 dropna 4 fillna

2}椎例、df.dropna() 默認(rèn)丟棄只要包含nan數(shù)據(jù)的行 axis=1則是丟棄列 how='any'默認(rèn) 如果設(shè)置how='all'則表示全部為nan才丟棄

3}挨决、df.fillna() 默認(rèn)填充數(shù)據(jù),用法與df.dropna()參不多

3.2 dropna()的用法

# 2订歪、數(shù)據(jù)過濾
#2.1 dropna()的用法
dict0 = {
    '語文': [90, 80, 60],
    '數(shù)學(xué)': [99, 70, 89],
    '外語': [98, 10, 75],
    '物理': 90
}
df0 = pd.DataFrame(dict0)
df0['數(shù)學(xué)'][1] = np.nan

print("df0原數(shù)據(jù)===============================")
print(df0)

print("df0.dropna()===============================")
print(df0.dropna())       #默認(rèn)刪除有缺省值所在的行

print("df0.dropna(axis=1)===============================")
print(df0.dropna(axis=1)) #默認(rèn)刪除有缺省值所在的列

print("df0.dropna(how='all',axis=1)===============================")
df0.ix[1] = np.nan
print(df0.dropna(how='all')) #當(dāng)所有元素是缺省值的時(shí)候 才刪除

print("df0.dropna(how='any',axis=1)===============================")
df0['外語'][0] = np.nan
print(df0.dropna(how='any')) #當(dāng)所有元素有一個(gè)是缺省值的時(shí)候 才刪除
image.png

3.3 fillna() 的用法

# #2.2 fillna()的用法
df0 = pd.DataFrame(np.random.random((7, 3)))
df3 = df0
print('df0的原始數(shù)據(jù)=================================')
print(df0)

df0.ix[:4, 1] = np.nan
print('df0.ix[:4, 1] = np.nan 數(shù)據(jù)=================================')
print(df0)

print('df0.ix[:2, 2] = np.nan 數(shù)據(jù)=================================')
df0.ix[:2, 2] = np.nan
print(df0)

print('將所有的缺省的數(shù)據(jù)填充為1=================================')
print(df0.fillna(1))

print('將所有的缺省數(shù)據(jù)分別填充為1和2=================================')
print(df3.fillna({1: 1, 2: 2}))
image.png

image.png

3脖祈、Series與DataFrame數(shù)據(jù)去重的方法

unique方法用于獲取Series或DataFrame某列中的唯一值數(shù)組(去重?cái)?shù)據(jù)后的數(shù)組)
value_counts方法用于計(jì)算一個(gè)Series或DataFrame某列中各值的出現(xiàn)頻率
isin方法用于判斷矢量化集合的成員資格,是否在里面刷晋,可用于選取Series中或DataFrame列中數(shù)據(jù)的子集

3.1 Series
# 數(shù)據(jù)去重
s1 = pd.Series(['a', 'b', 'c', 'b', 'a'])
print("s1的原始數(shù)據(jù)==============================")
print(s1)

print("數(shù)據(jù)去重方法:s1.unique()==============================")
print(s1.unique())   #注意:s1.unique()返回的類型也是Series

print("單個(gè)值出現(xiàn)的個(gè)數(shù):s1.value_counts()['a']==============================")
print(s1.value_counts()['a'])

print("值是否存在的方法:s1.isin(['a', 'b'])==============================")
print(s1.isin(['a', 'b']))
image.png
3.2 DataFrame

···
df0 = pd.DataFrame(np.random.randint(10, 16, (3, 3)), columns=['張伊曼', '張巧玲', '張?jiān)娫?])
print("df0==============================")
print(df0)

print("df0.ix[0].unique()==============================")
print(df0.ix[0].unique())

print("df0['張伊曼'].unique()==============================")
print(df0['張伊曼'].unique())

print("df0['張伊曼'].value_counts()==============================")
print(df0['張伊曼'].value_counts())

print("df0.ix[0].value_counts()==============================")
print(df0.ix[0].value_counts())

print("df0['張伊曼'].isin([11])==============================")
print(df0['張伊曼'].isin([11]))
···


image.png

4盖高、pandas常用的數(shù)學(xué)統(tǒng)計(jì)方法

count 計(jì)算非NA值的數(shù)量
describe 針對(duì)Series或DataFrame列計(jì)算統(tǒng)計(jì)
min/max/sum 計(jì)算最小值 最大值 總和
argmin argmax 計(jì)算能夠獲取到最小值和最大值的索引位置(整數(shù))
idxmin idxmax 計(jì)算能夠獲取到最小值和最大值的索引值
quantile 計(jì)算樣本的分位數(shù)(0到1)
mean 值的平均數(shù)
median 值的中位數(shù)
mad 根據(jù)平均值計(jì)算平均絕對(duì)距離差
var 樣本數(shù)值的方差
std 樣本值的標(biāo)準(zhǔn)差
cumsum 樣本值的累計(jì)和
cummin cummax 樣本的累計(jì)最小值 最大值
cumprod 樣本值的累計(jì)積
pct_change 計(jì)算百分?jǐn)?shù)變化
相關(guān)系數(shù).corr() 以及 協(xié)方差cov()


image.png

基本示例:

df0 = pd.DataFrame(np.random.randint(1,10,(4, 3)))
print("df0===============================")
print(df0)

print("df0.describe()===============================")
print(df0.describe())

print("df0.median()===============================")
print(df0.median())

print("df0.var()===============================")
print(df0.var())

print("df0.std()===============================")
print(df0.std())

print("df0.corr()===============================")
print(df0.corr())

print("df0.cov()===============================")
print(df0.cov())

image.png
image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末慎陵,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子喻奥,更是在濱河造成了極大的恐慌席纽,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撞蚕,死亡現(xiàn)場(chǎng)離奇詭異润梯,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)甥厦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門纺铭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人刀疙,你說我怎么就攤上這事舶赔。” “怎么了庙洼?”我有些...
    開封第一講書人閱讀 157,852評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵顿痪,是天一觀的道長(zhǎng)镊辕。 經(jīng)常有香客問我油够,道長(zhǎng),這世上最難降的妖魔是什么征懈? 我笑而不...
    開封第一講書人閱讀 56,621評(píng)論 1 284
  • 正文 為了忘掉前任石咬,我火速辦了婚禮,結(jié)果婚禮上卖哎,老公的妹妹穿的比我還像新娘鬼悠。我一直安慰自己,他們只是感情好亏娜,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,741評(píng)論 6 386
  • 文/花漫 我一把揭開白布焕窝。 她就那樣靜靜地躺著,像睡著了一般维贺。 火紅的嫁衣襯著肌膚如雪它掂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,929評(píng)論 1 290
  • 那天溯泣,我揣著相機(jī)與錄音虐秋,去河邊找鬼。 笑死垃沦,一個(gè)胖子當(dāng)著我的面吹牛客给,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播肢簿,決...
    沈念sama閱讀 39,076評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼靶剑,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼蜻拨!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起桩引,我...
    開封第一講書人閱讀 37,803評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤官觅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后阐污,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體休涤,經(jīng)...
    沈念sama閱讀 44,265評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,582評(píng)論 2 327
  • 正文 我和宋清朗相戀三年笛辟,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了功氨。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,716評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡手幢,死狀恐怖捷凄,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情围来,我是刑警寧澤跺涤,帶...
    沈念sama閱讀 34,395評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站监透,受9級(jí)特大地震影響桶错,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜胀蛮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,039評(píng)論 3 316
  • 文/蒙蒙 一院刁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧粪狼,春花似錦退腥、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至困鸥,卻和暖如春嗅蔬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背窝革。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工购城, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人虐译。 一個(gè)月前我還...
    沈念sama閱讀 46,488評(píng)論 2 361
  • 正文 我出身青樓瘪板,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親漆诽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子侮攀,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,612評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容