pandas 數(shù)據(jù)處理

一. 刪除重復(fù)元素
二. 映射
三. 數(shù)據(jù)分析
四. 異常值檢測和過濾
五. 數(shù)據(jù)聚合

一. 刪除重復(fù)元素

duplicated()：檢測數(shù)據(jù)重復(fù)行，返回series谴仙，若為不是第一次出現(xiàn)則為 True 含蓉，否則為 False
drop_duplicates() : 刪除重復(fù)行
列名不能重復(fù)其障，否則報錯霉撵；

df = pd.DataFrame(np.random.randint(0,2,size=(4,2)),
                   index=['張','李','王','張'],
                   columns=['js','python'])
print(df)
#    js  python
# 張   1       1
# 李   0       0
# 王   0       0
# 張   0       1

print(df.duplicated())
# 張    False
# 李    False
# 王     True
# 張    False
# dtype: bool

print(df.drop_duplicates())
#    js  python
# 張   1       1
# 李   0       0
# 張   0       1

print(df.drop_duplicates('js'))
#    js  python
# 張   1       1
# 李   0       0

二. 映射

1. replace()：替換符合條件的值

參數(shù)：

to_replace：{‘替換的原數(shù)據(jù)’：‘替換的目標(biāo)數(shù)據(jù)’}
value ：替換的目標(biāo)數(shù)據(jù)舟肉，多個數(shù)據(jù)替換為同一個時可采用
inplace
limit：向前向后填充的最大限度
regex: 正則表達
method: ‘pad’, ‘ffill’, ‘bfill’, None 向前向后填充

df = pd.DataFrame(np.random.randint(0,2,size=(4,2)),
                   index=['張','李','王','張'],
                   columns=['js','python'])

print(df)
#    js  python
# 張   1       0
# 李   0       1
# 王   1       1
# 張   0       1

print(df.replace(to_replace=1,value=100))
#     js  python
# 張  100       0
# 李    0     100
# 王  100     100
# 張    0     100

print(df.replace({0:000,1:111}))
#     js  python
# 張  111       0
# 李    0     111
# 王  111     111
# 張    0     111

2. map()：

map方法可以根據(jù)條件修改當(dāng)前列包竹，還可以映射新一列數(shù)據(jù)
map可以使用方法和lambda表達式,不能使用sum之類的函數(shù)
可以新建一列

df = pd.DataFrame(np.random.randint(0,2,size=(4,2)),
                   index=['張','李','王','張'],
                   columns=['js','python'])
print(df)
#    js  python
# 張   0       0
# 李   0       1
# 王   0       0
# 張   0       1

df['python'] = df['js'].map(lambda x:x+3)
print(df)
#    js  python
# 張   0       3
# 李   0       3
# 王   0       3
# 張   0       3

def judge(item):
    if(item>=1):
        return 'sucess'
    else: return 'fail'
df['python'] = df['js'].map(judge)
print(df)
#    js python
# 張   0   fail
# 李   0   fail
# 王   0   fail
# 張   0   fail

# 新增一列
df['c++'] = df['js'].map(lambda x:x+1)
print(df)
#    js python  c++
# 張   0   fail    1
# 李   0   fail    1
# 王   0   fail    1
# 張   0   fail    1

3. transform()：與map類似燕酷，根據(jù)某種規(guī)則算法，進行批量修改

4. rename()：替換索引

df = pd.DataFrame(np.random.randint(0,2,size=(4,2)),
                   index=['張','李','王','張'],
                   columns=['js','python'])
col = {'js':'c++'}
print(df.rename(columns=col))
#    c++  python
# 張    1       1
# 李    1       0
# 王    1       0
# 張    1       1

三. 數(shù)據(jù)分析

descibe() 函數(shù)

包含計數(shù)周瞎，平均值苗缩，最大最小值，標(biāo)準(zhǔn)方差

df = pd.DataFrame(np.random.randint(0,100,size=(3,2)),
                   index=['張','李','王'],
                   columns=['js','python'])
print(df)
#    js  python
# 張  78       4
# 李  79      84
# 王  34      37
print(df.describe())
#               js     python
# count   3.000000   3.000000   ---計數(shù)
# mean   63.666667  41.666667   ---平均值
# std    25.696952  40.203648   ---標(biāo)準(zhǔn)方差
# min    34.000000   4.000000
# 25%    56.000000  20.500000
# 50%    78.000000  37.000000
# 75%    78.500000  60.500000
# max    79.000000  84.000000

print(df.max())
# js        34
# python    26
# dtype: int32

print(df.max().js)
# 34

四. 異常值檢測和過濾

df = pd.DataFrame(np.random.randint(0,100,size=(3,2)),
                 index=['張','李','王'],
                 columns=['js','python'])
print(df)
 js  python
# 張   9      26
# 李  39      39
# 王  92      66

print(df.std(axis=1))
# 張    12.020815
# 李     0.000000
# 王    18.384776
# dtype: float64

df1 = np.abs(df)>df.std()*3
df2 = df1.any(axis = 1)
print(df2)
# 張    False
# 李    False
# 王     True
# dtype: bool

print(df[df2])
#    js  python
# 王  92      66

df1 = np.abs(df)>df.std()*3 此句為本例異常檢測的標(biāo)準(zhǔn)（其值大于標(biāo)準(zhǔn)方差的3倍）
檢測結(jié)果：’王‘ 的成績異常

五. 數(shù)據(jù)聚合

DataFrame.groupby()
實例：
對 item 列進行分組声诸，求取分組下各列的最大值

df = pd.DataFrame({'item':['apple','bananla','orange','apple','bananla'],
                   'price':[10,20,30,40,50],
                   'number':[30,20,10,5,0]})
print(df)
#       item  price  number
# 0    apple     10      30
# 1  bananla     20      20
# 2   orange     30      10
# 3    apple     40       5
# 4  bananla     50       0

g = df.groupby('item')
print(g.max())
#          price  number
# item
# apple       40      30
# bananla     50      20

獲取 item 分組下的 price 的平均值酱讶，返回為 series

print(g['price'].mean())
# item
# apple      25
# bananla    35
# orange     30
# Name: price, dtype: int64

將 price 的平均值合并到原來的 dataframe中

price_mean = g['price'].mean()
price_mean = pd.DataFrame(price_mean)
price_mean.columns = ['price_mean']

print(pd.merge(df,price_mean,left_on='item',right_index=True))
#       item  price  number  price_mean
# 0    apple     10      30          25
# 3    apple     40       5          25
# 1  bananla     20      20          35
# 4  bananla     50       0          35
# 2   orange     30      10          30

最后編輯于：2020.04.02 14:10:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市彼乌，隨后出現(xiàn)的幾起案子泻肯，更是在濱河造成了極大的恐慌，老刑警劉巖慰照，帶你破解...
沈念sama閱讀 217,734評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件灶挟，死亡現(xiàn)場離奇詭異，居然都是意外死亡毒租，警方通過查閱死者的電腦和手機稚铣，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人惕医，你說我怎么就攤上這事耕漱。” “怎么了抬伺？”我有些...
開封第一講書人閱讀 164,133評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵螟够，是天一觀的道長。經(jīng)常有香客問我峡钓，道長妓笙，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,532評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任椒楣，我火速辦了婚禮给郊，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘捧灰。我一直安慰自己淆九，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,585評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布毛俏。她就那樣靜靜地躺著炭庙，像睡著了一般。火紅的嫁衣襯著肌膚如雪煌寇。梳的紋絲不亂的頭發(fā)上焕蹄，一...
開封第一講書人閱讀 51,462評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音阀溶，去河邊找鬼腻脏。笑死，一個胖子當(dāng)著我的面吹牛银锻，可吹牛的內(nèi)容都是我干的永品。我是一名探鬼主播，決...
沈念sama閱讀 40,262評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼击纬，長吁一口氣：“原來是場噩夢啊……” “哼鼎姐！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起更振，我...
開封第一講書人閱讀 39,153評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤炕桨，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后肯腕，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體献宫，經(jīng)...
沈念sama閱讀 45,587評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,792評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年实撒，在試婚紗的時候發(fā)現(xiàn)自己被綠了遵蚜。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片帖池。...
茶點故事閱讀 39,919評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖吭净，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情肴甸，我是刑警寧澤寂殉，帶...
沈念sama閱讀 35,635評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站原在，受9級特大地震影響友扰，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜庶柿，卻給世界環(huán)境...
茶點故事閱讀 41,237評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一村怪、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧浮庐，春花似錦甚负、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,855評論 0贊 22
一樁弒父案梭域，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至搅轿，卻和暖如春病涨，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背璧坟。一陣腳步聲響...
開封第一講書人閱讀 32,983評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工既穆，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人雀鹃。一個月前我還...
沈念sama閱讀 48,048評論 3贊 370
代替公主和親
正文我出身青樓幻工，卻偏偏與公主長得像，于是被迫代替她去往敵國和親褐澎。傳聞我的和親對象是個殘疾皇子会钝，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,864評論 2贊 354