圖解Pandas的排名rank機制
在我們的生活經(jīng)常會遇到各種排名問題:學生成績排名、銷售員業(yè)績排名绎谦、各種比賽排名等管闷。在之前一篇關于SQL的文章-《面試必備:SQL排名和窗口函數(shù)》中有提到過如何使用SQL來實現(xiàn)3種主要的排名方式:順序排名、跳躍排名和密集排名窃肠。
Pandas這個強大的數(shù)據(jù)分析庫也可以快速實現(xiàn)多種排名方式包个,主要是通過rank函數(shù)來解決的,本文將通過多個例子來講解冤留。
Rank參數(shù)
下面是rank函數(shù)的主要參數(shù)為:
DataFrame.rank(axis=0,
method='average',
numeric_only=None,
na_option='keep',
ascending=True,
pct=False)
參數(shù)的具體解釋為:
- axis:表示排名是根據(jù)哪個軸碧囊,axis=0表示橫軸,axis=1表示縱軸
- method:取值可以為'average'纤怒,'first'糯而,'min', 'max'肪跋,'dense'歧蒋;后面重點介紹土砂,默認是average
- numeric_only:是否僅僅計算數(shù)字型的columns
- na_optiaon:NaN值是否參與排名以及如何排名州既,取值為keep、top萝映、bottom
- ascending:升序還是降序吴叶;默認是升序
- pct:是否以排名的百分比顯示排名;所有排名和最大排名的百分比
本文將會講解rank函數(shù)在Series和DataFrame兩種數(shù)據(jù)類型的使用序臂。
Series排名
import pandas as pd
import numpy as np
首先我們模擬一份簡單的數(shù)據(jù):
參數(shù)method
1蚌卤、默認情況的排名method="average":
2、method="first"
根據(jù)值在原始數(shù)據(jù)中出現(xiàn)的順序進行排名奥秆,相同數(shù)值的排名依次加1:
解釋上面兩個結果:
- first:直接根據(jù)數(shù)值的大小順序進行排名
- average:表示的是逊彭,如果兩個數(shù)值相同,排名是它們的均值
我們看到first的使用就是數(shù)值的自然順序出現(xiàn)的排名构订;在使用average的情況解釋如下:
-5的排名是1.0侮叮,0的排名是2.0,3的排名是3.0悼瘾,5(3號索引位置)的排名是4.0囊榜,5(6號索引位置)的排名是5.0,8(0號索引位置)的排名是6.0亥宿,8(2號索引)的排名是7.0
通過average的使用卸勺,相同數(shù)值的排名rank會取出均值,5的排名統(tǒng)一成4.5烫扼,8的排名統(tǒng)一成6.5
3曙求、max和min的使用
[圖片上傳失敗...(image-d9f522-1625217642139)]
比如當:method= "max":如果數(shù)值相同,取該數(shù)值最大的那個排名。比如5最大的排名是5悟狱,所以原始數(shù)據(jù)中兩個5的排名都是5怎抛;兩個8的排名都是7(8的兩個排名是6和7,取大值7)
4芽淡、method="dense"
相同的數(shù)值排名相同马绝,下個數(shù)值的排名不出現(xiàn)跳躍
這個時候排名的時候是不會出現(xiàn)跳躍的情況
參數(shù)ascending
默認情況下是升序的情況,可以使用降序:值越大挣菲,排名越靠前:
數(shù)值中8的排名富稻,如果是method=“first”,排名是1和2白胀,如是使用average椭赋,排名則會變成1.5;其他的數(shù)值排名類似或杠。再看看max的情況:
參數(shù)pct
是否以排名的百分比顯示排名哪怔;所有排名和最大排名的百分比
上面的排名是如何計算出來的呢?我們最大的排名是7:
再比如dense情況下的pct參數(shù)使用類似:
參數(shù)na_option
這個參數(shù)表示的是空值是否參與排名向抢,取值為keep认境、top、bottom挟鸠。我們再模擬一份帶有空值的數(shù)據(jù):
看看3種不同的情況:
DataFrame排名
模擬數(shù)據(jù)
還是先模擬一份數(shù)據(jù):
df0 = pd.DataFrame({"科目":["語文","語文","語文","語文","語文","數(shù)學","數(shù)學","數(shù)學","數(shù)學","數(shù)學"],
"姓名":["小明","小蘇","小周","小孫","小王","小明","小蘇","小周","小孫","小王"],
"分數(shù)":[137,125,125,115,115,80,111,130,130,140]})
df = df0.copy() # 生成一個副本df
df
單個科目排名
比如我們想看語文這門科目的排名情況叉信,取出同學們的語文成績:
分別使用順序排名、跳躍排名和密集排名來展示排名情況:
# 默認排名方式
df1["均值排名_默認"] = df1["分數(shù)"].rank(ascending=False)
df1["跳躍排名_min"] = df1["分數(shù)"].rank(method="min",ascending=False)
df1["跳躍_max"] = df1["分數(shù)"].rank(method="max",ascending=False)
df1["密集排名_dense"] = df1["分數(shù)"].rank(method="dense",ascending=False)
df1
同學總分排名
先通過transform生成每個同學的總分:
df["總分"] = df.groupby("姓名")["分數(shù)"].transform("sum")
df
我們使用密集排名的方式對總分進行排名:
分組取出指定排名
我們現(xiàn)在看到每個科目下的第二名的學生艘希,如果成績相同硼身,排名相同(不跳躍),我們使用密集排名:
# 定義一個排名第二的函數(shù)
def rank_second(x):
return x[x["分數(shù)"].rank(method="dense",ascending=False) == 2]
我們看看真實數(shù)據(jù)中每個科目的第二名同學:
上面自定義的排名第二的函數(shù)分為兩步覆享;
1佳遂、先實現(xiàn)密集排名
2、指定排名等于2
當我們使用這個自定義函數(shù)的時候撒顿,我們需要先根據(jù)科目進行分組丑罪,然后再每個組中單獨使用這個自定義函數(shù),就能獲得每個科目下的第二名核蘸。
總結
講解完rank函數(shù)的使用巍糯,可以和SQL中的窗口函數(shù)進行類比:
- row_number:順序排名,rank函數(shù)的中的method=first
- rank:跳躍排名客扎,rank函數(shù)的中的method=min
- dense_rank:密集排名祟峦,rank函數(shù)的中的method=dense
最后附上rank函數(shù)的官網(wǎng)學習地址,還得多看官網(wǎng):
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rank.html