圖解Pandas的排名rank機制

圖解Pandas的排名rank機制

在我們的生活經(jīng)常會遇到各種排名問題:學生成績排名、銷售員業(yè)績排名绎谦、各種比賽排名等管闷。在之前一篇關于SQL的文章-《面試必備:SQL排名和窗口函數(shù)》中有提到過如何使用SQL來實現(xiàn)3種主要的排名方式:順序排名、跳躍排名和密集排名窃肠。

Pandas這個強大的數(shù)據(jù)分析庫也可以快速實現(xiàn)多種排名方式包个,主要是通過rank函數(shù)來解決的,本文將通過多個例子來講解冤留。

image

Rank參數(shù)

下面是rank函數(shù)的主要參數(shù)為:

DataFrame.rank(axis=0, 
               method='average', 
               numeric_only=None, 
               na_option='keep', 
               ascending=True, 
               pct=False)

參數(shù)的具體解釋為:

  • axis:表示排名是根據(jù)哪個軸碧囊,axis=0表示橫軸,axis=1表示縱軸
  • method:取值可以為'average'纤怒,'first'糯而,'min', 'max'肪跋,'dense'歧蒋;后面重點介紹土砂,默認是average
  • numeric_only:是否僅僅計算數(shù)字型的columns
  • na_optiaon:NaN值是否參與排名以及如何排名州既,取值為keep、top萝映、bottom
  • ascending:升序還是降序吴叶;默認是升序
  • pct:是否以排名的百分比顯示排名;所有排名和最大排名的百分比

本文將會講解rank函數(shù)在Series和DataFrame兩種數(shù)據(jù)類型的使用序臂。

Series排名

import pandas as pd
import numpy as np

首先我們模擬一份簡單的數(shù)據(jù):

image

參數(shù)method

1蚌卤、默認情況的排名method="average":

image

2、method="first"

根據(jù)值在原始數(shù)據(jù)中出現(xiàn)的順序進行排名奥秆,相同數(shù)值的排名依次加1:

image

解釋上面兩個結果:

  • first:直接根據(jù)數(shù)值的大小順序進行排名
  • average:表示的是逊彭,如果兩個數(shù)值相同,排名是它們的均值
image

我們看到first的使用就是數(shù)值的自然順序出現(xiàn)的排名构订;在使用average的情況解釋如下:

-5的排名是1.0侮叮,0的排名是2.0,3的排名是3.0悼瘾,5(3號索引位置)的排名是4.0囊榜,5(6號索引位置)的排名是5.0,8(0號索引位置)的排名是6.0亥宿,8(2號索引)的排名是7.0

通過average的使用卸勺,相同數(shù)值的排名rank會取出均值,5的排名統(tǒng)一成4.5烫扼,8的排名統(tǒng)一成6.5

3曙求、max和min的使用

[圖片上傳失敗...(image-d9f522-1625217642139)]

image

比如當:method= "max":如果數(shù)值相同,取該數(shù)值最大的那個排名。比如5最大的排名是5悟狱,所以原始數(shù)據(jù)中兩個5的排名都是5怎抛;兩個8的排名都是7(8的兩個排名是6和7,取大值7)

4芽淡、method="dense"

相同的數(shù)值排名相同马绝,下個數(shù)值的排名不出現(xiàn)跳躍

image

這個時候排名的時候是不會出現(xiàn)跳躍的情況

參數(shù)ascending

默認情況下是升序的情況,可以使用降序:值越大挣菲,排名越靠前:

image
image

數(shù)值中8的排名富稻,如果是method=“first”,排名是1和2白胀,如是使用average椭赋,排名則會變成1.5;其他的數(shù)值排名類似或杠。再看看max的情況:

image

參數(shù)pct

是否以排名的百分比顯示排名哪怔;所有排名和最大排名的百分比

image

上面的排名是如何計算出來的呢?我們最大的排名是7:

image
image

再比如dense情況下的pct參數(shù)使用類似:

image

參數(shù)na_option

這個參數(shù)表示的是空值是否參與排名向抢,取值為keep认境、top、bottom挟鸠。我們再模擬一份帶有空值的數(shù)據(jù):

image

看看3種不同的情況:

image
image
image

DataFrame排名

模擬數(shù)據(jù)

還是先模擬一份數(shù)據(jù):

df0 = pd.DataFrame({"科目":["語文","語文","語文","語文","語文","數(shù)學","數(shù)學","數(shù)學","數(shù)學","數(shù)學"],
                  "姓名":["小明","小蘇","小周","小孫","小王","小明","小蘇","小周","小孫","小王"],
                  "分數(shù)":[137,125,125,115,115,80,111,130,130,140]})

df = df0.copy()   # 生成一個副本df
df
image

單個科目排名

比如我們想看語文這門科目的排名情況叉信,取出同學們的語文成績:

image

分別使用順序排名、跳躍排名和密集排名來展示排名情況:

# 默認排名方式

df1["均值排名_默認"] = df1["分數(shù)"].rank(ascending=False)
df1["跳躍排名_min"] = df1["分數(shù)"].rank(method="min",ascending=False)
df1["跳躍_max"] = df1["分數(shù)"].rank(method="max",ascending=False)
df1["密集排名_dense"] = df1["分數(shù)"].rank(method="dense",ascending=False)

df1
image

同學總分排名

先通過transform生成每個同學的總分:

df["總分"] = df.groupby("姓名")["分數(shù)"].transform("sum")
df
image

我們使用密集排名的方式對總分進行排名:

image

分組取出指定排名

我們現(xiàn)在看到每個科目下的第二名的學生艘希,如果成績相同硼身,排名相同(不跳躍),我們使用密集排名:

# 定義一個排名第二的函數(shù)

def rank_second(x):
    return x[x["分數(shù)"].rank(method="dense",ascending=False) == 2]
image

我們看看真實數(shù)據(jù)中每個科目的第二名同學:

image

上面自定義的排名第二的函數(shù)分為兩步覆享;

1佳遂、先實現(xiàn)密集排名

image

2、指定排名等于2

image

當我們使用這個自定義函數(shù)的時候撒顿,我們需要先根據(jù)科目進行分組丑罪,然后再每個組中單獨使用這個自定義函數(shù),就能獲得每個科目下的第二名核蘸。

總結

講解完rank函數(shù)的使用巍糯,可以和SQL中的窗口函數(shù)進行類比:

  • row_number:順序排名,rank函數(shù)的中的method=first
  • rank:跳躍排名客扎,rank函數(shù)的中的method=min
  • dense_rank:密集排名祟峦,rank函數(shù)的中的method=dense
image

最后附上rank函數(shù)的官網(wǎng)學習地址,還得多看官網(wǎng):

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rank.html

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末徙鱼,一起剝皮案震驚了整個濱河市宅楞,隨后出現(xiàn)的幾起案子针姿,更是在濱河造成了極大的恐慌,老刑警劉巖厌衙,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件距淫,死亡現(xiàn)場離奇詭異,居然都是意外死亡婶希,警方通過查閱死者的電腦和手機榕暇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來喻杈,“玉大人彤枢,你說我怎么就攤上這事⊥彩危” “怎么了缴啡?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長瓷们。 經(jīng)常有香客問我业栅,道長,這世上最難降的妖魔是什么谬晕? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任碘裕,我火速辦了婚禮,結果婚禮上固蚤,老公的妹妹穿的比我還像新娘娘汞。我一直安慰自己,他們只是感情好夕玩,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著惊豺,像睡著了一般燎孟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上尸昧,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天揩页,我揣著相機與錄音,去河邊找鬼烹俗。 笑死爆侣,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的幢妄。 我是一名探鬼主播兔仰,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蕉鸳!你這毒婦竟也來了乎赴?” 一聲冷哼從身側(cè)響起忍法,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎榕吼,沒想到半個月后饿序,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡羹蚣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年原探,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片顽素。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡踢匣,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出戈抄,到底是詐尸還是另有隱情离唬,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布划鸽,位于F島的核電站输莺,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏裸诽。R本人自食惡果不足惜嫂用,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望丈冬。 院中可真熱鬧嘱函,春花似錦、人聲如沸埂蕊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蓄氧。三九已至函似,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間喉童,已是汗流浹背撇寞。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留堂氯,地道東北人蔑担。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像咽白,于是被迫代替她去往敵國和親啤握。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容