前言
寫這篇文章的起由是有一天微信上一位朋友問到一個(gè)問題,問題大體意思概述如下:
現(xiàn)在有一個(gè)pandas的Series和一個(gè)python的list澄港,想讓Series按指定的list進(jìn)行排序侥猩,如何實(shí)現(xiàn)?
這個(gè)問題的需求用流程圖描述如下:
我思考了一下蜓竹,這個(gè)問題解決的核心是引入pandas的數(shù)據(jù)類型“category”蝶溶,從而進(jìn)行排序。
在具體的分析過程中赊时,先將pandas的Series轉(zhuǎn)換成為DataFrame伴郁,然后設(shè)置數(shù)據(jù)類型,再進(jìn)行排序蛋叼。思路用流程圖表示如下:
分析過程
- 引入pandas庫(kù)
import pandas as pd
- 構(gòu)造Series數(shù)據(jù)
s = pd.Series({'a':1,'b':2,'c':3})
s
a 1
b 2
c 3
dtype: int64
s.index
Index(['a', 'b', 'c'], dtype='object')
- 指定的list焊傅,后續(xù)按指定list的元素順序進(jìn)行排序
list_custom = ['b', 'a', 'c']
list_custom
['b', 'a', 'c']
- 將Series轉(zhuǎn)換成DataFrame
df = pd.DataFrame(s)
df = df.reset_index()
df.columns = ['words', 'number']
df
設(shè)置成“category”數(shù)據(jù)類型
# 設(shè)置成“category”數(shù)據(jù)類型
df['words'] = df['words'].astype('category')
# inplace = True,使 recorder_categories生效
df['words'].cat.reorder_categories(list_custom, inplace=True)
# inplace = True狈涮,使 df生效
df.sort_values('words', inplace=True)
df
指定list元素多的情況:
若指定的list所包含元素比Dataframe中需要排序的列的元素多狐胎,怎么辦?
- reorder_catgories()方法不能繼續(xù)使用歌馍,因?yàn)樵摲椒ㄊ褂脮r(shí)要求新的categories和dataframe中的categories的元素個(gè)數(shù)和內(nèi)容必須一致握巢,只是順序不同。
- 這種情況下松却,可以使用 set_categories()方法來(lái)實(shí)現(xiàn)暴浦。新的list可以比dataframe中元素多。
list_custom_new = ['d', 'c', 'b','a','e']
dict_new = {'e':1, 'b':2, 'c':3}
df_new = pd.DataFrame(list(dict_new.items()), columns=['words', 'value'])
print(list_custom_new)
df_new.sort_values('words', inplace=True)
df_new
['d', 'c', 'b', 'a', 'e']
df_new['words'] = df_new['words'].astype('category')
# inplace = True晓锻,使 set_categories生效
df_new['words'].cat.set_categories(list_custom_new, inplace=True)
df_new.sort_values('words', ascending=True)
指定list元素少的情況:
若指定的list所包含元素比Dataframe中需要排序的列的元素少歌焦,怎么辦?
- 這種情況下砚哆,set_categories()方法還是可以使用的独撇,只是沒有的元素會(huì)以NaN表示
注意下面的list中沒有元素“b”
list_custom_new = ['d', 'c','a','e']
dict_new = {'e':1, 'b':2, 'c':3}
df_new = pd.DataFrame(list(dict_new.items()), columns=['words', 'value'])
print(list_custom_new)
df_new.sort_values('words', inplace=True)
df_new
['d', 'c', 'a', 'e']
df_new['words'] = df_new['words'].astype('category')
# inplace = True,使 set_categories生效
df_new['words'].cat.set_categories(list_custom_new, inplace=True)
df_new.sort_values('words', ascending=True)
總結(jié)
根據(jù)指定的list所包含元素比Dataframe中需要排序的列的元素的多或少,可以分為三種情況:
- 相等的情況下纷铣,可以使用 reorder_categories和 set_categories方法卵史;
- list的元素比較多的情況下, 可以使用set_categories方法搜立;
- list的元素比較少的情況下以躯, 也可以使用set_categories方法,但list中沒有的元素會(huì)在DataFrame中以NaN表示啄踊。
源代碼
需要的童鞋可在微信公眾號(hào)“Python數(shù)據(jù)之道”(ID:PyDataRoad)后臺(tái)回復(fù)關(guān)鍵字獲取視頻忧设,關(guān)鍵字如下:
“2017-025”(不含引號(hào))