這章學(xué)的是分類。
cat對(duì)象
通過cat對(duì)象的categories屬性能夠完成對(duì)類別的查詢跷跪。
有序分類
有序類別和無序類別可以通過 as_unordered 和 reorder_categories 互相轉(zhuǎn)化馋嗜。
只需把列的類型修改為 category 后,再賦予相應(yīng)的大小關(guān)系吵瞻,就能正常地使用 sort_index 和 sort_values 葛菇。
區(qū)間序列通過cut和qcut構(gòu)造。
練習(xí)
Ex1
這道題沒有太弄懂橡羞,照著答案打了一遍眯停。
Ex2
-
分別對(duì) df.cut 在 object 類型和 category 類型下使用 nunique 函數(shù),并比較它們的性能卿泽。
通過對(duì)比可以發(fā)現(xiàn)莺债,category完勝。
-
鉆石的切割質(zhì)量可以分為五個(gè)等級(jí)又厉,由次到好分別是 Fair, Good, Very Good, Premium, Ideal 九府,純凈度有八個(gè)等級(jí),由次到好分別是 I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF 覆致,請對(duì)切割質(zhì)量按照 由好到次 的順序排序侄旬,相同切割質(zhì)量的鉆石,按照純凈度進(jìn)行 由次到好 的排序煌妈。
分別對(duì)cut,clarity分為5個(gè)等級(jí)和8個(gè)等級(jí)儡羔。再重排序宣羊。
-
分別采用兩種不同的方法,把 cut, clarity 這兩列按照 由好到次 的順序汰蜘,映射到從0到n-1的整數(shù)仇冯,其中n表示類別的個(gè)數(shù)。
用category的codes替換族操。使用replace替換也可苛坚。
-
對(duì)每克拉的價(jià)格按照分別按照分位數(shù)(q=[0.2, 0.4, 0.6, 0.8])與[1000, 3500, 5500, 18000]割點(diǎn)進(jìn)行分箱得到五個(gè)類別 Very Low, Low, Mid, High, Very High ,并把按這兩種分箱方法得到的 category 序列依次添加到原表中色难。
將每克拉價(jià)格作為分箱序列bins泼舱,用cut傳入bins,再添加labels重命名。
-
第4問中按照整數(shù)分箱得到的序列中枷莉,是否出現(xiàn)了所有的類別娇昙?如果存在沒有出現(xiàn)的類別請把該類別刪除。