pd.cut()數(shù)據(jù)分組:根據(jù)數(shù)據(jù)分析對象的特征侣集,按照一定的數(shù)值指標(biāo),把數(shù)據(jù)分析對象劃分為不同的區(qū)間部分來進行研究兰绣,以揭示其內(nèi)在的聯(lián)系和規(guī)律性世分。
函數(shù)用法:
pd.cut( series, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', )
參數(shù)解釋:
bins :整數(shù),標(biāo)量序列或者間隔索引缀辩,是進行分組的依據(jù)臭埋,
如果填入整數(shù)n,則表示將x中的數(shù)值分成等寬的n份臀玄;
如果是標(biāo)量序列(比如瓢阴,[0,30,40,70]),序列中的數(shù)值表示用來分檔的分界值
right=True表示分組右邊閉合镐牺,right=False表示分組左邊閉合炫掐,
labels表示分組的自定義標(biāo)簽。
labels : 數(shù)組或布爾值睬涧,可選.指定分箱的標(biāo)簽
如果是數(shù)組募胃,長度要與分箱個數(shù)一致,比如“ bins”=[1畦浓、2痹束、3、4]表示(1,2]讶请,(2,3],(3,4]一共3個區(qū)間祷嘶,則labels的長度也就是標(biāo)簽的個數(shù)也要是3
如果為False,則僅返回分箱的整數(shù)指示符夺溢,即x中的數(shù)據(jù)在第幾個箱子里
retbins: 是否顯示分箱的分界值论巍。默認為False,當(dāng)bins取整數(shù)時可以設(shè)置retbins=True以顯示分界值风响,得到劃分后的區(qū)間
precision:整數(shù)嘉汰,默認3,存儲和顯示分箱標(biāo)簽的精度状勤。
include_lowest:布爾值鞋怀,表示區(qū)間的左邊是開還是閉双泪,默認為false,也就是不包含區(qū)間左邊密似。
duplicates:如果分箱臨界值不唯一焙矛,則引發(fā)ValueError或丟棄非唯一