關(guān)于數(shù)據(jù)五等分

STATA

1箱熬、egen命令+cut()函數(shù)

這種分割方法沽瞭,是對感興趣的變量的取值進行排序,然后變量的實際取值五等分海雪。

 // 收入五等分
egen income2=cut(income), group(5)
 tab income2
// 查看五等分后的均值分布
mean income, over(income2)
income2 Freq. Percent Cum.
0 1,947 19.64 19.64
1 1,586 16 35.65
2 1,754 17.7 53.34
3 2,566 25.89 79.24
4 2,058 20.76 100
Total 9,911 100
Over Mean Std. Err. [95% Conf. Interval]
income
0 645.1798 19.65844 606.6452 683.7143
1 5340.14 46.23396 5249.512 5430.768
2 13028.83 71.89518 12887.9 13169.76
3 25492.33 93.73953 25308.58 25676.08
4 67655.16 1357.951 64993.3 70317.02

2土匀、gen命令+group()函數(shù)

這種分割方法是根據(jù)感興趣的變量取值排序子房,然后對樣本五等分。

//根據(jù)收入進行排序就轧,然后對數(shù)據(jù)集五等分证杭。
sort income
gen income3=group(5)
tab income3
mean income, over(income3)
income3 Freq. Percent Cum.
1 1,983 20.01 20.01
2 1,982 20 40.01
3 1,982 20 60
4 1,982 20 80
5 1,982 20 100
Total 9,911 100
Over Mean Std. Err. [95% Conf. Interval]
income
1 687.9299 20.55276 647.6423 728.2175
2 6398.316 56.05585 6288.435 6508.197
3 16010.37 81.97568 15849.68 16171.06
4 27724.18 96.34285 27535.33 27913.03
5 68868.98 1402.875 66119.06 71618.9

R

cut()函數(shù)

# 利用cut()函數(shù)進行切割,生成新的因子變量income2
> cgss2 <- cgss %>% 
+ mutate(income2=cut(income, breaks=5))
# 分組求均值
> avg_income2 <- cgss2 %>%
+ group_by(income2) %>%
+ summarise(avg=mean(income))
> avg_income2
income2 avg
1 (-1e+03,2e+05] 22143.
2 (2e+05,4e+05] 315116.
3 (4e+05,6e+05] 525000
4 (6e+05,8e+05] 750000
5 (8e+05,1e+06] 1000000

這個結(jié)果和STATA的結(jié)果差別很大妒御,主要是由于R的cut()函數(shù)是先設(shè)定最大值和最小值解愤,然后對取值區(qū)間進行五等分。
即携丁,上例中的cut(income, breaks=5)相當于
cut(income, breaks=c(0, 200000,400000,600000,800000, 1000000))

參見下面的例子,尤其是等效的hist()函數(shù)兰怠。

> Z <- stats::rnorm(10000)
> table(cut(Z, breaks = -6:6))

(-6,-5] (-5,-4] (-4,-3] (-3,-2] (-2,-1]  (-1,0]   (0,1]   (1,2]   (2,3]   (3,4]   (4,5]   (5,6] 
      0       2       7     220    1335    3510    3356    1335     225      10       0       0 

> table(cut(cgss$income, breaks=5))

(-1e+03,2e+05]  (2e+05,4e+05]  (4e+05,6e+05]  (6e+05,8e+05]  (8e+05,1e+06] 
          9860             43              4              3              1 

> hist(cgss$income, breaks=5, plot=F)
$breaks
[1] 0e+00 2e+05 4e+05 6e+05 8e+05 1e+06

$counts
[1] 9860   43    4    3    1

$density
[1] 4.974271e-06 2.169307e-08 2.017960e-09 1.513470e-09 5.044900e-10

$mids
[1] 1e+05 3e+05 5e+05 7e+05 9e+05

$xname
[1] "cgss$income"

$equidist
[1] TRUE

attr(,"class")
[1] "histogram"

很明顯梦鉴,cut()函數(shù)是無法滿足很多情況下的五等分的切割需求的。
dplyr包中的case_when()函數(shù)揭保,是類似if_else條件判斷來分組肥橙,仍需要事先知道切割點。
如果知道五等分點秸侣,不用這些函數(shù)存筏,也可以很好地切割。
目前沒有找到更好的更好用的R函數(shù)味榛。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末椭坚,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子搏色,更是在濱河造成了極大的恐慌善茎,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件频轿,死亡現(xiàn)場離奇詭異垂涯,居然都是意外死亡,警方通過查閱死者的電腦和手機航邢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門耕赘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人膳殷,你說我怎么就攤上這事操骡。” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵当娱,是天一觀的道長吃既。 經(jīng)常有香客問我,道長跨细,這世上最難降的妖魔是什么鹦倚? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮冀惭,結(jié)果婚禮上震叙,老公的妹妹穿的比我還像新娘。我一直安慰自己散休,他們只是感情好媒楼,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著戚丸,像睡著了一般划址。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上限府,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天夺颤,我揣著相機與錄音,去河邊找鬼胁勺。 笑死世澜,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的署穗。 我是一名探鬼主播寥裂,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼案疲!你這毒婦竟也來了封恰?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤褐啡,失蹤者是張志新(化名)和其女友劉穎俭驮,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體春贸,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡混萝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了萍恕。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逸嘀。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖允粤,靈堂內(nèi)的尸體忽然破棺而出崭倘,到底是詐尸還是另有隱情翼岁,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布司光,位于F島的核電站琅坡,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏残家。R本人自食惡果不足惜榆俺,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望坞淮。 院中可真熱鬧茴晋,春花似錦、人聲如沸回窘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽啡直。三九已至烁涌,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間酒觅,已是汗流浹背撮执。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留阐滩,地道東北人二打。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓县忌,卻偏偏與公主長得像掂榔,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子症杏,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容