關(guān)于數(shù)據(jù)五等分

STATA

1箱熬、egen命令+cut()函數(shù)

這種分割方法沽瞭，是對感興趣的變量的取值進行排序，然后變量的實際取值五等分海雪。

 // 收入五等分
egen income2=cut(income), group(5)
 tab income2
// 查看五等分后的均值分布
mean income, over(income2)

income2	Freq.	Percent	Cum.
0	1,947	19.64	19.64
1	1,586	16	35.65
2	1,754	17.7	53.34
3	2,566	25.89	79.24
4	2,058	20.76	100
Total	9,911	100

	Over	Mean	Std. Err.	[95% Conf.	Interval]
income
	0	645.1798	19.65844	606.6452	683.7143
	1	5340.14	46.23396	5249.512	5430.768
	2	13028.83	71.89518	12887.9	13169.76
	3	25492.33	93.73953	25308.58	25676.08
	4	67655.16	1357.951	64993.3	70317.02

2土匀、gen命令+group()函數(shù)

這種分割方法是根據(jù)感興趣的變量取值排序子房，然后對樣本五等分。

//根據(jù)收入進行排序就轧，然后對數(shù)據(jù)集五等分证杭。
sort income
gen income3=group(5)
tab income3
mean income, over(income3)

income3	Freq.	Percent	Cum.
1	1,983	20.01	20.01
2	1,982	20	40.01
3	1,982	20	60
4	1,982	20	80
5	1,982	20	100
Total	9,911	100

	Over	Mean	Std. Err.	[95% Conf.	Interval]
income
	1	687.9299	20.55276	647.6423	728.2175
	2	6398.316	56.05585	6288.435	6508.197
	3	16010.37	81.97568	15849.68	16171.06
	4	27724.18	96.34285	27535.33	27913.03
	5	68868.98	1402.875	66119.06	71618.9

R

cut()函數(shù)

# 利用cut()函數(shù)進行切割，生成新的因子變量income2
> cgss2 <- cgss %>% 
+ mutate(income2=cut(income, breaks=5))
# 分組求均值
> avg_income2 <- cgss2 %>%
+ group_by(income2) %>%
+ summarise(avg=mean(income))
> avg_income2

	income2	avg
1	(-1e+03,2e+05]	22143.
2	(2e+05,4e+05]	315116.
3	(4e+05,6e+05]	525000
4	(6e+05,8e+05]	750000
5	(8e+05,1e+06]	1000000

這個結(jié)果和STATA的結(jié)果差別很大妒御，主要是由于R的cut()函數(shù)是先設(shè)定最大值和最小值解愤，然后對取值區(qū)間進行五等分。
即携丁，上例中的cut(income, breaks=5)相當于
cut(income, breaks=c(0, 200000,400000,600000,800000, 1000000))

參見下面的例子，尤其是等效的hist()函數(shù)兰怠。

> Z <- stats::rnorm(10000)
> table(cut(Z, breaks = -6:6))

(-6,-5] (-5,-4] (-4,-3] (-3,-2] (-2,-1]  (-1,0]   (0,1]   (1,2]   (2,3]   (3,4]   (4,5]   (5,6] 
      0       2       7     220    1335    3510    3356    1335     225      10       0       0 

> table(cut(cgss$income, breaks=5))

(-1e+03,2e+05]  (2e+05,4e+05]  (4e+05,6e+05]  (6e+05,8e+05]  (8e+05,1e+06] 
          9860             43              4              3              1 

> hist(cgss$income, breaks=5, plot=F)
$breaks
[1] 0e+00 2e+05 4e+05 6e+05 8e+05 1e+06

$counts
[1] 9860   43    4    3    1

$density
[1] 4.974271e-06 2.169307e-08 2.017960e-09 1.513470e-09 5.044900e-10

$mids
[1] 1e+05 3e+05 5e+05 7e+05 9e+05

$xname
[1] "cgss$income"

$equidist
[1] TRUE

attr(,"class")
[1] "histogram"

很明顯梦鉴，cut()函數(shù)是無法滿足很多情況下的五等分的切割需求的。
dplyr包中的case_when()函數(shù)揭保，是類似if_else條件判斷來分組肥橙，仍需要事先知道切割點。
如果知道五等分點秸侣，不用這些函數(shù)存筏，也可以很好地切割。
目前沒有找到更好的更好用的R函數(shù)味榛。

最后編輯于：2022.09.30 20:26:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末椭坚，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子搏色，更是在濱河造成了極大的恐慌善茎，老刑警劉巖，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件频轿，死亡現(xiàn)場離奇詭異垂涯，居然都是意外死亡，警方通過查閱死者的電腦和手機航邢，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門耕赘，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人膳殷，你說我怎么就攤上這事操骡。” “怎么了？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵当娱，是天一觀的道長吃既。經(jīng)常有香客問我，道長跨细，這世上最難降的妖魔是什么鹦倚？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮冀惭，結(jié)果婚禮上震叙，老公的妹妹穿的比我還像新娘。我一直安慰自己散休，他們只是感情好媒楼，可當我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著戚丸，像睡著了一般划址。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上限府，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天夺颤，我揣著相機與錄音，去河邊找鬼胁勺。笑死世澜，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的署穗。我是一名探鬼主播寥裂，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼案疲！你這毒婦竟也來了封恰？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤褐啡，失蹤者是張志新（化名）和其女友劉穎俭驮，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體春贸，經(jīng)...
沈念sama閱讀 45,775評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡混萝，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了萍恕。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逸嘀。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖允粤，靈堂內(nèi)的尸體忽然破棺而出崭倘，到底是詐尸還是另有隱情翼岁，我是刑警寧澤，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布司光，位于F島的核電站琅坡，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏残家。R本人自食惡果不足惜榆俺，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望坞淮。院中可真熱鬧茴晋，春花似錦、人聲如沸回窘。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽啡直。三九已至烁涌，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間酒觅，已是汗流浹背撮执。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留阐滩，地道東北人二打。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓县忌，卻偏偏與公主長得像掂榔，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子症杏，可洞房花燭夜當晚...
茶點故事閱讀 45,037評論 2贊 355

關(guān)于數(shù)據(jù)五等分

STATA

1箱熬、egen命令+cut()函數(shù)

2土匀、gen命令+group()函數(shù)

R

cut()函數(shù)

推薦閱讀更多精彩內(nèi)容