stata命令介紹collapse :分組統(tǒng)計(jì)數(shù)據(jù)

含義描述

collapse 將變量數(shù)據(jù)轉(zhuǎn)換為均值蛇券、和、中位數(shù)等等猪杭。clist 必須為數(shù)字變量餐塘。

語法與選項(xiàng)

  collapse clist [if] [in] [weight] [, options]

where clist is either

    [(stat)] varlist [ [(stat)] ... ]
    [(stat)] target_var=varname [target_var=varname ...] [ [(stat)] ...]

or any combination of the varlist or target_var forms, and stat is one of

    mean         means (default)    //默認(rèn)為均值
    median       medians         //中位數(shù)
    p1           1st percentile
    p2           2nd percentile
    ...          3rd-49th percentiles
    p50          50th percentile (same as median)    //第50分位點(diǎn)
    ...          51st-97th percentiles
    p98          98th percentile
    p99          99th percentile
    sd           standard deviations   //標(biāo)準(zhǔn)差
    semean       standard error of the mean (sd/sqrt(n))   //平均值的標(biāo)準(zhǔn)誤
    sebinomial   standard error of the mean, binomial (sqrt(p(1-p)/n)) 
    sepoisson    standard error of the mean, Poisson (sqrt(mean))
    sum          sums       //求和                                                                                   
    rawsum       sums, ignoring optionally specified weight except observations with a weight of zero are excluded
    count        number of nonmissing observations   //非缺失觀測數(shù)
    percent      percentage of nonmissing observations   //非缺失觀測數(shù)百分比
    max          maximums              //最大值
    min          minimums              //最小值
    iqr          interquartile range   //四分位范圍
    first        first value               // 第一個(gè)值
    last         last value             //最后一個(gè)值
    firstnm      first nonmissing value    //第一個(gè)非缺失值
    lastnm       last nonmissing value   //最后一個(gè)非缺失值

如果未指定stat,則假定為平均值皂吮。  means (default)
選項(xiàng) 功能
by(varlist) 用來按某變量分類計(jì)算統(tǒng)計(jì)量的值唠倦。可以是一個(gè)涮较,也可以是多個(gè)稠鼻。
cw 刪除含有缺失值的觀測值。
fast) 如果用戶按Break鍵狂票,則不要還原原始數(shù)據(jù)集候齿;編程時(shí)用的命令,一般人不使用闺属,可以忽視慌盯。

例子

 use https://www.stata-press.com/data/r16/college,clear
 list, sep(4)
圖1

統(tǒng)計(jì)出每個(gè)年級(jí)的平均績點(diǎn)(gap)

collapse (mean) gpa , by(year) 
list
圖2

統(tǒng)計(jì)出每個(gè)年級(jí)的平均績點(diǎn)(gap),并命名為mean_gpa

use https://www.stata-press.com/data/r16/college,clear
collapse (mean) mean_gpa=gpa, by(year)
list 
圖3

統(tǒng)計(jì)出每個(gè)年級(jí)的平均績點(diǎn)(gap)與學(xué)習(xí)時(shí)間(hour)

use https://www.stata-press.com/data/r16/college,clear
collapse (mean) gpa hour, by(year)
list 
圖4

這里考慮權(quán)重掂器,權(quán)重等于年級(jí)人數(shù) [fw=number]亚皂。collapse 允許四種權(quán)重類型;默認(rèn)值為aweights国瓮。權(quán)重標(biāo)準(zhǔn)化只影響總和灭必、計(jì)數(shù)、方差乃摹,標(biāo)準(zhǔn)誤和 sebinomia l統(tǒng)計(jì)禁漓。

use https://www.stata-press.com/data/r16/college,clear
collapse (mean) gpa [fw=number], by(year)
list
圖5

當(dāng)變量中存在缺失值時(shí),使用cw選項(xiàng)會(huì)將存在缺失值的該行觀測值全部刪除孵睬,因此得到的統(tǒng)計(jì)量的值均為刪除這些行以后計(jì)算得到的播歼;若不使用該選項(xiàng),則只影響含有缺失值的變量的統(tǒng)計(jì)量掰读。仍以college數(shù)據(jù)為例秘狞,我們將2-4行的gpa數(shù)據(jù)替換為缺失值:

use https://www.stata-press.com/data/r16/college,clear
replace gpa= . in 2/4
list in 1/5
圖6

而后對(duì)gpa和hour按年級(jí)求均值叭莫,首先來看一下不使用cw選項(xiàng)時(shí)的結(jié)果,程序如下:

collapse (mean) gpa hour , by(year)
list
圖7

對(duì)比前面沒有缺失值時(shí)所得的均值烁试,由于2-4行均屬于一年級(jí)食寡,因而在以年級(jí)分類計(jì)算均值時(shí),只有一年級(jí)的gpa受到了影響廓潜,hour的均值與前面一致。如果使用cw選項(xiàng):

use https://www.stata-press.com/data/r16/college,clear
replace gpa= . in 2/4
collapse (mean) gpa hour, by(year) cw
list
圖8

使用cw后善榛,由于一年級(jí)的數(shù)據(jù)只剩下第一行辩蛋,其余行全部刪掉,因而一年級(jí)的hour變量的均值也發(fā)生了變化移盆,在計(jì)算時(shí)只對(duì)原數(shù)據(jù)的第一行進(jìn)行了平均悼院。

參考資料:
本文的例子來源于微信公眾號(hào):Stata and Python數(shù)據(jù)分析
利用collapse命令轉(zhuǎn)化原始數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市咒循,隨后出現(xiàn)的幾起案子据途,更是在濱河造成了極大的恐慌,老刑警劉巖叙甸,帶你破解...
    沈念sama閱讀 216,843評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件颖医,死亡現(xiàn)場離奇詭異,居然都是意外死亡裆蒸,警方通過查閱死者的電腦和手機(jī)熔萧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來僚祷,“玉大人佛致,你說我怎么就攤上這事≌廾眨” “怎么了俺榆?”我有些...
    開封第一講書人閱讀 163,187評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長装哆。 經(jīng)常有香客問我罐脊,道長,這世上最難降的妖魔是什么蜕琴? 我笑而不...
    開封第一講書人閱讀 58,264評(píng)論 1 292
  • 正文 為了忘掉前任爹殊,我火速辦了婚禮,結(jié)果婚禮上奸绷,老公的妹妹穿的比我還像新娘梗夸。我一直安慰自己,他們只是感情好号醉,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,289評(píng)論 6 390
  • 文/花漫 我一把揭開白布反症。 她就那樣靜靜地躺著辛块,像睡著了一般。 火紅的嫁衣襯著肌膚如雪铅碍。 梳的紋絲不亂的頭發(fā)上润绵,一...
    開封第一講書人閱讀 51,231評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音胞谈,去河邊找鬼尘盼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛烦绳,可吹牛的內(nèi)容都是我干的卿捎。 我是一名探鬼主播,決...
    沈念sama閱讀 40,116評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼径密,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼午阵!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起享扔,我...
    開封第一講書人閱讀 38,945評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤底桂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后惧眠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體籽懦,經(jīng)...
    沈念sama閱讀 45,367評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,581評(píng)論 2 333
  • 正文 我和宋清朗相戀三年氛魁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了猫十。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,754評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡呆盖,死狀恐怖拖云,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情应又,我是刑警寧澤宙项,帶...
    沈念sama閱讀 35,458評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站株扛,受9級(jí)特大地震影響尤筐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜洞就,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,068評(píng)論 3 327
  • 文/蒙蒙 一盆繁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧旬蟋,春花似錦油昂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拦惋。三九已至,卻和暖如春安寺,著一層夾襖步出監(jiān)牢的瞬間厕妖,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評(píng)論 1 269
  • 我被黑心中介騙來泰國打工挑庶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留言秸,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,797評(píng)論 2 369
  • 正文 我出身青樓迎捺,卻偏偏與公主長得像举畸,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子破加,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,654評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容