stata常用命令(轉(zhuǎn)自人大論壇)

調(diào)整變量格式:
format x1 %10.3f ——將x1的列寬固定為10刃唐,小數(shù)點(diǎn)后取三位
format x1 %10.3g ——將x1的列寬固定為10层玲,有效數(shù)字取三位
format x1 %10.3e ——將x1的列寬固定為10,采用科學(xué)計(jì)數(shù)法
format x1 %10.3fc ——將x1的列寬固定為10萝招,小數(shù)點(diǎn)后取三位蚂斤,加入千分位分隔符
format x1 %10.3gc ——將x1的列寬固定為10,有效數(shù)字取三位槐沼,加入千分位分隔符
format x1 %-10.3gc ——將x1的列寬固定為10曙蒸,有效數(shù)字取三位,加入千分位分隔符母赵,加入“-”表示左對(duì)齊
合并數(shù)據(jù):
use "C:\Documents and Settings\xks\桌面\2006.dta", clear
merge using "C:\Documents and Settings\xks\桌面\1999.dta"
——將1999和2006的數(shù)據(jù)按照樣本(observation)排列的自然順序合并起來(lái)
use "C:\Documents and Settings\xks\桌面\2006.dta", clear
merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort
——將1999和2006的數(shù)據(jù)按照唯一的(unique)變量id來(lái)合并逸爵,在合并時(shí)對(duì)id進(jìn)行排序(sort)
建議采用第一種方法。
對(duì)樣本進(jìn)行隨機(jī)篩選:
sample 50
在觀測(cè)案例中隨機(jī)選取50%的樣本凹嘲,其余刪除
sample 50,count
在觀測(cè)案例中隨機(jī)選取50個(gè)樣本,其余刪除
查看與編輯數(shù)據(jù):
browse x1 x2 if x3>3 (按所列變量與條件打開數(shù)據(jù)查看器)
edit x1 x2 if x3>3 (按所列變量與條件打開數(shù)據(jù)編輯器)
數(shù)據(jù)合并(merge)與擴(kuò)展(append)
merge表示樣本量不變构韵,但增加了一些新變量周蹭;append表示樣本總量增加了趋艘,但變量數(shù)目不變。
one-to-one merge:
數(shù)據(jù)源自stata tutorial中的exampw1和exampw2
第一步:將exampw1按v001~v003這三個(gè)編碼排序凶朗,并建立臨時(shí)數(shù)據(jù)庫(kù)tempw1
clear
use "t:\statatut\exampw1.dta"
su ——summarize的簡(jiǎn)寫
sort v001 v002 v003
save tempw1
第二步:對(duì)exampw2做同樣的處理
clear
use "t:\statatut\exampw2.dta"
su
sort v001 v002 v003
save tempw2
第三步:使用tempw1數(shù)據(jù)庫(kù)瓷胧,將其與tempw2合并:
clear
use tempw1
merge v001 v002 v003 using tempw2
第四步:查看合并后的數(shù)據(jù)狀況:
ta _merge ——tabulate _merge的簡(jiǎn)寫
su
第五步:清理臨時(shí)數(shù)據(jù)庫(kù),并刪除_merge棚愤,以免日后合并新變量時(shí)出錯(cuò)
erase tempw1.dta
erase tempw2.dta
drop _merge
數(shù)據(jù)擴(kuò)展append:
數(shù)據(jù)源自stata tutorial中的fac19和newfac
clear
use "t:\statatut\fac19.dta"
ta region
append using "t:\statatut\newfac"
ta region
合并后樣本量增加搓萧,但變量數(shù)不變

莖葉圖:
stem x1,line(2) (做x1的莖葉圖,每一個(gè)十分位的樹莖都被拆分成兩段來(lái)顯示宛畦,前半段為0~4瘸洛,后半段為5~9)
stem x1,width(2) (做x1的莖葉圖,每一個(gè)十分位的樹莖都被拆分成五段來(lái)顯示次和,每個(gè)小樹莖的組距為2)
stem x1,round(100) (將x1除以100后再做x1的莖葉圖)
直方圖
采用auto數(shù)據(jù)庫(kù)
histogram mpg, discrete frequency normal xlabel(1(1)5)
(discrete表示變量不連續(xù)反肋,frequency表示顯示頻數(shù),normal加入正太分布曲線踏施,xlabel設(shè)定x軸石蔗,1和5為極端值,(1)為單位)
histogram price, fraction norm
(fraction表示y軸顯示小數(shù)畅形,除了frequency和fraction這兩個(gè)選擇之外养距,該命令可替換為“percent”百分比,和“density”密度日熬;未加上discrete就表示將price當(dāng)作連續(xù)變量來(lái)繪圖)
histogram price, percent by(foreign)
(按照變量“foreign”的分類铃在,將不同類樣本的“price”繪制出來(lái),兩個(gè)圖分左右排布)
histogram mpg, discrete by(foreign, col(1))
(按照變量“foreign”的分類碍遍,將不同類樣本的“mpg”繪制出來(lái)定铜,兩個(gè)圖分上下排布)
histogram mpg, discrete percent by(foreign, total) norm
(按照變量“foreign”的分類,將不同類樣本的“mpg”繪制出來(lái)怕敬,同時(shí)繪出樣本整體的“總”直方圖)
二變量圖:
graph twoway lfit price weight || scatter price weight
(作出price和weight的回歸線圖——“l(fā)fit”揣炕,然后與price和weight的散點(diǎn)圖相疊加)
twoway scatter price weight,mlabel(make)
(做price和weight的散點(diǎn)圖,并在每個(gè)點(diǎn)上標(biāo)注“make”东跪,即廠商的取值)
twoway scatter price weight || lfit price weight,by(foreign)
(按照變量foreign的分類畸陡,分別對(duì)不同類樣本的price和weight做散點(diǎn)圖和回歸線圖的疊加,兩圖呈左右分布)
twoway scatter price weight || lfit price weight,by(foreign,col(1))
(按照變量foreign的分類虽填,分別對(duì)不同類樣本的price和weight做散點(diǎn)圖和回歸線圖的疊加丁恭,兩圖呈上下分布)
twoway scatter price weight [fweight= displacement],msymbol(oh)
(畫出price和weight的散點(diǎn)圖,“msybol(oh)”表示每個(gè)點(diǎn)均為中空的圓圈斋日,[fweight= displacement]表示每個(gè)點(diǎn)的大小與displacement的取值大小成比例)
twoway connected y1 time,yaxis(1) || y2 time,yaxis(2)
(畫出y1和y2這兩個(gè)變量的時(shí)間點(diǎn)線圖牲览,并將它們疊加在一個(gè)圖中,左邊“yaxis(1)”為y1的度量恶守,右邊“yaxis(2)”為y2的)
twoway line y1 time,yaxis(1) || y2 time,yaxis(2)
(與上圖基本相同第献,就是沒有點(diǎn)贡必,只顯示曲線)
graph twoway scatter var1 var4 || scatter var2 var4 || scatter var3 var4
(做三個(gè)點(diǎn)圖的疊加)
graph twoway line var1 var4 || line var2 var4 || line var3 var4
(做三個(gè)線圖的疊加)
graph twoway connected var1 var4 || connected var2 var4 || connected var3 var4
(疊加三個(gè)點(diǎn)線相連圖)
更多變量:
graph matrix a b c y
(畫出一個(gè)散點(diǎn)圖矩陣,顯示各變量之間所有可能的兩兩相互散點(diǎn)圖)
graph matrix a b c d,half
(生成散點(diǎn)圖矩陣庸毫,只顯示下半部分的三角形區(qū)域)
用auto數(shù)據(jù)集:
graph matrix price mpg weight length,half by( foreign,total col(1) )
(根據(jù)foreign變量的不同類型繪制price等四個(gè)變量的散點(diǎn)圖矩陣仔拟,要求繪出總圖,并上下排列】=具)
其他圖形:
graph box y,over(x) yline(.22)
(對(duì)應(yīng)x的每一個(gè)取值構(gòu)建y的箱型圖飒赃,并在y軸的0.22處劃一條水平線)
graph bar (mean) y,over(x)
對(duì)應(yīng)x的每一個(gè)取值利花,顯示y的平均數(shù)的條形圖。括號(hào)中的“mean”也可換成median载佳、sum炒事、sd、p25刚盈、p75等
graph bar a1 a2,over(b) stack
(對(duì)應(yīng)在b的每一個(gè)取值羡洛,顯示a1和a2的條形圖,a1和a2是疊放成一根條形柱藕漱。若不寫入“stack”欲侮,則a1和a2顯示為兩個(gè)并排的條形柱)
graph dot (median)y,over(x)
(畫點(diǎn)圖,沿著水平刻度肋联,在x的每一個(gè)取值水平所對(duì)應(yīng)的y的中位數(shù)上打點(diǎn))
qnorm x
(畫出一幅分位-正態(tài)標(biāo)繪圖)
rchart a1 a2 a2
(畫出質(zhì)量控制R圖威蕉,顯示a1到a3的取值范圍)

簡(jiǎn)單統(tǒng)計(jì)量的計(jì)算:
ameans x
(計(jì)算變量x的算術(shù)平均值、幾何平均值和簡(jiǎn)單調(diào)和平均值橄仍,均顯示樣本量和置信區(qū)間)
mean var1 [pweight = var2]
(求取分組數(shù)據(jù)的平均值和標(biāo)準(zhǔn)誤韧涨,var1為各組的賦值,var2為每組的頻數(shù))
summarize y x1 x2,detail
(可以獲得各個(gè)變量的百分比數(shù)侮繁、最大最小值虑粥、樣本量、平均數(shù)宪哩、標(biāo)準(zhǔn)差娩贷、方差、峰度锁孟、偏度)
注意
stata中summarize所計(jì)算出來(lái)的峰度skewness和偏度kurtosis有問題彬祖,與ECELL和SPSS有較大差異,建議不采用stata的結(jié)果品抽。
summarize var1 [aweight = var2], detail
(求取分組數(shù)據(jù)的統(tǒng)計(jì)量储笑,var1為各組的賦值,var2為每組的頻數(shù))
tabstat X1,stats(mean n q max min sd var cv)
(計(jì)算變量X1的算術(shù)平均值圆恤、樣本量突倍、四分位線、最大最小值、標(biāo)準(zhǔn)差赘方、方差和變異系數(shù))
概率分布的計(jì)算:
(1)貝努利概率分布測(cè)試:
webuse quick
bitest quick==0.3,detail
(假設(shè)每次得到成功案例‘1’的概率等于0.3烧颖,計(jì)算在變量quick所顯示的二項(xiàng)分布情況下弱左,各種累計(jì)概率和單個(gè)概率是多少)
bitesti 10,3,0.5,detail
(計(jì)算當(dāng)每次成功的概率為0.5時(shí)窄陡,十次抽樣中抽到三次成功案例的概率:低于或高于三次成功的累計(jì)概率和恰好三次成功概率)
(2)泊松分布概率:
display poisson(7,6)
.44971106
(計(jì)算均值為7,成功案例小于等于6個(gè)的泊松概率)
display poissonp(7,6)
.14900278
(計(jì)算均值為7拆火,成功案例恰好等于6個(gè)的泊松概率)
display poissontail(7,6)
.69929172
(計(jì)算均值為7跳夭,成功案例大于等于6個(gè)的泊松概率)
(3)超幾何分布概率:
display hypergeometricp(10,3,4,2)
.3
(計(jì)算在樣本總量為10,成功案例為3的樣本總體中们镜,不重置地抽取4個(gè)樣本币叹,其中恰好有2個(gè)為成功案例的概率)
display hypergeometric(10,3,4,2)
.96666667
(計(jì)算在樣本總量為10,成功案例為3的樣本總體中模狭,不重置地抽取4個(gè)樣本颈抚,其中有小于或等于2個(gè)為成功案例的概率)
檢驗(yàn)極端值的步驟:
常見命令:tabulate、stem嚼鹉、codebook贩汉、summarize、list锚赤、histogram匹舞、graph box、gragh matrix
step1.用codebook线脚、summarize赐稽、histogram、graph boxs浑侥、graph matrix姊舵、stem看檢驗(yàn)數(shù)據(jù)的總體情況:
codebook y x1 x2
summarize y x1 x2,detail
histogram x1,norm(正態(tài)直方圖)
graph box x1(箱圖)
graph matrix y x1 x2,half(畫出各個(gè)變量的兩兩x-y圖)
stem x1(做x1的莖葉圖)
可以看出數(shù)據(jù)分布狀況,尤其是最大寓落、最小值
step2.用tabulate括丁、list細(xì)致尋找極端值
tabulate code if x1==極端值(作出x1等于極端值時(shí)code的頻數(shù)分布表,code表示地區(qū)零如、年份等序列變量躏将,這樣便可找出那些地區(qū)的數(shù)值出現(xiàn)了錯(cuò)誤)
list code if x1==極端值(直接列出x1等于極端值時(shí)code的值,當(dāng)x1的錯(cuò)誤過(guò)多時(shí)考蕾,不建議使用該命令)
list in -20/l(l表示last one祸憋,-20表示倒數(shù)第20個(gè)樣本,該命令列出了從倒數(shù)第20個(gè)到倒數(shù)第一個(gè)樣本的各變量值)
step3.用replace命令替換極端值
replace x1=? if x1==極端值
去除極端值:
keep if y<1000
drop if y>1000
對(duì)數(shù)據(jù)排序:
sort x
gsort +x
(對(duì)數(shù)據(jù)按x進(jìn)行升序排列)
gsort -x
(對(duì)數(shù)據(jù)按x進(jìn)行降序排列)
gsort -x, generate(id) mfirst
(對(duì)數(shù)據(jù)按x進(jìn)行降序排列肖卧,缺失值排最前蚯窥,生成反映位次的變量id)
對(duì)變量進(jìn)行排序:
order y x3 x1 x2
(將變量按照y、x3、x1拦赠、x2的順序排列)
生成新變量:
gen logx1=log(x1)(得出x1的對(duì)數(shù))
gen x1`=exp(logx1)(將logx1反對(duì)數(shù)化)
gen r61_100=1 if rank>=61&rank<=100(若rank在61與100之間巍沙,則新變量r61_100的取值為1,其他為缺失值)
replace r61_100 if r61_100!=1(“!=”表示不等于荷鼠,若r61_100取值不為1句携,則將r61_100替換為0,就是將上式中的缺失值替換為0)
gen abs(x)(取x的絕對(duì)值)
gen ceil(x)(取大于或等于x的最小整數(shù))
gen trunc(x)(取x的整數(shù)部分)
gen round(x)(對(duì)x進(jìn)行四舍五入)
gen round(x,y)(以y為單位允乐,對(duì)x進(jìn)行四舍五入)
gen sqrt(x)(取x的平方根)
gen mod(x,y)(取x/y的余數(shù))
gen reldif(x,y)(取x與y的相對(duì)差異矮嫉,即|x-y|/(|y|+1))
gen logit(x)(取ln[x/(1-x)])
gen x=autocode(x,n,xmin,xmax)(將x的值域,即xmax-xmin牍疏,分為等距的n份)
gen x=cond(x1>x2,x1,x2)(若x1>x2成立蠢笋,則取x1,若x1>x2不成立鳞陨,則取x2)
sort x
gen gx=group(n)(將經(jīng)過(guò)排序的變量x分為盡量等規(guī)模的n個(gè)組)
egen zx1=std(x1)(得出x1的標(biāo)準(zhǔn)值昨寞,就是用(x1-avgx1)/sdx1)
egen zx1=std(x1),m(0) s(1)(得出x1的標(biāo)準(zhǔn)分,標(biāo)準(zhǔn)分的平均值為0厦滤,標(biāo)準(zhǔn)差為1)
egen sdx1=sd(x1)(得出x1的標(biāo)準(zhǔn)差)
egen meanx1=mean(x1)(得出x1的平均值)
egen maxx1=max(x1)(最大值)
egen minx1=min(x1)(最小值)
egen medx1=med(x1)(中數(shù))
egen modex1=mode(x1)(眾數(shù))
egen totalx1=total(x1)(得出x1的總數(shù))
egen rowsd=sd(x1 x2 x3)(得出x1援岩、x2和x3聯(lián)合的標(biāo)準(zhǔn)差)
egen rowmean=mean(x1 x2 x3)(得出x1、x2和x3聯(lián)合的平均值)
egen rowmax=max(x1 x2 x3)(聯(lián)合最大值)
egen rowmin=min(x1 x2 x3)(聯(lián)合最小值)
egen rowmed=med(x1 x2 x3)(聯(lián)合中數(shù))
egen rowmode=mode(x1 x2 x3) (聯(lián)合眾數(shù))
egen rowtotal=total(x1 x2 x3)(聯(lián)合總數(shù))
egen xrank=rank(x)(在不改變變量x各個(gè)值排序的情況下馁害,獲得反映x值大小排序的xrank)
數(shù)據(jù)計(jì)算器display命令:
display x[12](顯示x的第十二個(gè)觀察值)
display chi2(n,x)(自由度為n的累計(jì)卡方分布)
display chi2tail(n,x)(自由度為n的反向累計(jì)卡方分布窄俏,chi2tail(n,x)=1-chi2(n,x))
display invchi2(n,p)(卡方分布的逆運(yùn)算,若chi2(n,x)=p碘菜,那么invchi2(n,p)=x)
display invchi2tail(n,p)(chi2tail的逆運(yùn)算)
display F(n1,n2,f)(分子凹蜈、分母自由度分別為n1和n2的累計(jì)F分布)
display Ftail(n1,n2,f)(分子、分母自由度分別為n1和n2的反向累計(jì)F分布)
display invF(n1,n2,P)(F分布的逆運(yùn)算忍啸,若F(n1,n2,f)=p仰坦,那么invF(n1,n2,p)=f)
display invFtail(n1,n2,p)(Ftail的逆運(yùn)算)
display tden(n,t)(自由度為n的t分布)
display ttail(n,t)(自由度為n的反向累計(jì)t分布)
display invttail(n,p)(ttail的逆運(yùn)算)

給數(shù)據(jù)庫(kù)和變量做標(biāo)記:
label data "~~"(對(duì)現(xiàn)用的數(shù)據(jù)庫(kù)做標(biāo)記,"~~"就是標(biāo)記计雌,可自行填寫)
label variable x "~~~"(對(duì)變量x做標(biāo)記)
label values x label1(賦予變量x一組標(biāo)簽:label1)
label define label1 1 "a1" 2 "a2"(定義標(biāo)簽的具體內(nèi)容:當(dāng)x=1時(shí)悄晃,標(biāo)記為a1,當(dāng)x=2時(shí)凿滤,標(biāo)記為a2)
頻數(shù)表:
tabulate x1,sort
tab1 x1-x7,sort(做x1到x7的頻數(shù)表妈橄,并按照頻數(shù)以降序顯示行)
table c1,c(n x1 mean x1 sd x1)(在分類變量c1的不同水平上列出x1的樣本量和平均值)
二維交互表:
auto數(shù)據(jù)庫(kù):
table rep78 foreign, c(n mpg mean mpg sd mpg median mpg) center row col
(rep78,foreign均為分類變量翁脆,rep78為行變量眷蚓,foreign為列變量,center表示結(jié)果顯示在單元格中間反番,row表示計(jì)算行變量整體的統(tǒng)計(jì)量沙热,col表示計(jì)算列變量整體的統(tǒng)計(jì)量)
tabulate x1 x2,all
(做x1和x2的二維交互表叉钥,要求顯示獨(dú)立性檢驗(yàn)chi2、似然比卡方獨(dú)立性檢驗(yàn)lrchi2篙贸、對(duì)定序變量適用的等級(jí)相關(guān)系數(shù)gamma和taub投队、以及對(duì)名義變量適用的V)
tabulate x1 x2,column chi2(做x1和x2的二維交互表,要求顯示列百分比和行變量和列變量的獨(dú)立性檢驗(yàn)——零假設(shè)為變量之間獨(dú)立無(wú)統(tǒng)計(jì)關(guān)系)
tab2 x1-x7,all nofreq(對(duì)x1到x7這七個(gè)變量?jī)蓛傻刈龆S交互表爵川,不顯示頻數(shù):nofreq)
三維交互表:
by x3,sort:tabulate x1 x2,nofreq col chi2(同時(shí)進(jìn)行x3的每一個(gè)取值內(nèi)的x1和x2的二維交互表敷鸦,不顯示頻數(shù)、顯示列百分比和獨(dú)立性檢驗(yàn))
四維交互表:
table x1 x2 x3,c(ferq mean x1 mean x2 mean x3) by(x4)
tabstat X1 X2,by(X3) stats(mean n q max min sd var cv) col(stats)
tabstat X1 X2,by(X3) stats(mean range q sd var cv p5 p95 median),[aw=X4](以X4為權(quán)重求X1雁芙、X2的均值轧膘,標(biāo)準(zhǔn)差钞螟、方差等)

ttest X1=1
count if X1==0
count if X1>=0
gen X2=1 if X1>=0
corr x1 x2 x3(做x1兔甘、x2、x3的相關(guān)系數(shù)表)
swilk x1 x2 x3(用Shapiro-Wilk W test對(duì)x1鳞滨、x2洞焙、x3進(jìn)行正太性分析)
sktest x1 x2 x3(對(duì)x1、x2拯啦、x3進(jìn)行正太性分析澡匪,可以求出峰度和偏度)
ttest x1=x2(對(duì)x1、x2的均值是否相等進(jìn)行T檢驗(yàn))
ttest x1,by(x2) unequal(按x2的分組方式對(duì)x1進(jìn)行T檢驗(yàn)褒链,假設(shè)方差不齊性)
sdtest x1=x2(方差齊性檢驗(yàn))
sdtest x1唁情,by(x2)(按x2的分組方式對(duì)x1進(jìn)行方差齊性檢驗(yàn))

聚類分析:
cluster kmeans y x1 x2 x3, k(3)
——依據(jù)y、x1甫匹、x2甸鸟、x3,將樣本分為n類兵迅,聚類的核為隨機(jī)選取
cluster kmeans y x1 x2 x3, k(3) measure(L1) start(everykth)
—— "start"用于確定聚類的核抢韭,"everykth"表示將通過(guò)構(gòu)造三組樣本獲得聚類核:構(gòu)造方法為將樣本id為1、1+3恍箭、1+3×2刻恭、 1+3×3……分為一組、將樣本id為2扯夭、2+3鳍贾、2+3×2、2+3×3……分為第二組交洗,以此類推骑科,將這三組的均值作為聚類的核;"measure"用 于計(jì)算相似性和相異性的方法藕筋,"L1"表示采用歐式距離的絕對(duì)值纵散,也直接可采用歐式距離(L2)和歐式距離的平方(L2squared)梳码。PS:這個(gè)方法 所得的結(jié)果與SPSS所得結(jié)果相同。

sort c1 c2(對(duì)c1和c2兩個(gè)分類變量排序)
by c1 c2:reg y x1 x2 x3(在c1伍掀、c2的各個(gè)水平上分別進(jìn)行回歸)
bysort c1 c2:reg y x1 x2 x3 if c3=1(逗號(hào)前面相當(dāng)于將上面兩步驟合一掰茶,既排序又回歸,逗號(hào)后面的“if c3=1”表示只有在c3=1的情況下才進(jìn)行回歸)
stepwise, pr(.2): reg y x1 x2 x3(使用Backward selection蜜笤,去除P值大于0.2時(shí)變量)
stepwise, pe(.2): reg y x1 x2 x3(使用forward selection濒蒋,去除P值小于0.2時(shí)變量)
stepwise, pr(.2) pe(.01):reg y x1 x2 x3(使用backward-stepwise selection,取P值在0.01和0.2之間的變量)
stepwise, pe(.2) forward: reg y x1 x2 x3(使用forward-stepwise selection)
reg y x1 x2 x3
predict Yhat,xb
predict u,resid
predict ustd,stdr(獲得殘差的標(biāo)準(zhǔn)誤)
predict std,stdp(獲得y估計(jì)值的標(biāo)準(zhǔn)誤)
predict stdf,stdf(獲得y預(yù)測(cè)值的標(biāo)準(zhǔn)誤)
predict e,e(1,12)(獲得y在1到12之間的估計(jì)值)
predict p,pr(1把兔,12)(獲得y在1到12之間的概率)
predict rstu,rstudent(獲得student的t值)
predict lerg,leverage(獲得杠桿值)
predict ckd,cooksd(獲得cooksd)
reg y x1 x2 x3 c1 c2
adjust x1 x2 x3沪伙,se(使得變量x1、x2和x3等于其均值县好,求y的預(yù)測(cè)值和標(biāo)準(zhǔn)誤)
adjust x1 x2 x3围橡,stdf ci(使得變量x1、x2和x3等于其均值缕贡,求y的預(yù)測(cè)值翁授,預(yù)測(cè)標(biāo)準(zhǔn)誤和置信區(qū)間)
adjust x1 x2,by(c1) se ci(控制變量x1、x2晾咪,亦即取它們的均值收擦,在分類變量c1的不同水平上求y預(yù)測(cè)值,標(biāo)準(zhǔn)誤和置信區(qū)間)
adjust x1 x2 x3,by(c1) stdf ci(控制變量x1谍倦、x2塞赂、x3,亦即取它們的均值昼蛀,在分類變量c1的不同水平上求y預(yù)測(cè)值宴猾,預(yù)測(cè)標(biāo)準(zhǔn)誤和置信區(qū)間)
adjust x1 x2,by(c1 c2) se ci(控制變量x1、x2曹洽,在分類變量c1鳍置、c2的不同水平上求y的預(yù)測(cè)值,標(biāo)準(zhǔn)誤和置信區(qū)間)
adjust x1 x2 x3,by(c1 c2) stdf ci(控制變量x1送淆、x2税产、x3,在分類變量c1偷崩、c2的不同水平上求y的預(yù)測(cè)值辟拷,預(yù)測(cè)標(biāo)準(zhǔn)誤和置信區(qū)間)
adjust x1=a x2=b x3=c,se ci(當(dāng)x1=a阐斜、x2=b衫冻、x3=c時(shí),求y的預(yù)測(cè)值谒出、標(biāo)準(zhǔn)誤和置信區(qū)間)
adjust x1=a x2=b x3=c隅俘,by(c1) se ci(當(dāng)x1=a邻奠、x2=b、x3=c時(shí)为居,在分類變量c1的不同水平上碌宴,求y的預(yù)測(cè)值、標(biāo)準(zhǔn)誤和置信區(qū)間)
adjust x1=a x2=b c1=1蒙畴,by(c1) se ci(當(dāng)x1=a贰镣、x2=b,并假設(shè)所有的樣本均為c1=1膳凝,求在分類變量c1的不同水平上碑隆,因?yàn)樽兞縳3的均值不同,而導(dǎo)致的y的不同的預(yù)測(cè)值……)
mvreg Y1 Y2 ……: X1 X2 X3……(多元回歸)
mvreg y1 y2 y3: x1 x3 x3(多元回歸分析蹬音,y1 y2 y3為因變量上煤,x1 x3 x3為自變量)
以下命令只有在進(jìn)行了mvreg之后才能進(jìn)行
test [y1](測(cè)試對(duì)y1的回歸系數(shù)聯(lián)合為0)
test [y1]: x1 x2(測(cè)試對(duì)y1的回歸中x1、x2的系數(shù)為0)
test x1 x2 x3(測(cè)試在所有的回歸中祟绊,x1楼入、x2、x3的系數(shù)均為0)
test [y1=y2](對(duì)y1的回歸和對(duì)y2的回歸系數(shù)相等)
test [y1=y2]: x1 x2 x3, mtest(對(duì)y1和y2的回歸中,分別測(cè)試x1遥赚、x2扬舒、x3的系數(shù)是否相等,若沒有mtest這個(gè)命令晨炕,則測(cè)試他們的聯(lián)和統(tǒng)計(jì))
test [y1=y2=y3](三個(gè)回歸的系數(shù)是否相等,可加mtest以分別測(cè)試)
test [y1=y2=y3]: x1 x2 (測(cè)試三個(gè)回歸中的x1、x2是否相等愿阐,可加mtest)
est命令的用法:
(1)儲(chǔ)存回歸結(jié)果:
reg y x1 x2 x3(不限于reg,也可儲(chǔ)存ivreg趾疚、mvreg缨历、reg3)
est store A
(2)重現(xiàn)回歸結(jié)果:
est replay A
(3)對(duì)回歸結(jié)果進(jìn)行進(jìn)一步分析
est for A:sum(對(duì)A回歸結(jié)果中的各個(gè)變量運(yùn)行sum命令)
異方差問題:
獲得穩(wěn)健性標(biāo)準(zhǔn)誤
reg y x1 x2 x3 if c1==1(當(dāng)分類變量c1=1時(shí)以蕴,進(jìn)行y和諸x的回歸)
reg y x1 x2 x3,robust(回歸后顯示各個(gè)自變量的異方差-穩(wěn)健性標(biāo)準(zhǔn)誤)
estat vif(回歸之后獲得VIF)
estat hettest,mtest(異方差檢驗(yàn))
異方差檢驗(yàn)的套路:
(1)Breusch-pagan法:
reg y x1 x2 x3
predict u,resid
gen usq=u^2
reg usq x1 x2 x3
求F值
display R/(1-R)n2/n1(n1表示分子除數(shù),n2表示分母除數(shù))
display Ftail(……)
求LM值
display R
n(n表示總樣本量)
display chi2tail(……)
(2)white法:
reg y x1 x2 x3
predict u,resid
gen usq=u^2
predict y
gen ysq=y^2
reg usq y ysq
求F值
display R/(1-R)n2/n1(n1表示分子除數(shù)辛孵,n2表示分母除數(shù))
display Ftail(……)
求LM值
display R
n(n表示總樣本量)
display chi2tail(……)
(3)必要補(bǔ)充
F值和LM值轉(zhuǎn)換為P值的命令:
display Ftail(n1,n2,a)(利用F值求p值舒裤,n1表示分子除數(shù),n2表示分母除數(shù)觉吭,a為F值)
display chi2tail(n3,b)(利用LM值求p值腾供,n3表示自由度的損失量,一般等于n1鲜滩,b為L(zhǎng)M值)
異方差的糾正——WLS(weighted least square estimator)
(1)基本思路:
reg y x1 x2 x3 [aw=x1](將x1作為異方差的來(lái)源伴鳖,對(duì)方程進(jìn)行修正)
上式相當(dāng)于:
reg y/(x1^0.5) 1/(x1^0.5) x1/(x1^0.5) x2/(x1^0.5) x3/(x1^0.5),noconstant
(2)糾正異方差的常用套路(構(gòu)造h值)
reg y x1 x2 x3
predict u,resid
gen usq=u^2
gen logusq=log(usq)
reg logusq x1 x2 x3
predict g
gen h=exp(g)
reg y x1 x2 x3 [aw=1/h]
異方差hausman檢驗(yàn):
reg y x1 x2 x3
est store A(將上述回歸結(jié)果儲(chǔ)存到A中)
reg y x1 x2 x3 [aw=1/h]
est store B
hausman A B
當(dāng)因變量為對(duì)數(shù)形式時(shí)(log(y))如何預(yù)測(cè)y
reg logy x1 x2 x3
predict k
gen m=exp(k)
reg y m,noconstant
m的系數(shù)為i
y的預(yù)測(cè)值=i×exp(k)

方差分析:
一元方差分析
anova y g1 / g1|g2 /(g表示不同分類變量,計(jì)算g1和交互項(xiàng)/ g1|g2 /這兩種分類的y值是否存在組內(nèi)差異)
anova y d1 d2 d1
d2(d表示虛擬變量徙硅,計(jì)算d1榜聂、d2和d1d2的這三種分類的y值是否有組內(nèi)差異)
anova y d1 d2 x1 d2x1, continuous(x1)(x表示連續(xù)的控制變量)
多元方差分析
webuse jaw
manova y1 y2 y3 = gender fracture genderfracture(按性別、是否骨折及二者的交互項(xiàng)對(duì)y1嗓蘑、y2和y3進(jìn)行方差分析)
manova y1 = gender fracture gender
fracture(相當(dāng)于一元方差分析须肆,以y1為因變量)
————————————
webuse nobetween
gen mycons = 1
manova test1 test2 test3 = mycons, noconstant
mat c = (1,0,-1 \ 0,1,-1)
manovatest mycons, ytransform(c)
進(jìn)行多元回歸的方法:
多元回歸分析:(與mvreg相同)
foreach vname in y1 y2 y3 { (確定y變量組vname)
reg `vname' x1 x2 x3 (將y變量組中的各個(gè)變量與諸x變量進(jìn)行回歸分析,注意vname的標(biāo)點(diǎn)符號(hào))
}
上式等價(jià)于:
mvreg y1 y2 y3 = x1 x2 x3

reg3命令:
(1)簡(jiǎn)單用法:
reg3 (y1 = x1 x2 x3) (y2 = x1 x3 x4) (y3 = x1 x2 x5)
測(cè)試y1 coefs = 0
test [y1]
測(cè)試不同回歸中相同變量的系數(shù):
test [y1=y2=y3], common
test ([y1=y2]) ([y1=y3]), common constant(constant表示包含截距項(xiàng))
(2)用reg3進(jìn)行2SLS
reg3 (y1 = y2 x1 x2) (y2 = y1 x4),2sls
(2)用reg3進(jìn)行OLS
reg3 (y1 = y2 x1 x2) (y2 = y1 x4),ols
對(duì)兩個(gè)回歸結(jié)果進(jìn)行hausman檢驗(yàn):
reg3 (y1=x1 x2 x3)(y2=y1 x4),2sls
est store twosls
reg3 (y1=x1 x2 x3)(y2=y1 x4),ols
est store ols
hausman twosls ols,equations(1:1)(對(duì)兩次回歸中的方程1桩皿,即“y1=x1 x2 x3”進(jìn)行hausman檢驗(yàn))
hausman twosls ols,equations(2:2)(對(duì)兩次回歸中的方程2豌汇,即“y2=y1 x4”進(jìn)行hausman檢驗(yàn))
hausman twosls ols,alleqs(對(duì)所有方程一起進(jìn)行檢驗(yàn))
檢驗(yàn)忽略變量(模型的RESET):
reg y x1 x2 x3
estat ovtest
滯后變量的制取
對(duì)變量y滯后一期:
gen y_l1=y[_n-1]
滯后兩期:
gen y_l2=y[_n-2]
以此類推。
制取樣本序號(hào):
gen id=_n
獲得樣本總量:
gen id=_N

時(shí)間序列回歸:
回歸元嚴(yán)格外生時(shí)AR(1)序列相關(guān)的檢驗(yàn)
reg y x1 x2
predict u,resid
gen u_1=u[_n-1]
reg u u_1,noconstant
回歸之后泄隔,u_1的序數(shù)如果不異于零拒贱,則該序列不相關(guān)
用Durbin-Watson Statistics檢驗(yàn)序列相關(guān):
tsset year @(對(duì)時(shí)間序列回歸中代表時(shí)間的變量進(jìn)行定義)@
reg y x1 x2
dwstat @(求出時(shí)間序列回歸的DW值)@
durbina @(對(duì)該回歸是否具有序列相關(guān)進(jìn)行檢驗(yàn),H0為無(wú)序列相關(guān)佛嬉,可根據(jù)chi2值求出P值)@
durbina,small @(small可以根據(jù)F值求出P值逻澳,以代替chi2值)@
durbina,force @(讓檢驗(yàn)?zāi)茉趓obust、neway之后進(jìn)行)@
durbina,small lag(1/10) @(lag可以求出更高階滯后的序列相關(guān)暖呕,如本例中可求出1到10階的序列相關(guān))@
durbina,robust lag(1/10) @(robust可進(jìn)行異方差—穩(wěn)健性回歸斜做,避免未知形式的異方差)@
bgodfrey @(利用Breusch-Godfrey test求出高階序列相關(guān))@
bgodfrey,small lag(1/10)
數(shù)據(jù)調(diào)查:survey data
源數(shù)據(jù):dataset文件夾中的svydata
步驟:
1、定義survey data
svyset psuid [pweight=finalwgt], strata(stratid)
——定義primary sampling unit為psuid湾揽∪勘疲可能是測(cè)試的編號(hào),1or2
——定義pweight為finalwgt
——定義stratum identifer為stratid钝腺∨坠茫可能是測(cè)試中被試的編號(hào),1to31
2艳狐、生成male
gen male= (sex==1) if !missing(sex)
——當(dāng)sex不缺失且等于1時(shí)定硝,male=sex
3、生成行變量為highbp毫目,列變量為sizplace的表格
svy, subpop(male): tabulate highbp sizplace, col obs pearson lr null wald
——subpop規(guī)定了以male為數(shù)據(jù)調(diào)查的范圍
——tabulate highbp sizplace表示繪制行變量為highbp蔬啡,列變量為sizplace的表格
——col表示每一列的加總為100%诲侮,row表示每一行的加總為100%,cell表示橫縱所有單元格的加總為100%
——obs表示列出每個(gè)單元格的樣本量箱蟆,se表示列出每個(gè)單元格的標(biāo)準(zhǔn)誤沟绪,ci表示列出每個(gè)單元格的置信區(qū)間
——pearson表示求取pearson's chi-squired,皮爾遜的卡方檢定
——lr表示求取likelihood ratio
——null表示求取null-based statistics
——wald表示求取adjusted wald,llwald表示求取adjusted log-linear Wald空猜,noadjust表示求取unadjusted Wald statistics
4绽慈、svy:mean x1 x2 x3
——對(duì)x1、x2辈毯、x3求取mean坝疼、se和ci
5、簡(jiǎn)單的tabulate twoway(不用svyset就可執(zhí)行)
tab2 y x,col chi2 exact lr
——col谆沃、cell钝凶、row等均可換用鹏溯,chi2指的是Pearson's chi-squared胡本、exact指的是fisher exact test镜粤、lr指的是likelihood-ratio chi-squared
6块饺、svy的其他用法:
svy:reg y x
建立人工數(shù)據(jù)集:
創(chuàng)建一個(gè)包含從獨(dú)立標(biāo)準(zhǔn)正態(tài)分布中抽取的2000個(gè)觀察案例和三個(gè)隨機(jī)Z1、Z2藕溅、Z3欣范,并分別定義他們的平均值和標(biāo)準(zhǔn)差巍耗。
matrix m=(0,2,3) ——定義三個(gè)變量的平均值
matrix sd=(1,.5,2) ——定義三個(gè)變量的標(biāo)準(zhǔn)差
drawnorm z1 z2 z3,n(2000) means(m) sds(sd) ——?jiǎng)?chuàng)建樣本量為2000卓舵,均值和標(biāo)準(zhǔn)差符合上面定義的數(shù)據(jù)集
補(bǔ)充:除了定義均值和標(biāo)準(zhǔn)差之外南用,還可定義相關(guān)矩陣和協(xié)方差矩陣等。
logit回歸
logit y x1 x2 x3
——y必須為二分變量
glogit outcomedata populationdata x1 x2 x3
——outcomedata為目標(biāo)樣本總量掏湾,populationdata為觀測(cè)樣本總量,outcomedata/populationdata的值便是一個(gè)概率肿嘲,相當(dāng)于logit命令中的y
面板數(shù)據(jù)(Panel Data)
1融击、基本套路:
xtreg y x1 x2,re
est store re
xtreg y x1 x2,fe
est store fe
hausman re fe
——如果hausman檢驗(yàn)的結(jié)果為顯著,則采用固定效應(yīng)(fe)模型雳窟,不顯著尊浪,則選取隨機(jī)效應(yīng)(re)模型
2、隨機(jī)效應(yīng)的檢驗(yàn):
xtreg y x1 x2,re
xttest0
xttest1
——xttest1是xttest0的擴(kuò)展封救,若這xttest0的結(jié)果為顯著拇涤,則采用隨機(jī)效應(yīng)(re)模型
xttest1的假設(shè)是沒有隨機(jī)效應(yīng)和/或沒有序列相關(guān),它的七個(gè)結(jié)果分別表示:

  1. LM Test for random effects, assuming no serial correlation
    (假設(shè)沒有序列相關(guān)情況下對(duì)隨機(jī)效應(yīng)進(jìn)行LM檢驗(yàn))
  2. Adjusted LM test for random effects, which works even under serial
    correlation
    (假設(shè)有序列相關(guān)的情況下對(duì)隨機(jī)LM檢驗(yàn))
  3. One sided version of the LM test for random effects
    (假設(shè)沒有序列相關(guān)的情況下對(duì)隨機(jī)效應(yīng)進(jìn)行單邊檢驗(yàn))
  4. One sided version of the adjusted LM test for random effects
    (假設(shè)有序列相關(guān)的情況下對(duì)隨機(jī)效應(yīng)進(jìn)行單邊檢驗(yàn))
  5. LM test for first-order serial correlation, assuming no random effects
    (假設(shè)沒有隨機(jī)效應(yīng)的情況下對(duì)一階序列相關(guān)進(jìn)行檢驗(yàn))
  6. Adjusted test for first-order serial correlation, which works even under
    random effects
    (假設(shè)有隨機(jī)效應(yīng)的情況下對(duì)一階序列相關(guān)進(jìn)行檢驗(yàn))
  7. LM Joint test for random effects and serial correlation
    (隨機(jī)效應(yīng)和序列相關(guān)的聯(lián)合檢驗(yàn))
    3誉结、固定效應(yīng)模型鹅士,可采用廣義最小二乘法(gls)進(jìn)行估算,也可采用固定效應(yīng)方程(fe):
    xtserial y x1 x2
    xtgls y x1 x2
    xttest2
    xttest3
    ——xtserial用于檢驗(yàn)固定效應(yīng)模型中的一階序列自相關(guān)惩坑,可通用于xtgls和fe之前
    ——xttest2用于檢驗(yàn)不同廠商的相似性掉盅,若顯著則各廠家的截面相似也拜,可通用于xtgls和fe之后
    ——xttest3用于檢驗(yàn)固定效應(yīng)模型中的異方差問題,若顯著則有異方差趾痘,可通用于xtgls和fe之后
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末慢哈,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子永票,更是在濱河造成了極大的恐慌卵贱,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,198評(píng)論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件侣集,死亡現(xiàn)場(chǎng)離奇詭異键俱,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)肚吏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門方妖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人罚攀,你說(shuō)我怎么就攤上這事党觅。” “怎么了斋泄?”我有些...
    開封第一講書人閱讀 167,643評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵杯瞻,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我炫掐,道長(zhǎng)魁莉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,495評(píng)論 1 296
  • 正文 為了忘掉前任募胃,我火速辦了婚禮旗唁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘痹束。我一直安慰自己检疫,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評(píng)論 6 397
  • 文/花漫 我一把揭開白布祷嘶。 她就那樣靜靜地躺著屎媳,像睡著了一般。 火紅的嫁衣襯著肌膚如雪论巍。 梳的紋絲不亂的頭發(fā)上烛谊,一...
    開封第一講書人閱讀 52,156評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音嘉汰,去河邊找鬼丹禀。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的湃崩。 我是一名探鬼主播荧降,決...
    沈念sama閱讀 40,743評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼攒读!你這毒婦竟也來(lái)了朵诫?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤薄扁,失蹤者是張志新(化名)和其女友劉穎剪返,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體邓梅,經(jīng)...
    沈念sama閱讀 46,200評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡脱盲,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了日缨。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钱反。...
    茶點(diǎn)故事閱讀 40,424評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖匣距,靈堂內(nèi)的尸體忽然破棺而出面哥,到底是詐尸還是另有隱情,我是刑警寧澤毅待,帶...
    沈念sama閱讀 36,107評(píng)論 5 349
  • 正文 年R本政府宣布尚卫,位于F島的核電站,受9級(jí)特大地震影響尸红,放射性物質(zhì)發(fā)生泄漏吱涉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評(píng)論 3 333
  • 文/蒙蒙 一外里、第九天 我趴在偏房一處隱蔽的房頂上張望怎爵。 院中可真熱鬧,春花似錦盅蝗、人聲如沸疙咸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至乞旦,卻和暖如春贼穆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背兰粉。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工故痊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人玖姑。 一個(gè)月前我還...
    沈念sama閱讀 48,798評(píng)論 3 376
  • 正文 我出身青樓愕秫,卻偏偏與公主長(zhǎng)得像慨菱,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子戴甩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容