http://blog.sina.com.cn/s/blog_76bc533f0101cso9.html
su/summarise/sum x 或 su/summarise/sum x,d
對(duì)分組的描述:
sort group
by group:su x
tabstat economy,stats(max)//返回變量economy的最大值
//stats括號(hào)里可以是:mean,count(非缺失觀測(cè)值個(gè)數(shù)),sum(總和),max,min,range,
//sd,var据忘,cv(變易系數(shù)=標(biāo)準(zhǔn)差/均值),skewness,kurtosis婚陪,median,p1(1%分位
//數(shù)沽一,類似地有p10, p25, p50, p75, p95, p99)盖溺,iqr(interquantile range = p75 – p25)
//_all %描述全部。N 數(shù)據(jù)庫(kù)中觀察值的總個(gè)數(shù)铣缠。_n 當(dāng)前觀察值的位置烘嘱。_pi 圓周率π的數(shù)值。
list
gen/generate 蝗蛙、//產(chǎn)生新變量
egen wagemax=max(wage)//產(chǎn)生函數(shù)
clear
use
by(分組變量)
set more 1/0
count //計(jì)數(shù)
gsort +x // (升序)
gsort -x // (降序)
sort x //升序蝇庭;并且其它變量順序會(huì)跟著改變
label var y "消費(fèi)" //添加標(biāo)簽
describe //描述數(shù)據(jù)文件的整體,包括觀測(cè)總數(shù)歼郭,變量總數(shù)遗契,生成日期,每個(gè)變量的存儲(chǔ)類型(storage type)病曾,標(biāo)簽(label)
replace x5=2y if x!=3 //替換變量值
replace age = 25 in 107 //令第107個(gè)觀測(cè)中age為25
rename y2 u //改變變量名
rename (length gear_ratio) (len gr) // 批量重命名
drop in 2 //刪除全部變量的第2行
drop if x==. //刪去x為缺失值的所有記錄
keep if x<2 //保留小于2的數(shù)據(jù)牍蜂,其余變量跟隨x改變
keep in 2/10 //保留第2-10個(gè)數(shù)
keep x1-x5 ?/保留數(shù)據(jù)庫(kù)中介于x1和x5間的所有變量 (包括x1和x5),其余變量刪除
ci x1 x2,by(group) //算出置信區(qū)間,不過(guò)先前對(duì)group要先排序泰涂,即sort group鲫竞;by的意思逐個(gè)進(jìn)行
cii 12 3.816667 0.2710343, level(90) //已知均值,方差逼蒙,計(jì)算90%的置信區(qū)間
cii 10 2 //obs=10,mean=2,以二項(xiàng)分布形式从绘,計(jì)算置信區(qū)間
centile x,centile(2.5 25 50 75 97.5) //取分位數(shù)
pwcorr x1 x2 x2//相關(guān)系數(shù)矩
pwcorr x1 x2 x3, sig//增加顯著性水平的相關(guān)系數(shù)
pwcorr x1 x2 x2, star(.01) bonferroni//增加星號(hào)顯著性水平的相關(guān)系數(shù)
graph matrix x1 x2 x3 // 相關(guān)系數(shù)矩陣 ( 散點(diǎn)圖 )
correlate/corr x y z //相關(guān)系數(shù)
regress/reg y x1 x2 x3 //回歸方程建立
reg y x1 x2 x3,noconstant //無(wú)常數(shù)項(xiàng)
predict meanhat //預(yù)測(cè)擬合值
predict e,residual //得到殘差
estat hettest// 異方差檢驗(yàn)
dwstat //Durbin-Watson自相關(guān)檢驗(yàn)
vif // 方差膨脹因子
logit y x1 x2 x3 //(y取0或1,是被解釋變量是牢,x1-x3是被解釋變量) logit回歸
probit y x1 x2 x3 //(y取0或1僵井,是被解釋變量,x1-x3是被解釋變量) probit回歸
tobit y x1 x2 x3 //(y取值在0和1之間驳棱,是被解釋變量批什,x1-x3是被解釋變量)tobit回歸
sktest e //殘差正態(tài)性檢驗(yàn) p>0.05則接受原假設(shè),即服從正態(tài)分布社搅;sktest是基于變量的偏度和斜度(正態(tài)分布的偏度為0驻债,斜度為3)
swilk x //基于Shapiro-Wilk檢驗(yàn).p值越小乳规,越傾向于拒絕零假設(shè),也就是變量越有可能不服從正態(tài)分布
xi //生成虛擬變量
tabulat gender,summ(math) //用gender指標(biāo)對(duì)math進(jìn)行分類合呐,返回兩類math的mean暮的、std、freq
tabulate=tab %gen f=int((shengao-164)/3)3+164 組距為3
tabulate 變量名 [, generate(新變量) missing nofreq nolabel plot ]
%%%%%
generate(新變量) // 按分組變量產(chǎn)生啞變量
nofreq // 不顯示頻數(shù)
nolabel // 不顯示數(shù)值標(biāo)記
plot // 顯示各組頻數(shù)圖示
missing // 包含缺失值
cell // 顯示各小組的構(gòu)成比(小組之和為 1)
column // 按欄顯示各組之構(gòu)成(各欄總計(jì)為 1)
row // 按行顯示各組之構(gòu)成(各行總計(jì)為 1)
?
mod(x,y)//求余數(shù)
means //返回三種平均值
di normprob(1.96)
di invnorm(0.05)
di binomial(20,5,0.5)
di invbinomial(20,5,0.5)
di tprob(10,2)
di invt(10.0.05)
di fprob(3,27,1)
di invfprob(3,27,0.05)
di chi2(3,5)
di invchi2(3,0.05)
stack x y z,into(e)//把三列合成一列
xpose,clear //矩陣轉(zhuǎn)置
append using d:\0917.dta //把已打開(kāi)的文件(x y z)跟0917里的(x y z)合并淌实,是豎向合并冻辩,即觀察值合并;
merge using D:\0917.dta //把已打開(kāi)的文件(x y z)跟0917里的(a b)合并翩伪,是橫向合并微猖,即變量合并谈息;
format x %9.2e //科學(xué)記數(shù)
format x %9.2f //2位小數(shù)
//產(chǎn)生隨機(jī)數(shù),產(chǎn)生20個(gè)在(0缘屹,1)區(qū)間上均勻分布的隨機(jī)數(shù)uniform()
set seed 100
set obs 20
gen r=uniform()
list
clear //清除內(nèi)存
set seed 200 ////設(shè)置種子數(shù)為 200
set obs 20 設(shè)置樣本量為 20
range no 1 20 //建立編號(hào) 1 至 20
gen r=uniform() //產(chǎn)生在(0,1)均勻分布的隨機(jī)數(shù)
gen group=1 //設(shè)置分組變量 group 的初始值為 1
sort r //對(duì)隨機(jī)數(shù)從小到大排序
replace group=2 in 11/20 //設(shè)置最大的 10 個(gè)隨機(jī)數(shù)所對(duì)應(yīng)的記錄
//為第2組,即:最小的10個(gè)隨機(jī)數(shù)所
//對(duì)應(yīng)的記錄為第1組
sort no //按照編號(hào)排序
list //顯示隨機(jī)分組的結(jié)果.也可以list if group==1和list no if group==1
// 產(chǎn)生10個(gè)服從正態(tài)分布N(100侠仇,6^2)的隨機(jī)數(shù)invnorm(uniform())sigma+u
clear 清除內(nèi)存
set seed 200 設(shè)置種子數(shù)為 200
set obs 10 設(shè)置樣本量為 10
gen x=invnorm(uniform())6+100 產(chǎn)生服從 N(100轻姿,6^2)的隨機(jī)數(shù)
list
畫(huà)圖
注意有些圖前面要加
histogram 直方圖
line 折線圖
scatter 散點(diǎn)圖
scatter y x,c(l) s(d) b2("(a)")
graph twoway connected y x 連點(diǎn)圖
graph bar (sum) var2,over(var1) blabel(total) %條形圖
. graph bar p52 p72,by(d)
. graph bar p52 p72,over(d)
. graph bar p52 p72,by(d) stack
. graph bar p52 p72,over(d) stack
////////////數(shù)據(jù)如下
%d p52 p72
%1 163.2 27.4
%2 72.5 83.6
%3 57.2 178.2
histogram x,bin(8) norm %畫(huà)直方圖,加正態(tài)分?jǐn)?shù)線
graph pie a b o ab if area==1,plabel(_all percent) %畫(huà)餅圖
graph pie var2, over(var1) plabel(_all percent) %餅圖
graph pie p52 p72,by(d) %餅圖
graph box y1 %箱體圖
qnorm x %qq圖
lfit y x %回歸直線
graph matrix gender economy math 多變量散點(diǎn)圖
line yhat x||scatter y x,c(.l) s(O.) xline(12) yline(5.4) %線形圖&散點(diǎn)圖
有一些通用的選項(xiàng)可以給圖形“潤(rùn)色”:
標(biāo)題 title(“string”) (string可為任意的字符串逻炊,下同)
腳注 note(“string”)
橫座標(biāo)標(biāo)題 xtitle(“string”)
縱座標(biāo)標(biāo)題 ytitle(“sting”)
橫座標(biāo)范圍 xaxis(a,b) (a<b為兩個(gè)數(shù)字互亮,下同)
縱座標(biāo)范圍 yaxis(a,b)
插入文字 text (該命令既要指定插入文字的內(nèi)容,也要指定插入的位置)
插入圖例 legend (該命令既要指定圖例的內(nèi)容余素,也要指定其位置)
繪制散點(diǎn)圖和線條的兩個(gè)主要的選擇項(xiàng)為:
connect(c...c) //連接各散點(diǎn)的方式豹休,c表示:
或簡(jiǎn)寫(xiě)為c(c...c) . 不連接 (缺省值)
l 用直線連接
L 沿x方向只向前不向后直線連接
m 計(jì)算中位數(shù)并用直線連接
s 用三次平滑曲線連接
J 以階梯式直線條連接
|| 用直線連接在同一縱向上的兩點(diǎn)
II 同 ||, 只是線的頂部和底部有一個(gè)短橫
Symbol(s...s) // 表示各散點(diǎn)的圖形,s 表示:
或簡(jiǎn)寫(xiě)為s(s...s) O 大圓圈 (缺省值)
S 大方塊
T 大三角形
o 小圓圈
d 小菱形
p 小加號(hào)
. 小點(diǎn)
i 無(wú)符號(hào)
[varname] 用變量的取值代碼表示
[_n] 用點(diǎn)的記錄號(hào)表示
數(shù)學(xué)函數(shù)等都要與generate桨吊、replace威根、display一起使用,不能單獨(dú)使用
程序文件do
use d:\0917.dta
reg y x
corr y x
line y x,saving(d:\d4)
按ctrl+D執(zhí)行
字符串操作函數(shù):
length(s) %長(zhǎng)度函數(shù)视乐,計(jì)算s的長(zhǎng)度, 如洛搀,disp length("ab")的結(jié)果是2
substr(s,n1,n2) %子串函數(shù),獲得從s的n1個(gè)字符開(kāi)始的n2個(gè)字符組成的字符串,
disp substr("abcdef",2,3)的結(jié)果是"bcd"
string(n) %將數(shù)值n轉(zhuǎn)換成字符串函數(shù)佑淀,如留美,disp string(41)+"f"的結(jié)果是"41f"
real(s) %將字符串s轉(zhuǎn)換成數(shù)值函數(shù),如伸刃,disp real("5.2")+1的結(jié)果是6.2
upper(s) %轉(zhuǎn)換成大寫(xiě)字母函數(shù)谎砾,如,disp upper("this")的結(jié)果是"THIS"
lower(s) %轉(zhuǎn)換成小寫(xiě)字母函數(shù)捧颅,如disp lower("THIS")的結(jié)果是"this"
index(s1,s2) %子串位置函數(shù)景图,計(jì)算s2在s1中第一次出現(xiàn)的起始位置, 如果s2不
在s1中, 則結(jié)果為0。如隘道,disp index("this","is")的結(jié)果是3,
而index("this","it")的結(jié)果是0
trim(s) %去除字符串前面和后面的空格
ltrim(s) %去除字符串前面的空格
rtrim(s) %去除字符串后面的空格
di sign(x) %x>0時(shí)取1, x<0時(shí)取-1, x=0時(shí)取0症歇; 符號(hào)函數(shù)
di int(x) %去掉x的小數(shù)部分, 得到整數(shù) (取整函數(shù))
sum(x) %獲得包括當(dāng)前記錄及以前的所有記錄的x 的和郎笆。缺失值(missing value)當(dāng)0處理;求和函數(shù)
max(x1,x2,...,Xn) 忽略缺失值;最大值函數(shù)
min(x1,x2,...,Xn) 忽略缺失值;最小值函數(shù)
float(x) %將x轉(zhuǎn)換成浮點(diǎn)表示法。
gen yy=cond(x<2,10,11) %條件函數(shù)cond(x,a,b) x可以是一個(gè)條件, x非0(條件成立)時(shí)取a, x為0(條件不成立)時(shí)取b忘晤。
gen y1=recode(x,2,5) %歸組函數(shù)recode(x,x1,x2,...xn)
gen y2=autocode(x,3,-2,9) %autocode(x,ng,xmin,xmax) 自動(dòng)將區(qū)間(xmin,xmax)分成ng個(gè)等長(zhǎng)的小區(qū)間宛蚓,其結(jié)果是包含x值那個(gè)小區(qū)間的上界值
t檢驗(yàn):
gend=x-y
ttestd=0
ttestx=y
如果不配對(duì)
ttestx1=x2,unpaired
ttestx1=x2,unequalunpaired
已知樣本均數(shù)、標(biāo)準(zhǔn)差和樣本數(shù)進(jìn)行t檢驗(yàn):
ttesti 21 1.28 0.92 0.2 %檢驗(yàn)均值是否等于0.2
檢驗(yàn)兩組均數(shù)是否相同:
ttesti 11 10 1.9 14 12.8 2.3
檢驗(yàn)變量x1和x2的方差是否相同(即:齊性)
sdtestx1=x2
一设塔、配對(duì)設(shè)計(jì)的平均水平檢驗(yàn)
當(dāng)總體服從正態(tài)分布時(shí)凄吏,可以選用t檢驗(yàn),否則用非參符號(hào)秩檢驗(yàn)
signrankd=0
二闰蛔、平行對(duì)照設(shè)計(jì)的兩組資料平均水平統(tǒng)計(jì)檢驗(yàn)
如果兩組資料的方差齊性和相互獨(dú)立的痕钢,并且每組資料服從正態(tài)
分布,則用成組t檢驗(yàn)序六,否則可以用成組Wilcoxon秩和檢驗(yàn)
ranksum x, by(group) %2組資料中位數(shù)比較
kwallis x, by(group) %多組資料中位數(shù)比較
anova x t id %x為因變量任连,t跟id是因素
egenr=rank(x),by(id) %產(chǎn)生秩r
單因素方差分析:
單因素方差分析又稱為OnewayANOVA,用于比較多組樣本的均數(shù)是否相同例诀,
并假定:每組的數(shù)據(jù)服從正態(tài)分布随抠,具有相同的方差,且相互獨(dú)立繁涂,則無(wú)
效假設(shè)Ho:各組總體均數(shù)相同拱她。在STATA中可用命令:
oneway x group, mean bonferroni %bonferroni用于多組樣本均數(shù)的兩兩比較檢驗(yàn)
logrank t outcome, by(group) %單因素生存分析
兩因素方差分析
多因素方差分析:anova y x1 x2 x1*x2