1、Stata入門---基礎(chǔ)統(tǒng)計和作圖

第一天學(xué)習(xí)Stata軟件做數(shù)據(jù)分析
利用系統(tǒng)自帶的數(shù)據(jù)熟悉常用的命令

1十偶、導(dǎo)入數(shù)據(jù)

sysuse auto.dta
導(dǎo)入系統(tǒng)自帶數(shù)據(jù)庫auto.dta
打開第一個源文件water1.dta菩鲜,將它按year排序,然后再另存為文件(再以覆蓋方式保存)
use bloomberg-1.dta, replace 
sort year
save bloomberg-2.dta, replace
1.1查看數(shù)據(jù)(字段類型為數(shù)值惦积,字符串不行)的數(shù)量接校、平均數(shù)、標(biāo)準(zhǔn)差狮崩、最小值蛛勉、最大值
summarize [varlist][if][in][,options]   //字段描述
summarize price     //描述價格這個字段
sum price   //簡寫的命令也可以被識別price是字段
變量的簡述,有數(shù)量厉亏、均值董习、標(biāo)準(zhǔn)差
1.2描述變量(字段)類型、格式爱只、標(biāo)簽
describe [varlist]     // 字段描述
describe, short   
描述變量(字段)類型、格式招刹、標(biāo)簽

描述兩個字段
count if price > 5000
統(tǒng)計觀測值數(shù)量
isid varlist   //檢查是否為識別標(biāo)簽恬试,類似于數(shù)據(jù)庫的主鍵
isid price    //該字段是唯一值,不會報錯
isid mpg    //不是唯一值疯暑,會報錯
測試isid price训柴,所有值均不同,不報錯
unique  var  //需要安裝妇拯,用命令 ssc install unique
安裝unique命令

測試unique
1.3tabstat
sysuse "nlsw88.dta", clear
\\\一維表形式如下:
tabstat wage hours  age  union race, stat(N mean sd min max) col(stat)

    variable |         N      mean        sd       min       max
-------------+--------------------------------------------------
        wage |      2246  7.766949  5.755523  1.004952  40.74659
       hours |      2242  37.21811  10.50914         1        80
         age |      2246  39.15316  3.060002        34        46
       union |      1878  .2454739  .4304825         0         1
        race |      2246  1.282725  .4754413         1         3
----------------------------------------------------------------
\\\加入分組變量幻馁,匯報二維表形式:
tabstat wage hours  age  union race, by(married) stat(N mean sd min max) nototal long col(stat)
married     variable |         N      mean        sd       min       max
---------------------+--------------------------------------------------
single          wage |       804  8.080765  6.336071  1.151368  40.19808
               hours |       801  39.23845  9.099001         2        80
                 age |       804  39.21891  3.049911        34        46
               union |       656  .2759146  .4473151         0         1
                race |       804  1.404229  .5109335         1         3
---------------------+--------------------------------------------------
married         wage |      1442  7.591978  5.399229  1.004952  40.74659
               hours |      1441  36.09507  11.06107         1        80
                 age |      1442   39.1165  3.066058        34        45
               union |      1222  .2291326  .4204468         0         1
                race |      1442  1.214979  .4402987         1         3
------------------------------------------------------------------------

論文表1——基本統(tǒng)計量列表
Stata中神奇的bys!

2越锈、數(shù)據(jù)字典

codebook [varlist][if][in][,options]    //數(shù)據(jù)字典
codebook price mpg
顯示數(shù)據(jù)字典仗嗦,每個字段的基本信息
codebook pric if price > 5000
按條件顯示對應(yīng)數(shù)據(jù)
codebook price in 10/20
指定條數(shù)
幫助信息,新窗口顯示幫助信息
help codebook
codebook顯示信息

2.1、新增字段generate命令sum() 函數(shù)

clear
input x1 x2
      1  2
      2  4
      3  6
      4  8
end
 
list 顯示數(shù)據(jù)
gen sum_x1  = sum(x1)
gen sum_x2  = sum(x2)
list, clean noobs 
image.png

從結(jié)果中可以看出甘凭,gen 提供的 sum() 函數(shù)是累計求和稀拐。

2.2 egen命令的sum() 和rsum()函數(shù)
egen sum_x1=sum(x1)
egen sum_x2=sum(x2)
egen rsum_x = rsum(x1 x2)
egen rtotal_x = rowtotal(x1 x2)
list , clean noobs
image.png

從結(jié)果中可以看出,egen 提供的 sum() 函數(shù)計算該變量的總和丹弱,rsum() 計算行數(shù)值的相加和德撬,rowtotal() 函數(shù)與 rsum() 功能一致。需要注意的是躲胳,rowtotal() 不能簡寫為 rtotal()蜓洪。

此外,egen 還提供了豐富的針對行操作的函數(shù)坯苹,如 rowfirst()隆檀、rowlast()、rowmax()、rowmean()刚操、rowmedian()闸翅、rowmin()、rowmiss()菊霜、rownonmiss()坚冀、rowpctile()、rowsd() 等鉴逞,詳細介紹可以通過 help egen 查看记某。

2.3egen和bys結(jié)合 分組計算和【三個變量,按兩個變量分組构捡,第三個變量求和】
bys kind year:egen type_TotalAmount = sum(type_sumAmount) 

通過kind類別 和year年份將數(shù)據(jù)分組液南,然后新增一列type_TotalAmount 計算出type_sumAmount的總和

table kind year, c(n type_sumAmount mean type_sumAmount mean type_sumAmount )
image.png

得到如上圖的列表,但是想導(dǎo)出勾徽,嘗試了很多方法都沒有得到一個excel文件滑凉,導(dǎo)出的數(shù)據(jù)樣式會變,即便導(dǎo)出word喘帚、text畅姊、log等都不理想,
提示一個好方法:在展示框選中所有數(shù)據(jù)吹由,然后右鍵copy table 可以把數(shù)據(jù)的格式復(fù)制出來


image.png
2.4collapse命令若未,會覆蓋原有數(shù)據(jù),慎用倾鲫,
collapse (sum)type_sumAmount ,by(year kind)
sort kind year
image.png

這個沒有用table做出來的直觀粗合,后續(xù)遇到好的方法還會繼續(xù)更新

3、畫圖

3.1.histogram (直方圖)

histogram varname [if][in][weight][,[continuous_opts][discrete_opts]options]
//簡寫為 hist   最常用的三種形式
hist varname
hist varname乌昔,freq
    density   密度  den
    fraction   分?jǐn)?shù)/小數(shù)    frac
    frequency   頻率   freq
    percent    百分比   per
hist vaname隙疚, by(varname2)
price的直方圖

price的頻次圖

3.2.graph box/ graph hbox horizontal 水平的

graph box vars [if][in][weight][,options]
graph hbox vars [if][in][weight][,options]
graph hbox price mpg length
橫著的箱體圖
graph box price mpg length
豎著的箱體圖

3.3.小提琴圖,選裝 ssc install vioplot

vioplot price
vioplot price, over(foreign)
通過foreign分類后的price的小提琴圖

graph query schemes

stata 默認主題是s2color建議選用s1mono


image.png
set scheme s1mono   //Stata重啟之前設(shè)置為s1mono
set scheme s1mono, perm   //永久設(shè)置為s1mono (灰度圖像)
image.png

3.4.散點圖

[twoway] scatter varlist [if][in][weight][,options]
最基礎(chǔ)的形式: twoway scatter y x
進階形式; twoway scatter y1 y2 y3 ……x

twoway scatter weight length price
兩個變量和y之間的關(guān)系
twoway scatter mpg weight, msymbol() mcolor() msize()
msymbol() 改變形狀 help symbolstyle
mcolor()  改變顏色 help colorstyle
msize()  改變大小 help markersizestyle
可選的symbol
help symbolstyle

可選的大小
help colorstyle
可選的顏色
help markersizestyle
twoway scatter mpg weight price, msymbol(D) mcolor(red) msize(medium)
 twoway scatter mpg length weight price,  mcolor(black blue red) msize(medium)
多個顏色的選取
 twoway scatter mpg length weight price, by(foreign)  mcolor(black blue red) msize(medium) 
通過分類變量畫圖

4.Twoway命令入門

sysuse uslifeexp, clear


美國期望壽命的數(shù)據(jù)
help twoway
twoway命令語法格式

示例如下:

4.1帶散點的折線圖
twoway connected le year   //帶散點的折線圖
twoway connected le year
twoway connected le_male le_female year
twoway connected le_male le_female year
4.2垂直線圖
twoway dropline le year   //垂直線圖
twoway dropline le year
twoway dropline le_male le_female year
twoway dropline le_male le_female year
4.3脈沖圖,y2會覆蓋在y1上玫荣,
twoway spike le year   //脈沖圖
twoway spike le year
twoway spike le le_male le_female year
twoway spike le le_female le_male year
twoway spike le le_male le_female year

twoway spike le le_female le_male year
4.4 面積圖 y2會覆蓋在y1上甚淡,注意下圖區(qū)別
twoway area  le_male le_female year // y1會被覆蓋,看不到
twoway area  le_female le_male year
twoway area le_male le_female year
twoway area le_female le_male year
4.5 lowess圖捅厂,相對于散點圖平滑曲線
twoway lowess le year  //平滑曲線
lowess le year   // 平滑曲線贯卦,疊加散點
twoway lowess le year
lowess le year
4.6graph twoway lfit y x (y對x回歸的回歸直線)
graph twoway lfit price mpg

5、統(tǒng)計描述指標(biāo)

ci mean : 連續(xù)變量mean的置信區(qū)間
proportion(可簡寫為prop):分類變量mean的置信區(qū)間
pwcoor:變量的配對相關(guān)性
graph matrix:相關(guān)性矩陣

示例

實力使用數(shù)據(jù)導(dǎo)入

sysuse auto, clear
5.1ci mean : 連續(xù)變量mean的置信區(qū)間

ci 是confidence intervals的縮寫焙贷,
ci means [varlist][if][in][weight][,options]
cii means #obs #mean #sd [,level(#)]
默認95%置信區(qū)間

ci mean mpg price, level(95)
ci mean mpg price, level(95)
cii mean 166 19509 4379, level(95)
cii mean 166 19509 4379, level(95)
5.2分類變量的置信區(qū)間:
choice 1
ci proportions [varlist][if][weight][,prop_options options]
ci prop foreign
ci prop foreign

缺點: ci prop 只能 用于二分類變量(binary)

ci rep78
ci rep78

rep78這個字段的特性
choice 2

proportion 分類變量的置信區(qū)間
proportion varlist [if][in][weight][,options]
prop
默認95%置信區(qū)間

 prop foreign
prop foreign

image.png
prop foreign rep78, miss    //不忽略缺省值
image.png

6撵割、pwcorr查看變量的相關(guān)性

pwcorr [varlist][if][in][weight][,pwcorr_options]

pwcorr price headroom mpg displacement //考慮price、headroom辙芍、mpg啡彬、displacement這四個變量的相關(guān)性
image.png

如果要展示P值羹与,需要在后面加“, sig”

pwcorr price headroom mpg displacement, sig
展示相關(guān)性的同時,顯示P值
 pwcorr price headroom mpg displacement, star(0.05)
不想看數(shù)值庶灿,想知道是不是小于0.05

graph matrix繪制相關(guān)性矩陣

//geraph matrix varlist [if][in][weight][,options]
graph matrix price headroom mpg displacement
graph matrix price headroom mpg displacement, half
后面加“, half”纵搁,可以展示一半

學(xué)習(xí)參考:
https://www.zhihu.com/question/35871900
https://zhuanlan.zhihu.com/p/54759702

常用命令

  • 命令【1】:導(dǎo)入數(shù)據(jù)一般做實證分析使用的是excel中的數(shù)據(jù),其后綴名為.xls往踢,需要將其修改為.csv
    insheet using name.csv, clear
  • 命令【2】:刪除重復(fù)變量
    sort var1 var2
    duplicatesdrop var1 var2, force
  • 命令【3】:合并數(shù)據(jù)(merge 合并)
    use data1, clear
    merge m:m var1 var2 using data2
    drop if _merge==2
    drop if _merge==1
    drop _merge
  • 命令【4】:描述性統(tǒng)計分析
    tabstat var1var2, stat(n min mean median p25 p75 max sd), if groupvar==0 or 1
    輸出到word中:
    logout, save(name) word replace: tabstat var, stat(n min mean p50 max sd) col(stat)f(%9.2g)
  • 命令【5】:結(jié)果輸出
    安裝命令包
    ssc install estout, replace
    單個回歸
    reg y x
    esttab using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)
    多個回歸一起
    reg y x1
    est store m1
    reg y x2
    est store m2
    esttab m1 m2 using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)
  • 【命令6】生成滯后腾誉、差分?jǐn)?shù)據(jù)
    tsset code year
    gen newvarname=l.varname
    gen newvarname=d.varname
  • 【命令7】多重共線檢驗之方差膨脹因子
    reg y x1 x2 x3
    vif
    【命令8】多重共線修正之逐步回歸
    stepwise, pe(0.1): reg y x
  • 【命令9】檢驗是否遺漏高次項
    reg y xestat ovtest
    或者
    estat ovtest, rhs
    【命令10】 樣本檢驗兩樣本均值T檢驗
    ttest var, by(groupvar)
    兩樣本中位數(shù)Z檢驗
    ranksum var, by(groupvar)
  • 【命令11】 生成虛擬變量
    tab year, gen(year)
    tab industry, gen(industry)
  • 【命令12】 數(shù)據(jù)縮尾處理
    findit winsor2
    之后安裝
    winsor2 varname, replace cut(1 99)
  • 【命令13】異方差檢驗懷特檢驗
    ssc install whitetst
    reg y x1 x2
    estat imtest, white
    處理:“OLS+穩(wěn)健標(biāo)準(zhǔn)差”
    reg y x1 x2 x3, robust
  • 【命令14】 DW檢驗
    gen id=_n
    tsset id
    estat dwatson
  • 【命令15】計算兩個日期之間的間隔天數(shù)
    gen td=date(trading_date,'YMD')
    gen ed=date(eventdate,'YMD')
    form td ed %td
    gen d=ed-td
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市峻呕,隨后出現(xiàn)的幾起案子利职,更是在濱河造成了極大的恐慌,老刑警劉巖瘦癌,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猪贪,死亡現(xiàn)場離奇詭異,居然都是意外死亡讯私,警方通過查閱死者的電腦和手機热押,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來斤寇,“玉大人楞黄,你說我怎么就攤上這事÷胀眨” “怎么了?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵肿仑,是天一觀的道長致盟。 經(jīng)常有香客問我,道長尤慰,這世上最難降的妖魔是什么馏锡? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮伟端,結(jié)果婚禮上杯道,老公的妹妹穿的比我還像新娘。我一直安慰自己责蝠,他們只是感情好党巾,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著霜医,像睡著了一般齿拂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上肴敛,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天署海,我揣著相機與錄音吗购,去河邊找鬼。 笑死砸狞,一個胖子當(dāng)著我的面吹牛捻勉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播刀森,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼踱启,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了撒强?” 一聲冷哼從身側(cè)響起禽捆,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎飘哨,沒想到半個月后胚想,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡芽隆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年浊服,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胚吁。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡牙躺,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出腕扶,到底是詐尸還是另有隱情孽拷,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布半抱,位于F島的核電站脓恕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏窿侈。R本人自食惡果不足惜炼幔,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望史简。 院中可真熱鬧乃秀,春花似錦、人聲如沸圆兵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽衙傀。三九已至抬吟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間统抬,已是汗流浹背火本。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工危队, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人钙畔。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓茫陆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親擎析。 傳聞我的和親對象是個殘疾皇子簿盅,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容