目錄
1.1導入方法
2.1瀏覽排序
2.2基本描述
2.3變量特征
2.4定義新變量
2.6合并
3.命令結構和選項
“use” 命令加數(shù)據(jù)的路徑和名稱。
先用“cd” 命令進入數(shù)據(jù)所在的目錄蟋定,然后用“use” 命令直接加數(shù)據(jù)的名稱來導入數(shù)據(jù)碳抄。
TIPS:適合批量
點擊菜單、圖標
其他格式文件:
-格式轉(zhuǎn)化(軟件StatTransfer)
-"insheet using" 命令導入
"list"
"sort"升序
"gsort"降序
"describe" 可得本容量嚷节、變量個數(shù)聂儒、變量名稱、變量存儲類型和格式以及變量的基本含義
“rename”,“format”和“l(fā)abel”分別可修改變量名稱硫痰、變量格式或變量含義等內(nèi)容
"summarize" 包括與每個變量對應的樣本容量衩婚、算術平均數(shù)、標準差效斑、最小值和最大值等
"ameans, centile, correlate, count"
"inspect, tabstat, tabulate"
在既有變量的基礎上定義新變量—— "generate"
eg:定義一個新的虛擬變量“male”非春。當該變量取值為 0 時,個體為女性缓屠;取值為1時奇昙,個體為男性。那么我可以運行下面的命令:
generate male = abs(female - 1)
female 是已經(jīng)存在的變量——其取 1 時敌完,個體為女性储耐;取 0 時,個體為男性滨溉。abs(.)是絕對值函數(shù)什湘。 那么,一列名為 “male”的新變量就生成了晦攒。
generate 的擴展命令—— "egen"及分步生成變量
eg:還可以通過如下的方式來生成
generate male = 0 if female = = 1 replace male = 1 if male = = .
Step1:對所有的女性樣本定義變量 male 的取值闽撤。
如果只運行第一行命令, 會發(fā)現(xiàn):對于女性樣本脯颜,male 取值為 0哟旗;而對于男性樣本,male的取值為“.”,即缺漏栋操。
Step2:補缺漏的值.
我們加上第二行命令闸餐。 “replace”命令用來修改變量的取值。第二行命令的含義是:將變量 male 所有缺漏的值更改為 1讼庇。
截面數(shù)據(jù)被形象地稱作寬(wide)數(shù)據(jù)绎巨,而面板數(shù)據(jù)被形象地稱作長(long)數(shù)據(jù)。
TIPS:注意變量得數(shù)據(jù)類型
詳細說明 :Tips?25:reshape改變數(shù)據(jù)格式_Stata_新浪博客
導入的數(shù)據(jù)叫 master data 或 data in memory蠕啄,合并進來的數(shù)據(jù)叫 using data 或data on disk
關鍵點?紐帶變量(我認為就類似于數(shù)據(jù)庫里的鍵场勤,唯一識別碼,eg:id)
橫向合并歼跟,增加變量—— merge
stata區(qū)分大小寫和媳,同名變量要有相同的存儲類型
merge中,紐帶變量如果不唯一哈街,則要用選項"uniqusing"或者uniqmaster"
縱向合并留瞳,增加樣本—— append
匹配合并——
Step1:排序
對所有要合并數(shù)據(jù)中的紐帶變量進行排序
Step2:合并
多數(shù)據(jù)合并
詳細說明:Tips?24:merge合并數(shù)據(jù)_Stata_新浪博客
匹配合并示例
兩個文件,20位學生的成績
“mid.dta”:期中考試成績骚秦,其中學號為15 的學生沒有成績
“final.dta”:期末成績她倘,其中學號為09 的學生沒有成績
紐帶變量:學號?
?合并算法
把兩個文件中的數(shù)據(jù)分別按照學號排序璧微。
以 master data 中的學號為主,將 using data 中具有相同學號的數(shù)據(jù)一條一條并進來硬梁;如果某學號在 using data 中沒有記錄前硫,則在相應的變量中用小圓點代替(如09 號學生)。
如果某學號在 master data 中無記錄荧止、但在 using data 中有記錄(如15 號學生)屹电,則暫不合并;待所有在 master data 中存在的學號都合并完之后跃巡,再考慮那些只在 using data 中出現(xiàn)的學號危号。
斜體?需要將其替換成相應的內(nèi)容 (如將 depvar 替換成真正的因變量)
粗體and非斜體?在實際操作中,將其照搬素邪。
方括號?方括號括起來的部分在實際操作中可有可無外莲,沒有括起來的部分必須出現(xiàn)在命令中(比如,reg 命令至少要包含 reg 和 depvar 兩項娘香。如果是“reg depvar”苍狰,就表示拿因變量對常數(shù)項作回歸)
選項?“options”之前還得加個逗號办龄。
命令示例:
試運行regress并解讀
命令語句:reg wage educ exper if female= =1 in 1/100 [aweight=educ], noc l(90)
這條命令是拿工資對教育水平和工作經(jīng)驗作回歸烘绽,回歸的樣本限定為序號從 1 到 100 中的女性;考慮到可能存在的異方差俐填,用教育水平作權重安接;此外,回歸不包括常數(shù)項英融,且需要報告 90%水平上的置信區(qū)間盏檐。