1. 前言
在目前工作中,用stata清洗及分析數(shù)據(jù)势木,感覺很順滑。無奈不少同學因為help文件里的英文望而卻步歌懒。
帶著學習和分享的目的啦桌,根據(jù)工作經(jīng)驗,給大家整理一些常用以及不太常用但很有用的命令及皂,并對該命令的help文件進行有側(cè)重的詳解甫男。
2. 命令及獲取
codebook
:查看及描述數(shù)據(jù)內(nèi)容,系統(tǒng)自帶命令
3. 描述
codebook
: 查看變量名,變量標簽和數(shù)據(jù)验烧,從而生成描述數(shù)據(jù)集的編碼本板驳。
4. 語法
codebook [varlist] [if] [in] [, options]
- [,]:中括號里的為額外選項命令,按需求添加碍拆,而添加選項記得加英文逗號,
- [if]:表示增加條件若治,例如慨蓝,變量var等于1,
if var==1
。- [in]:表示選擇個案數(shù)端幼,例如礼烈,選擇前10個個案,
in 1/10
静暂。
5. 選項
all
:添加該選項济丘,相當于添加了header
和notes
選項,顯示數(shù)據(jù)集情況及注釋洽蛀,但是不包括添加mv
選項摹迷,最短可縮寫成a。header
:添加該選項郊供,在輸出結(jié)果最開始顯示數(shù)據(jù)集的路徑及名字以及上一次保存的時間等峡碉。最短可縮寫成h。notes
:添加該選項驮审,顯示賦給變量的所有注釋鲫寄。最短可縮寫成nmv
:添加該選項,指定codebook
搜索數(shù)據(jù)以確定缺失值的模式疯淫。 這是一項占用大量CPU的任務(wù)地来。最短可縮寫成m。tabulate(#)
:添加該選項熙掺,設(shè)置臨界值#來判斷變量是連續(xù)的還是分類的未斑。默認是9,即當變量存在9個以上的不同值時币绩,該變量會被定義為連續(xù)型的蜡秽。缺失值不會歸為一類,但也會在頻率表中缆镣。最短可縮寫成t(#)芽突。problems
:添加該選項,指定要生成摘要報告董瞻,以描述已診斷的潛在問題:①帶有未定義值標簽的變量寞蚌;②不完整的值標簽變量;③常量變量總是包括缺失值钠糊;④字符串變量中存在空格挟秤;⑤字符串變量中存在二進制0(\0);⑥存在非整數(shù)日期變量眠蚂;最短可縮寫成p煞聪。detail
:本選項和選項problems
結(jié)合使用斗躏,添加該選項逝慧,不隱藏有關(guān)變量的詳細報告昔脯。最短可縮寫成d。compact
:添加該選項笛臣,變量的描述報告更為緊湊云稚,本選項只能和dots
結(jié)合使用。最短可縮寫成c沈堡。dots
:添加該選項静陈,表示每處理一個變量,就會出現(xiàn)1個點诞丽。本選項只能和compact
結(jié)合使用鲸拥。languages[(namelist)]
:本選項適用于存在多種語言的數(shù)據(jù)集。添加該選項僧免,可以指定顯示數(shù)據(jù)刑赶,變量和值標簽的語言。最短可縮寫成lang[(namelist)]`
6. 舉例
*調(diào)入自帶數(shù)據(jù)auto
sysuse auto
*給變量rep78添加注釋investigate missing values
note rep78: "investigate missing values"
*將值標簽repairlbl賦給rep78
label values rep78 repairlbl
*查看所有變量的情況
codebook
*同上
codebook _all
*顯示數(shù)據(jù)集路徑及名字以及上一次保存的時間等
codebook,header
*顯示變量rep78情況
codebook rep78
*顯示變量rep78情況及變量注釋
codebook rep78,notes
*顯示數(shù)據(jù)集中存在的問題
codebook,problems
*將變量情況以緊湊的形式展示
codebook,compact
*調(diào)入自帶數(shù)據(jù)citytemp
webuse citytemp
*顯示變量cooldd heatdd tempjan tempjuly的情況及缺失模式
codebook cooldd heatdd tempjan tempjuly, mv
*調(diào)入自帶數(shù)據(jù)autom
webuse autom
*顯示變量foreign情況
codebook foreign
*顯示變量foreign情況懂衩,以及西班牙語的值標簽
codebook foreign,language(es)
*顯示變量foreign情況撞叨,以及所有語言的值標簽
codebook foreign,languages
7. 菜單
Data > Describe data > Describe data contents (codebook)
8. 存儲的結(jié)果
codebook
存儲存在以下問題的變量列表:
r(cons)
:常量(或缺失)r(labelnotfound)
:帶有未定義值標簽r(notalbeled)
:有標簽但沒有標簽類別的值r(str_type)
:可壓縮的r(str_leading)
:字符串最前面有空格r(str_trailing)
:字符串最后面有空格r(str_embedded)
:字符串中間有空格r(str_embedded0)
:包括二進制 0 (\0)r(realdate)
:非整數(shù)的日期
9. 補充
無