定量數(shù)據(jù)分析筆記

用stata算集中指數(shù)采用Stata系統(tǒng)自帶數(shù)據(jù)庫auto.dta虱肄。

一、集中趨勢的統(tǒng)計描述
  以變量price為例進(jìn)行說明修噪。
  均數(shù):采用mean price計算得6165.257愉择。
  算術(shù)均數(shù)、幾何均數(shù)和調(diào)和均數(shù)可以采用means巡李、ameans、gmeans鹊碍、hmeans計算声诸。
  眾數(shù):沒有對應(yīng)的命令可以直接計算眾數(shù)层坠,但是可以通過幾種策略進(jìn)行變通計算。如通過egen x=mode(price); disp x; drop x狱从,不過本例中price中沒有相同的數(shù)值,所以無法計算眾數(shù)叠纹;另外也可通過preserve; contract price, freq(x); sum x; list price if x==r(max); restore 來顯示季研。
  中位數(shù):centile price或tabstat price, s(med),當(dāng)然tabstat還可以計算均數(shù)吊洼、樣本量训貌、標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)誤冒窍、方差递沪、極差、四分位間距综液、變異系數(shù)款慨、峰度系數(shù)、偏度系數(shù)等等很多指標(biāo)谬莹。
  不過采用Stata(summarize 檩奠,tabstat等命令)計算的峰度系數(shù)與Excel、SPSS和SAS計算的結(jié)果有所不同附帽,原因是采用的公式不同埠戳,大家根據(jù)實際情況來選擇。
  二蕉扮、離散趨勢指標(biāo)
  極差(全距):tabstat price, s(r)
  標(biāo)準(zhǔn)差:tabstat price, s(sd)
  方差:tabstat price, s(v)
  四分位間距:tabstat price, s(iqr)
  變異系數(shù):tabstat price, s(cv)
  采用summarize 整胃, detail命令可以計算均數(shù)、標(biāo)準(zhǔn)差喳钟、峰度系數(shù)屁使、偏度系數(shù)、多個百分位數(shù)奔则。不加detial可以得到最大值蛮寂、最小值。

回歸分析
一易茬、概念介紹
R2酬蹋,又叫做決定系數(shù)(coefficient of determination),是來說明自變量解釋因變量變化百分比的度量,R2越接近1除嘹,表示回歸越成功写半。

pearson相關(guān)系數(shù)(Pearson‘s correlation coefficient),用字母r表示尉咕,主要描述線性相關(guān)強度的量叠蝇,取值(-1,1)之間年缎,當(dāng)兩個變量有很強的線性相關(guān)時悔捶,相關(guān)系數(shù)接近于1(正相關(guān))

最小二乘法(least squares regression),最小二乘法就是尋找一條直線单芜,使得所有點到該直線的垂直距離的平方和最小蜕该,也就是方差最小

F分布,

X2分布(卡方分布)

t分布
比較樣本均值所代表的未知總體均值μ和已知總體均值μ1的異同洲鸠。
類型:獨立樣本t檢驗和配對樣本t檢驗

week4
正態(tài)分布:一條呈鐘形的對稱曲線堂淡。對于一個服 從正態(tài)分布的隨機變量,它的均值扒腕、眾數(shù)和中位 數(shù)相同绢淀,都在概率分布曲線的最高點上。其相對 頻率從中間逐漸向兩端遞減瘾腰。
與中央極限定理的關(guān)系皆的,是經(jīng)典統(tǒng)計估計的基石。
判斷標(biāo)準(zhǔn):1蹋盆、看頻數(shù)(百分比)分布形狀费薄;2、計算均 值(70.7)栖雾、中位數(shù)(70)與眾數(shù)(70)楞抡。

均值決定正態(tài)分布中心的位置,標(biāo)準(zhǔn)差決定正太分布鐘形的形狀析藕。標(biāo)準(zhǔn)差決定正態(tài)分布的鐘形形狀——標(biāo)準(zhǔn)差越大召廷,鐘形越扁平

標(biāo)準(zhǔn)正態(tài)分布:均值為0,標(biāo)準(zhǔn)差為1的正太分布為標(biāo)準(zhǔn)正太分布噪径,亦稱為Z分布柱恤,Z的單位與標(biāo)準(zhǔn)差的長度相同数初。一般正太分布值轉(zhuǎn)為標(biāo)準(zhǔn)正太分布:Z=(x-μ)/σ
Z值在某一范圍的概率即相應(yīng)范圍內(nèi)概率分布曲線 下的面積找爱。
p(Z<1.96)stata表示為:display normal(1.96);p(Z>1.96)stata表示為:1-display normal(1.96)泡孩,如計算全體員工成績(μ=70.07车摄,σ=10.27),想知道成績位于均值到85之間的比例
解:display normal((85-70.07)/10.27)-.5(其中原理就是先轉(zhuǎn)化為標(biāo)準(zhǔn)正太分布值,然后求出標(biāo)準(zhǔn)下的面積吮播,再減去平均值0.5)变屁;反過來如果想通過比例求出分?jǐn)?shù)線,即已知Z值意狠,求x粟关,x=Zσ+μ,stata代碼:dis invnormal(.9)10.27+70.07(求處于公司前10%的分?jǐn)?shù)線)

檢查變量是否正太分布

symmetry plot:對稱圖环戈,用來判斷樣本數(shù)據(jù)的分布是否是對稱的闷板。symmetry plot在判斷樣本數(shù)據(jù)是否符合對稱分布時會有一條reference line 即參考線,這是一條完美的對稱分布數(shù)據(jù)院塞,樣本數(shù)據(jù)越接近這條線遮晚,越對稱。stata命令:symplot varname
qnorm:畫出一幅分位-正太標(biāo)繪圖拦止,就是比較樣本數(shù)據(jù)和正態(tài)分布數(shù)據(jù)在各個分位數(shù)上的差異
kdensity:是一種估計對給定樣本集合點隨機變量分布的密度函數(shù)县遣,屬于非參數(shù)估計(參數(shù)估計指先驗的假定數(shù)據(jù)符合某種特定的性態(tài),如線性的汹族、指數(shù)性態(tài)的等萧求,由此判斷數(shù)據(jù)樣本是否符合這種分布),而非參數(shù)估計方法則不同鞠抑,它對數(shù)據(jù)分布不附加任何假定饭聚,是一種從數(shù)據(jù)樣本本身出發(fā)研究數(shù)據(jù)分布的方法。

抽樣分布
抽樣誤差:樣本的統(tǒng)計值(statistic)與總體參數(shù) (parameter)之間的差異
中央極限定理:對于一個均值為μ搁拙,標(biāo)準(zhǔn)差為σ的總體秒梳,無論它本身是否服從正太分布,如果無數(shù)次從總體中抽取樣本量為n的樣本箕速,隨著n 的增大酪碘,那么樣本均值的分布將服從均值為μ,標(biāo)準(zhǔn)差為σ/根號n的正太分布盐茎,即:

比例的抽樣分布:對于一個某特定時間發(fā)生比例為π的總體兴垦,如果從中無限次抽取樣本量為n的樣本,那么隨著n的增大字柠,樣本比例P的分布將服從均值為π探越,標(biāo)準(zhǔn)差為 根號下π(1-π)/n,即

例題:某公司男女人數(shù)相同,現(xiàn)在隨機抽取100名員工窑业,問樣本中男人人數(shù)大于等于60人概率是多少钦幔?
dis sqrt(0.5*0.5/100) #求出標(biāo)準(zhǔn)差為0.05,所以這是一個均值為0.5常柄,標(biāo)準(zhǔn)差為0.05的正太分布
dis (0.6-0.5)/0.05 #轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布鲤氢,求出Z=0.2
dis 1-normal(2) #求出的就是大于等于60%的面積=0.022

置信區(qū)間
通過統(tǒng)計推斷找到包括樣本統(tǒng)計量在內(nèi)的一個區(qū)間搀擂;即通過有限樣本,估計出未知參數(shù)以多大的概率在某一區(qū)間內(nèi)取值卷玉。根據(jù)樣本均值分布特點哨颂,該區(qū)間被認(rèn)為包含總體參數(shù)。

置信水平(1-α)
總體參數(shù)落入某區(qū)間的概率相种。也就是“準(zhǔn)確估計”的信心威恼。而α稱為錯誤水平。常用置信水平:95%寝并、99%

計算置信區(qū)間的通用公式
公式:點估計值+-(關(guān)鍵值)*(標(biāo)準(zhǔn)誤差)
點估計值沃测,指樣本統(tǒng)計值(均值、比例)
關(guān)鍵值食茎,指根據(jù)抽樣分布和置信水平?jīng)Q定的一個固定值Z α/2蒂破,如95%的置信區(qū)間,Z α/2=±1.96
標(biāo)準(zhǔn)誤差是抽樣分布的標(biāo)準(zhǔn)差:σ/sqrt(n)

例子

均值的置信區(qū)間規(guī)律
置信水平相同的情況下别渔,樣本量越大附迷,區(qū)間越小哎媚;
樣本量相同的情況下喇伯,置信水平越高,區(qū)間越大 (這是因為由于數(shù)據(jù)樣本相同拨与,要想滿足更高的置信水平稻据,就必須有更大的置信區(qū)間,這樣才能保證樣本數(shù)據(jù)可以更正確的落入該區(qū)間)
區(qū)間越大买喧,總體均值落在其間的可能性越大捻悯,估計正確的概率越大(犯錯誤的可能性越小)淤毛,但估計的精確度越薪窀俊;區(qū)間越小低淡,估計的精確度越大姓言,但估計錯誤的概率也越大

求置信區(qū)間的stata命令
dis 平均值+-關(guān)鍵值*(標(biāo)準(zhǔn)差/根號下樣本量n)
ci var,level()

小樣本參數(shù)估計:t分布
t分布:參數(shù)估計的過程中蔗蹋,當(dāng)總體標(biāo)準(zhǔn)差未知時何荚,我們使用樣本的標(biāo)準(zhǔn)差代替。但是這種處理方式僅適用于樣本數(shù)量較大時猪杭,樣本數(shù)量小的話就會影響精度餐塘。因此,我們通常用t分布對小樣本均值(比例)進(jìn)行估計

t分布作用:比較樣本均值所代表的未知總體均值μ和已知總體均值μ1的異同胁孙。
類型:獨立樣本t檢驗和配對樣本t檢驗

t分布公式和性質(zhì)
μ指平均值唠倦,s指樣本標(biāo)準(zhǔn)差

小樣本均值(比例)的置信區(qū)間

不同于大樣本均值的置信區(qū)間關(guān)鍵值是Zα/2/,t檢驗的關(guān)鍵字是t α/2 ,下圖為大樣本均值和比例置信區(qū)間公式

t分布的使用
只有當(dāng)總體參數(shù)已知或者樣本容量較大的時候,才使用z分布進(jìn)行估計涮较,否則使用t分布稠鼻。一般情況下,在不確定的情況下狂票,使用t分布候齿,因為它更加保守

假設(shè)檢驗,也稱作顯著性檢驗闺属,是利用樣本統(tǒng)計值對關(guān)于總體參數(shù)的假設(shè)進(jìn)行評估檢驗的方法和程序慌盯。
原假設(shè)(null hypothesis),一個關(guān)于“沒有顯著差異”的陳述掂器,記為H0(可以或不可以被拒絕)
備擇假設(shè)(alternative hypothesis)亚皂,與原假設(shè)相互排斥的對立假設(shè),即“有顯著差異”的陳述国瓮,記為Ha灭必。(是否被驗證:如果原假設(shè)被拒絕,即可以被驗證乃摹,如果原假設(shè)不能被拒絕禁漓,即沒有被驗證)

t值計算
p,即拒絕原假設(shè)放錯誤的概率

顯著性水平α

單尾假設(shè)和雙尾假設(shè)
選擇雙尾或單尾檢驗的標(biāo)準(zhǔn):除非要強調(diào)檢驗的方向(如大于或小于)孵睬,通常使用雙尾檢驗播歼,因為它更保守
雙尾檢驗
H0:μ=μ0 or μ-μ0=0
H1:μ≠μ0 or μ-μ0≠0
左尾檢驗
H0:μ≥μ0 or μ-μ0≥0
H1:μ<μ0 or μ-μ0<0
右尾檢驗
H0:μ≤μ0 or μ-μ0≤0
H1:μ>μ0 or μ-μ0>0
計算方式:現(xiàn)根據(jù)條件計算出t值(t= (x-μ)/(s/sqrt(n))),然后通過stata求出p=dis 2*ttail(n-1掰读,t)
如果p<α秘狞,就可以拒絕原假設(shè),否則不能拒絕原假設(shè)

總體比例(π)的假設(shè)檢驗
用于類別(二項分布)變量
檢驗過程和均值假設(shè)檢驗一致
關(guān)鍵值t的計算公式t=(p-π)/sqrt(P(1-P)/n)(π:特定事件發(fā)生的比例為π)

雙變量和多變量分析
單變量分析蹈集,對單一變量的描述和推論統(tǒng)計分析
雙變量分析谒撼,對兩個變量之間的關(guān)系~~~
多變量分析,對三個或更多個變量之間的關(guān)系~~~

自變量(independent variable)和因變量(dependent variable)
雙變量分析雾狈,一個自變量一個因變量
多變量分析廓潜,一個因變量,兩個或以上個自變量
結(jié)構(gòu)方程模型善榛,有超過兩個的自變量和因變量

雙變量分析

T檢驗
T檢驗辩蛋,兩個變量,因變量為定距-定比變量移盆,自變量為定類-定序變量悼院,且自變量只有兩類(如男性和女性,城市和鄉(xiāng)村咒循,盈利與虧損等)据途,
典型的T檢驗:檢驗兩個群體(兩類)的均值是否有顯著差異绞愚,如收入是否有顯著性別差異;
擴展1:檢驗一個變量的均值跟一個設(shè)定值之間是否有顯著的差異(即前面的假設(shè)檢驗內(nèi)容)颖医;
擴展2:檢驗兩個變量的均值是否有顯著差異(配對樣本)

T檢驗位衩,stata命令
檢驗均值與一個設(shè)定值的差異:ttest varname=x,level=(#)
均值與設(shè)定值檢驗方法二:計算t檢驗 ttesti obs mean std μ(設(shè)定值),level(#)
方法三:通過求出置信區(qū)間熔萧,看設(shè)定值是否落入?yún)^(qū)間來判斷:ci varname,level()
檢驗兩個子群體均值的差異:ttest varname,by (group)
檢驗兩個變量均值的差異:ttest varname1=varname2

檢驗兩個群體的均值差異
stata命令驗證:ttesti obs1 mean1 sd1 obs2 mean2 sd2,unequal

求出t值后糖驴,計算p值 p=dis 2*ttail(obs1+obs2-2,t)
注意下面

比較兩個變量均值:配對樣本
ttest varname1=varname2

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末佛致,一起剝皮案震驚了整個濱河市贮缕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌俺榆,老刑警劉巖感昼,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異罐脊,居然都是意外死亡抑诸,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進(jìn)店門爹殊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蜕乡,“玉大人,你說我怎么就攤上這事梗夸〔懔幔” “怎么了?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵反症,是天一觀的道長辛块。 經(jīng)常有香客問我,道長铅碍,這世上最難降的妖魔是什么润绵? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮胞谈,結(jié)果婚禮上尘盼,老公的妹妹穿的比我還像新娘。我一直安慰自己烦绳,他們只是感情好卿捎,可當(dāng)我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著径密,像睡著了一般午阵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上享扔,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天底桂,我揣著相機與錄音植袍,去河邊找鬼。 笑死籽懦,一個胖子當(dāng)著我的面吹牛于个,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播猫十,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼呆盖!你這毒婦竟也來了拖云?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤应又,失蹤者是張志新(化名)和其女友劉穎宙项,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體株扛,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡尤筐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了洞就。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盆繁。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖旬蟋,靈堂內(nèi)的尸體忽然破棺而出油昂,到底是詐尸還是另有隱情,我是刑警寧澤倾贰,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布冕碟,位于F島的核電站,受9級特大地震影響匆浙,放射性物質(zhì)發(fā)生泄漏安寺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一首尼、第九天 我趴在偏房一處隱蔽的房頂上張望挑庶。 院中可真熱鬧,春花似錦软能、人聲如沸挠羔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽破加。三九已至,卻和暖如春雹嗦,著一層夾襖步出監(jiān)牢的瞬間范舀,已是汗流浹背合是。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留锭环,地道東北人聪全。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像辅辩,于是被迫代替她去往敵國和親难礼。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容