白話統(tǒng)計(jì)-----基礎(chǔ)篇讀書筆記
第一章:為什么要學(xué)統(tǒng)計(jì)學(xué)
1.1為什么要學(xué)習(xí)統(tǒng)計(jì)學(xué)幸缕?
(1)對(duì)于醫(yī)學(xué)生從實(shí)際用途上講,學(xué)習(xí)統(tǒng)計(jì)學(xué)可以助力我們的科研工作晃择,開闊思路冀值。
(2)同時(shí)學(xué)習(xí)統(tǒng)計(jì)學(xué)能培養(yǎng)一種理性看待事物的能力。
1,2生活事事皆統(tǒng)計(jì)
生活中處處是統(tǒng)計(jì)學(xué)的身影宫屠,無論是生活常識(shí)“看云識(shí)雨”,還是事物發(fā)展規(guī)律"物極必反"都與統(tǒng)計(jì)學(xué)的相關(guān)知識(shí)密不可分滑蚯。人生充滿不確定性浪蹂,而統(tǒng)計(jì)學(xué)正是處理這種不確定性的方法抵栈。
1.3如何學(xué)習(xí)統(tǒng)計(jì)學(xué)
好吧,努力學(xué)習(xí)和練習(xí)是必不可少的坤次,除此之外古劲,我們要明確:統(tǒng)計(jì)分析思路永遠(yuǎn)是第一位的,而軟件操作是第二位的缰猴。
第二章:變異---統(tǒng)計(jì)存在的基礎(chǔ)
? 統(tǒng)計(jì)學(xué)為什么存在呢产艾?所有統(tǒng)計(jì)學(xué)的發(fā)展,或者說統(tǒng)計(jì)學(xué)之所以存在滑绒,那就是變異以及變異所導(dǎo)致的抽樣誤差闷堡。想象一下,如果全世界所有人的身高都是1.70米疑故,只要隨便量一個(gè)人的身高杠览,就知道了全世界人的身高。那統(tǒng)計(jì)學(xué)就沒有存在的必要了纵势。
2.1 隨機(jī)與變異
隨機(jī)現(xiàn)象:在一定條件下可能發(fā)生也可能不發(fā)生的現(xiàn)象踱阿。
變異:具有可比性的對(duì)象之間的差異,其使試驗(yàn)或者觀察結(jié)果具有不確定性钦铁。
正是因?yàn)樽儺惾砩啵圆艜?huì)出現(xiàn)隨機(jī)事件,才會(huì)有統(tǒng)計(jì)學(xué)的發(fā)展牛曹,在看似雜亂的現(xiàn)象中找出潛在的規(guī)律佛点。
2.2 特朗普與羅斯福的勝出——抽樣調(diào)查到底可不可靠
越來越多的數(shù)據(jù)表明:科學(xué)合理的抽樣調(diào)查,其推斷結(jié)果是可靠的躏仇。但是為什么羅斯福的抽樣調(diào)查預(yù)測結(jié)果卻失敗呢恋脚?首先抽樣調(diào)查的可靠性不僅取決于樣本量的大小,更重要的是樣本對(duì)總體是否有充分的代表性焰手。其次糟描,還有一些影響因素:比如調(diào)查員的水平,總體人群的變化等书妻。
2.3什么是抽樣誤差
抽樣誤差:是指用樣本統(tǒng)計(jì)值與被推斷的總體參數(shù)出現(xiàn)的偏差船响。
由于抽樣誤差的存在,我們可以用置信區(qū)間來估計(jì)總體參數(shù)躲履。
抽樣誤差的大小如何計(jì)算见间?通常使用標(biāo)準(zhǔn)誤。如果標(biāo)準(zhǔn)誤較小工猜,則說明抽樣誤差較小米诉,這意味著樣本很穩(wěn)定,對(duì)總體的代表性很好篷帅,推論的結(jié)果應(yīng)該較為可靠史侣;但如果標(biāo)準(zhǔn)誤較大拴泌,則說明抽樣誤差大,提示樣本的代表性不強(qiáng)惊橱,這種情況下一般需要加大樣本量蚪腐,否則結(jié)果不可靠。
第三章:郭靖的內(nèi)力能支撐多久---談概率分布
3.1累積分布和概率密度的通俗理解
累積分布函數(shù)一般用F(x)表示税朴,概率密度函數(shù)一般用f(x)表示回季。累計(jì)分布比較容易理解,以郭靖內(nèi)力的消耗為例正林,累計(jì)分布記錄的是郭靖內(nèi)力消耗量從0%至100%隨時(shí)間變化的過程泡一。概率密度函數(shù)則表示的是概率的密度,它其實(shí)是累計(jì)分布函數(shù)的導(dǎo)函數(shù)卓囚,表示的是郭靖在某一時(shí)間點(diǎn)的內(nèi)力消耗量瘾杭。
二者之間的關(guān)系:密度=累計(jì)分布的增加量/長度? ?累積分布增加量=密度*長度
常見的一些概率密度函數(shù):t分布、正態(tài)分布哪亿、二項(xiàng)分布粥烁、Weibull分布等
3.2 用Weibull分布尋找生存規(guī)律
首先我們要明確,生存數(shù)據(jù)中生存和死亡的意義蝇棉。任意我們關(guān)注的事件結(jié)局都可以稱為"死亡"讨阻,未發(fā)生的結(jié)局都可以稱為“生存”。
本節(jié)的生存數(shù)據(jù)我們用Weibull分布擬合效果較好篡殷,這個(gè)主要是通過經(jīng)驗(yàn)積累才能判斷對(duì)于出現(xiàn)的數(shù)據(jù)模型我們應(yīng)該采用什么樣的分布擬合钝吮。
Weibull分布常用于生存數(shù)據(jù)擬合,它的形狀主要由兩個(gè)參數(shù)決定板辽,參數(shù)反應(yīng)曲線位置奇瘦,參數(shù)p控制曲線形狀涂臣。(p=1是為指數(shù)分布演痒;p=2是為瑞利分布)
由本節(jié)例子我們可以看出,當(dāng)固定參數(shù)p時(shí)胜嗓,越大相同橫坐標(biāo)對(duì)的縱坐標(biāo)的值越大邑跪;當(dāng)固定參數(shù)時(shí)次坡,p<1時(shí)率逐漸遞減,p=1時(shí)為指數(shù)分布率值恒定画畅,p>1時(shí)率逐漸增加砸琅,p=2時(shí)為瑞利分布率呈線性增長。
3.3 用Logistic分布探索疾病流行規(guī)律
Logistic分布常用于研究一些物種的生命周期的演變規(guī)律轴踱,比如症脂,人口變化、生物種群變化、疾病感染情況變化等摊腋,所以也把它稱為“生長曲線”沸版。
Logistic分布通常為三參數(shù)或者二參數(shù)形式嘁傀。
三參數(shù)Logistic曲線中k表示上線值兴蒸、a反應(yīng)增長速度、b表示拐點(diǎn)细办,即從b點(diǎn)開始上升速度變慢橙凳。有些情況下上線值已經(jīng)確定(一般為1),這時(shí)候就變成了二參數(shù)Logistic曲線笑撞。
Logistic分布的基本形式為S形曲線岛啸,可以分為四個(gè)階段:發(fā)生、發(fā)展茴肥、成熟坚踩、飽和。
3.4“普通”正態(tài)分布
正態(tài)分布主要由兩個(gè)參數(shù)決定:均數(shù)(位置參數(shù))和標(biāo)準(zhǔn)差(形狀參數(shù))
(1)均數(shù)是位置參數(shù)瓤狐,當(dāng)恒定時(shí)瞬铸,均數(shù)越大,則曲線沿X軸越向右移础锐,反之嗓节,則越向左移。
(2)標(biāo)準(zhǔn)差是形狀參數(shù)皆警,當(dāng)均數(shù)恒定時(shí)拦宣,標(biāo)準(zhǔn)差越大,分布越“矮胖”信姓,標(biāo)準(zhǔn)差越小鸵隧,分布越“瘦高”。
(3)x距離均數(shù)越遠(yuǎn)意推,密度值越小豆瘫,且為逐漸降低。
(4)正態(tài)分布的曲線下面積:
()區(qū)間為:68.2%
()區(qū)間為:95.4%
()區(qū)間為:99.7%
(4)應(yīng)用:六西格瑪質(zhì)量控制俊性,是將錯(cuò)誤發(fā)生率控制在6倍標(biāo)準(zhǔn)差之外略步,在正態(tài)分布中,超出6倍標(biāo)準(zhǔn)差的面積約為百萬分之一定页,主要用于一些要求比較高的領(lǐng)域趟薄。
3.5常用的一些分布
t分布(可以看做是小樣本的正態(tài)分布)
(1)當(dāng)自由度越小,t分布與標(biāo)準(zhǔn)正態(tài)分布偏離越大
(2)當(dāng)自由度很大(30-50)典徊,t分布接近標(biāo)準(zhǔn)正態(tài)分布
(3)EXCEL中可以利用TINV函數(shù)輸出不同面積對(duì)應(yīng)的t值
(4)常用于兩個(gè)均數(shù)是否相等的統(tǒng)計(jì)檢驗(yàn)杭煎、回歸系數(shù)是否為0的統(tǒng)計(jì)檢驗(yàn)恩够。
分布
(1)Z于一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量Z,它的平方服從自由度為1的分布羡铲,也就是說對(duì)于自由度為1的分布蜂桶,它的值是標(biāo)準(zhǔn)正態(tài)分布相應(yīng)z值的平方
(2)服從自由度為1 的的分布;服從自由度為n 的的分布
(3)分布只有一個(gè)參數(shù)——自由度也切∑嗣模總的來說分布呈偏態(tài)分布,但隨著自由度的增加雷恃,其偏度逐漸減薪伞;當(dāng)自由度趨于無窮時(shí)倒槐,其分布趨于正態(tài)分布
(4)EXCEL中可以利用CHISQ.INV函數(shù)輸出不同面積對(duì)應(yīng)的值
F分布
(1)當(dāng)分子自由度較小時(shí)旬痹,F(xiàn)分布呈偏態(tài)分布,但隨著分子自由度的增加讨越,其偏度逐漸減小两残,其分布趨于正態(tài)分布。在方差分析中谎痢,分子自由度為組別數(shù)-1磕昼,由于組別數(shù)通常不會(huì)太多,因此F分布一般呈偏態(tài)分布
(2)EXCEL中可以利用FINV函數(shù)輸出不同面積對(duì)應(yīng)的F值
(3)常用于方差齊性檢驗(yàn)节猿、方差分析和回歸模型檢驗(yàn)
第四章:關(guān)于統(tǒng)計(jì)資料類型的思考
常見的資料類型
1.定量資料:a 連續(xù)型資料? ?b? 離散型資料
2.定性資料:a二分類資料? ? b 無序多分類資料? c 有序多分類資料?
4.1計(jì)數(shù)資料等于分類資料嗎
? ?計(jì)數(shù)資料:其實(shí)就是對(duì)于某個(gè)事件進(jìn)行計(jì)數(shù)的資料票从,例如對(duì)于咳嗽次數(shù)的計(jì)數(shù),這種清點(diǎn)得到的數(shù)值是有單位的滨嘱。而分類資料是沒有單位的峰鄙。兩者是不同的數(shù)據(jù)類型。
計(jì)數(shù)資料服從Poisson分布太雨,所以在回歸分析的時(shí)候使用Poisson回歸或者負(fù)二項(xiàng)回歸吟榴。兩個(gè)回歸之間的區(qū)別在于,Poisson一般用于個(gè)體之間相互獨(dú)立的情形囊扳,而負(fù)二項(xiàng)回歸則用于個(gè)體之間不獨(dú)立的情形吩翻,比如說咳嗽是相互傳染的,那么分析的時(shí)候需要用到負(fù)二項(xiàng)回歸锥咸。
分類資料服從二項(xiàng)分布或者多項(xiàng)分布狭瞎,一般采用二分類或多項(xiàng)Logistic回歸分析。
4.2計(jì)數(shù)資料可以按連續(xù)資料來分析嗎搏予?
這個(gè)一般來說是不能的熊锭。計(jì)數(shù)資料只能為非負(fù)數(shù),這種資料往往表現(xiàn)為偏態(tài)分布,不適合進(jìn)行一般線性模型分析碗殷。
除非滿足以下條件:
(1)計(jì)數(shù)資料取值都離0很遠(yuǎn)精绎,大致呈正態(tài)分布
(2)如果主要研究目的是進(jìn)行預(yù)測,而且研究者對(duì)預(yù)測出現(xiàn)小數(shù)點(diǎn)甚至負(fù)數(shù)不是很介意锌妻,這種情況下代乃,可以考慮將計(jì)數(shù)資料作為連續(xù)資料進(jìn)行分析
4.3分類資料中的有序和無序是如何確定的?
如果研究目的關(guān)注等級(jí)或者程度上的差異从祝,則可以將其作為有序分類資料襟己,進(jìn)行秩和檢驗(yàn)。
如果研究目的只是想了解各級(jí)別的構(gòu)成情況牍陌,并不關(guān)注程度上的區(qū)別,則可以將其作為無序分類資料员咽,進(jìn)行卡方檢驗(yàn)毒涧。
4.4 連續(xù)資料什么時(shí)候需要轉(zhuǎn)換為分類資料
(1)出于實(shí)際應(yīng)用的考慮。比如為了說明BMI與患高血壓風(fēng)險(xiǎn)之間的關(guān)系時(shí)贝室,將BMI轉(zhuǎn)換為肥胖人群和正常體重人群可以更加清楚簡便的表達(dá)我們的觀點(diǎn)契讲。
(2)如果連續(xù)資料本身與結(jié)果變量之間并不是線性關(guān)系,那么有時(shí)候?yàn)榱撕啽銌栴}滑频,可以考慮將其作為分類資料捡偏。劃分的過程中尤其要注意劃分的界限不要有重疊。
4.5連續(xù)資料如何分組——尋找cut-off值的多種方法
1 根據(jù)專業(yè)和實(shí)際經(jīng)驗(yàn)
主要適用于一些常規(guī)變量峡迷。
而且要注意:當(dāng)樣本量較小時(shí)银伟,最好只分為兩類,否則容易導(dǎo)致結(jié)果不可靠绘搞。而且作為參照組的那一類例數(shù)不能太少彤避,否則你會(huì)發(fā)現(xiàn)所有估計(jì)結(jié)果都是不穩(wěn)定的。
2 利用廣義可加模型結(jié)合專業(yè)來劃分
廣義可加模型繪制出來的曲線不一定是線性的夯辖。這個(gè)模型主要用來探索自變量和因變量的關(guān)系琉预。
3 利用ROC曲線找出cut-off值來劃分
ROC曲線是以靈敏度為y軸,以1-特異度為x軸蒿褂,由不同界值產(chǎn)生不同的點(diǎn)圆米,將這些點(diǎn)連接起來形成的。
主要的用途:a 評(píng)價(jià)某個(gè)/多個(gè)指標(biāo)的診斷/分類的效果? ? ?b 尋找最佳的指標(biāo)閾值使得分類效果最佳
利用ROC曲線找出cut-off值 :前提條件:有一個(gè)明確的二分類結(jié)局啄栓;ROC曲線中最接近左上角的點(diǎn)就是cut-off值娄帖,或者通過計(jì)算使(靈敏度+特異度-1)取值最大的一個(gè)點(diǎn)作為cut-off值。
4 利用最大選擇秩統(tǒng)計(jì)量來劃分
當(dāng)因變量是定量資料或者生存資料時(shí)谴供,這時(shí)候不適合再應(yīng)用ROC曲線块茁,這時(shí)可以應(yīng)用最大選擇秩統(tǒng)計(jì)量來尋找cut-off值。其主要思想也是把所有可能的分組都計(jì)算一遍。然后尋找最佳的結(jié)果数焊。?R中可以通過maxstat來實(shí)現(xiàn)永淌。
5 利用分類樹來劃分
該方法是基于“熵”的概念,對(duì)要?jiǎng)澐值倪B續(xù)變量的每一個(gè)值進(jìn)行劃分佩耳,然后計(jì)算熵的降低程度遂蛀,最后找的一個(gè)熵降低程度最大的劃分值,將其作為cut-off值干厚。R中可以通過rpat來實(shí)現(xiàn)李滴。
6聚類分析
之前的方法都有一個(gè)條件即必須有一個(gè)明確的確定的結(jié)局,這樣根據(jù)結(jié)局對(duì)自變量進(jìn)行劃分蛮瞄,通常將這些情況稱為有監(jiān)督的所坯。但是如果我們沒有結(jié)局變量的時(shí)候,這樣就需要用到的聚類分析挂捅。
有的聚類算法需要在劃分前指定擬劃分的類別數(shù)如:K-means芹助、SOM法,有的則不需要如:層次法闲先。
總體的原則:保證劃分后各類別之間的距離盡量遠(yuǎn)状土,類內(nèi)的距離比較近。
4.6 什么是虛擬變量/啞變量
虛擬變量(dummy variable)也叫啞變量伺糠,虛擬變量其實(shí)算不上一種變量類型(比如連續(xù)變量蒙谓、分類變量等),確切地說训桶,是一種將多分類變量轉(zhuǎn)換為二分變量的一種形式累驮。
(1)虛擬變量主要用于多分類自變量與因變量是非線性關(guān)系的時(shí)候。
(2)優(yōu)點(diǎn):當(dāng)多分類自變量與因變量是非線性關(guān)系的時(shí)候渊迁,虛擬變量可以更真實(shí)的展示二者之間的關(guān)系慰照。
(3)缺點(diǎn):把一個(gè)多分類變量轉(zhuǎn)換為虛擬變量后,自變量數(shù)目會(huì)增多琉朽,如果我們的樣本量不是很大毒租,那么自變量的增加會(huì)導(dǎo)致估計(jì)結(jié)果不穩(wěn)定。
(4)虛擬變量的參照量的設(shè)置主頁根據(jù)研究目的和專業(yè)箱叁,但要注意參照組的樣本量不要太小墅垮,否則會(huì)使估計(jì)結(jié)果不穩(wěn)定。
(5)如果我們的虛擬變量的結(jié)果不一致耕漱,應(yīng)該把所有的虛擬變量的結(jié)果展示出來算色,而不是只展示有統(tǒng)計(jì)學(xué)意義的哪一個(gè)。
第5章:如何展示你的數(shù)據(jù)
定量資料的統(tǒng)計(jì)描述指標(biāo):?
均數(shù)和中位數(shù)——展示數(shù)據(jù)的集中情況
標(biāo)準(zhǔn)差和四分位數(shù)間距——展示數(shù)據(jù)的分散程度
百分位數(shù)螟够、標(biāo)準(zhǔn)化Z值——描述相對(duì)位置
定性資料的統(tǒng)計(jì)描述指標(biāo):主要由率灾梦、比例等峡钓。
5.1均數(shù)和中位數(shù)
均數(shù):數(shù)據(jù)之和除以例數(shù)
中位數(shù):把數(shù)據(jù)從小到大排序后位于中間的那個(gè)數(shù)
均數(shù)和中位數(shù)——展示數(shù)據(jù)的集中情況
正態(tài)分布的數(shù)據(jù)可以用均數(shù)來描述,偏態(tài)分布的數(shù)據(jù)最好用中位數(shù)來描述
二者之間的位置關(guān)系若河,如下:
5.2 方差和標(biāo)準(zhǔn)差——變異的度量
變異是統(tǒng)計(jì)學(xué)的基礎(chǔ)能岩,方差和標(biāo)準(zhǔn)差是測量變異最常用的兩個(gè)指標(biāo)。
方差是一個(gè)分布中取值離散程度的統(tǒng)計(jì)平均數(shù)萧福。計(jì)算方法是把每一個(gè)取值減去平均值得到離差值取平方拉鹃,然后把這些離差平方項(xiàng)全部加起來,再除以分布中的取值的個(gè)數(shù)鲫忍。
標(biāo)準(zhǔn)差是一個(gè)分布中單個(gè)取值與均值之間的典型或平均離差膏燕。計(jì)算方法是把方差開平方。
SAMPL規(guī)范建議悟民,對(duì)于正態(tài)分布的資料坝辫,建議用“均數(shù)(標(biāo)準(zhǔn)差)”的形式進(jìn)行統(tǒng)計(jì)描述。
5.3自由度——你有多少自由活動(dòng)的范圍
自由度:計(jì)算統(tǒng)計(jì)量時(shí)能夠自由取值的個(gè)數(shù)逾雄,一般用df來表示阀溶。
為什么樣本的自由度為n-1?簡單來說鸦泳,n個(gè)樣本,如果在某種條件下永品,樣本均值時(shí)先定的做鹰,那么就只剩下n-1個(gè)樣本的值是可以變化的。
不同的統(tǒng)計(jì)方法中鼎姐,自由度都不一樣钾麸,但基本原則都是:每估計(jì)1個(gè)參數(shù),就需要消耗1個(gè)自由度炕桨。
(1)在單樣本t檢驗(yàn)中饭尝,因?yàn)橹恍枰烙?jì)一個(gè)參數(shù),所以自由度為n-1
(2)在兩組比較的t檢驗(yàn)中献宫,因?yàn)樾枰烙?jì)的參數(shù)有兩個(gè)钥平,所以自由度為n1+n2-2
(3)在多組比較的方差法分析中,當(dāng)有k個(gè)組時(shí)姊途,就需要估計(jì)k個(gè)組的均數(shù)涉瘾,所以自由度為(n1+n2+n3+....+nk)-k
(4)在回歸分析中,如果有m個(gè)自變量捷兰,待估計(jì)的參數(shù)就有m+1(m個(gè)自變量加一個(gè)截距項(xiàng))個(gè)立叛,所以模型的F檢驗(yàn)的自由度為n-(m+1)
5.4百分位數(shù)——利用百分位數(shù)度量相對(duì)位置
相對(duì)位置的度量主要有兩個(gè)指標(biāo):百分位數(shù)、標(biāo)準(zhǔn)化Z值
極差:第100百分位數(shù)和第0百分位數(shù)之差
下四分位數(shù):第25百分位數(shù)(用Q1表示)
上四分位數(shù):第75百分位數(shù)(用Q3表示)
四分位間距:Q3-Q1
中位數(shù):第50百分位數(shù)
如果數(shù)據(jù)呈偏態(tài)分布贡茅,一般建議用“中位數(shù)(Q3-Q1)”的形式進(jìn)行統(tǒng)計(jì)描述
箱線圖:
上下的兩個(gè)須子分別是“上四分位數(shù)+1.5*四分位數(shù)間距”和“下四分位數(shù)+1.5*四分位數(shù)間距”秘蛇,如果數(shù)據(jù)沒有那么大的值其做,那么上下的兩個(gè)須子分別是最大值和最小值。箱體中間的實(shí)線代表取值分布的中位數(shù)赁还。
5.5利用Z值度量相對(duì)位置
Z值(標(biāo)準(zhǔn)化)的計(jì)算公式為(x - 均值)/標(biāo)準(zhǔn)差妖泄。數(shù)據(jù)一旦標(biāo)準(zhǔn)化,就都成了以0為均數(shù)秽浇,以1為標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)正態(tài)分布浮庐。
Z值反應(yīng)了某個(gè)值x偏離均數(shù)的標(biāo)準(zhǔn)差的倍數(shù)。
Z值的兩種用途:
(1)比較不同單位的指標(biāo)柬焕。通過Z值的轉(zhuǎn)換比較不同單位那個(gè)大那個(gè)小审残。
(2)判斷異常值。一般而言斑举,在標(biāo)準(zhǔn)分布中大于3倍的數(shù)據(jù)可以定義為異常值搅轿。(只適用于正態(tài)分布,偏態(tài)不行)
5.6談一下比例和率
比例(proportion)是一個(gè)靜態(tài)的指標(biāo)富玷,說明的是在一個(gè)群體中璧坟,某種狀態(tài)所占的百分比,如本節(jié)的例子中赎懦,百歲老人中不經(jīng)常鍛煉的比例雀鹃、男性的比例、喜歡吃腌制品的比例励两。
率(rate)則更像一個(gè)動(dòng)態(tài)指標(biāo)黎茎,反應(yīng)的是不同特征的人群中出現(xiàn)某種結(jié)局的百分比。
5.7在文章中如何正確展示百分比
百分比展示的原則是:每個(gè)分組變量內(nèi)的合計(jì)為100%当悔。
第6章:尋找失蹤的運(yùn)動(dòng)員——中心極限定理
6.1中心極限定理針對(duì)的是樣本統(tǒng)計(jì)量而非原始數(shù)據(jù)
中心極限法則的理論含義是:假定有一個(gè)總體數(shù)據(jù)傅瞻,如果從該總體中多次抽樣,那么理論上盲憎,每次抽樣所得的統(tǒng)計(jì)量(均數(shù))與總體參數(shù)(均數(shù))應(yīng)該差別不大嗅骄,大致圍繞在總體參數(shù)為中心,并且呈正態(tài)分布饼疙。
(1)樣本統(tǒng)計(jì)量是以總體參數(shù)為中心呈正態(tài)分布
(2)每次抽樣的樣本量越大溺森,根據(jù)樣本均數(shù)再次計(jì)算出的均數(shù)越接近總體均數(shù)。而且宏多,每次抽樣的樣本量越大儿惫,分布越集中。
(3)無論總體是什么樣的分布(正態(tài)的伸但、偏態(tài)的肾请、均勻的),根據(jù)上述過程進(jìn)行多次抽樣更胖,樣本統(tǒng)計(jì)量始終是呈正態(tài)分布铛铁,尤其是在每次抽樣的樣本量較大的時(shí)候隔显。
6.2樣本量大于30就可以認(rèn)為是正態(tài)分布了嗎?
不可以
首先中心極限定理針對(duì)的是樣本統(tǒng)計(jì)量而非原始數(shù)據(jù)饵逐,它說無論總體是什么樣的分布(正態(tài)的括眠、偏態(tài)的、均勻的)倍权,從原始數(shù)據(jù)中多次抽樣掷豺,如果每個(gè)樣本中的例數(shù)大于30,那么這些統(tǒng)計(jì)量的分布接近正態(tài)薄声。
而對(duì)于某些原始數(shù)據(jù)当船,即使例數(shù)有成千上萬個(gè),依然是不服從正態(tài)分布的默辨。比如某些檢驗(yàn)指標(biāo)德频、住院費(fèi)用等。
第7章:從“女士品茶”中領(lǐng)會(huì)假設(shè)檢驗(yàn)的思想
7.1女士品茶的故事
7.2零假設(shè)和備擇假設(shè)
零假設(shè):一般是想推翻的缩幸,用Ho表示壹置,通常為組間差異為0、兩個(gè)變量的相關(guān)系數(shù)為0表谊、回歸系數(shù)為0等钞护。
備擇假設(shè):一般是想證實(shí)的,用H1表示爆办,與零假設(shè)是對(duì)立面患亿。
如何驗(yàn)證?押逼,最常用的的是經(jīng)典統(tǒng)計(jì)方法,根據(jù)我們事先做出的假定惦界,利用收集到的數(shù)據(jù)計(jì)算一個(gè)統(tǒng)計(jì)量挑格。通俗地說,這個(gè)統(tǒng)計(jì)量反映了距離我們所做的假設(shè)有多遠(yuǎn)沾歪,離得越遠(yuǎn)漂彤,越說明假設(shè)不可靠,離得越近灾搏,說明假設(shè)越可靠挫望。
7.3假設(shè)檢驗(yàn)中的兩種錯(cuò)誤
(1)I型錯(cuò)誤:又稱為假陽性錯(cuò)誤,I型錯(cuò)誤:又稱為假陰性錯(cuò)誤狂窑,二者之間此消彼長媳板,I型錯(cuò)誤增大II型錯(cuò)誤減少。所以當(dāng)我們提高標(biāo)準(zhǔn)時(shí)泉哈,可以降低假陽性率蛉幸,但同時(shí)會(huì)提高假陰性破讨;同樣如果降低標(biāo)準(zhǔn),則可以降低假陰性奕纫,但同時(shí)會(huì)提高假陽性率提陶。這兩種錯(cuò)誤在不同的角度,重要性不同匹层,根據(jù)我們的研究目的選擇是提高標(biāo)準(zhǔn)還是降低標(biāo)準(zhǔn)隙笆。
(2)目前一般把I型錯(cuò)誤設(shè)為0.05,II型錯(cuò)誤設(shè)為0.1或0.2升筏,把握度設(shè)為0.8撑柔。
(3)把握度越高,說明有更多的把握做出有意義的統(tǒng)計(jì)學(xué)結(jié)論仰冠。當(dāng)我們文章的結(jié)果為陰性時(shí)乏冀,可以計(jì)算一下把握度,如果把握度很低洋只,則說明可能是樣本不足導(dǎo)致無法檢驗(yàn)出陽性結(jié)果辆沦。
7.4 P值的含義
有些人認(rèn)為P值是零假設(shè)的正確率,P值越小识虚,零假設(shè)越不正確肢扯。這是一種非常錯(cuò)誤的理解,因?yàn)槲覀儫o法說零假設(shè)正確或錯(cuò)誤的概率有多大担锤。
實(shí)際上蔚晨,P值是關(guān)于數(shù)據(jù)計(jì)算結(jié)果的概率,在零假設(shè)的前提下肛循,計(jì)算出至少這么大的統(tǒng)計(jì)量铭腕,這種情況有多大可能是偶然發(fā)生的。
7.5為什么P值小于0.05(而不是小于0.02)才算有統(tǒng)計(jì)學(xué)意義
P值是由統(tǒng)計(jì)學(xué)界最牛的人Fisher老先生提出并推動(dòng)的多糠,這來源于他以及以后由奈曼和皮爾遜發(fā)展的假設(shè)檢驗(yàn)思想
當(dāng)P值小于5%認(rèn)為是小概率事件累舷,在統(tǒng)計(jì)學(xué)上就認(rèn)為不大可能發(fā)生。
(1)在正態(tài)分布中夹孔,我們以偏離均值的2倍標(biāo)準(zhǔn)差作為有無統(tǒng)計(jì)學(xué)顯著性的依據(jù)被盈。而在正態(tài)分布中對(duì)應(yīng)的2倍標(biāo)準(zhǔn)差的概率為0.046,不容易記住搭伤,因此沒有取2倍標(biāo)準(zhǔn)差只怎,而是取1.96倍標(biāo)準(zhǔn)差,它的對(duì)應(yīng)的概率為0.05怜俐,更容易記憶身堡。
(2)雖然我們可以設(shè)定界值更小,這樣可以降低假陽性率佑菩,但是同時(shí)卻容易增加假陰性率盾沫。
(3)P值的大小與差別大小沒什么關(guān)系裁赠,而是跟樣本的大小更有關(guān)。
7.6為什么零假設(shè)要設(shè)定兩組相等而不是兩組不等
假設(shè)檢驗(yàn)是在零假設(shè)成立的前提下赴精,采用反證法佩捞,通過數(shù)據(jù)證明零假設(shè)是錯(cuò)誤的。
我們計(jì)算的樣本均數(shù)蕾哟、標(biāo)準(zhǔn)差都是固定的一忱,唯一需要確定的就是這些樣本統(tǒng)計(jì)值與零假設(shè)之間的距離, 如果零假設(shè)無法確定谭确,也就無法確定偏離多遠(yuǎn)帘营。所以在假設(shè)檢驗(yàn)中零假設(shè)中的參數(shù)要為某個(gè)確定的值,而不是不等于某個(gè)值逐哈。
第8章:參數(shù)估計(jì)——一葉落而知秋
參數(shù)估計(jì):根據(jù)樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)
參數(shù)估計(jì)的兩種形式:a 點(diǎn)估計(jì)——準(zhǔn)確但未必可靠? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? b區(qū)間估計(jì)——可靠但不精確
8.1點(diǎn)估計(jì)
這種方法就是計(jì)算樣本均數(shù)芬迄、方差等,作為總體均數(shù)昂秃、方差等的估計(jì)值禀梳。
8.2最小二乘估計(jì)
最小二乘估計(jì):主要用于線性回歸的參數(shù)估計(jì),就是求一個(gè)使得實(shí)際值與模型估計(jì)值之間的差值達(dá)到最小的值肠骆,將其作為參數(shù)估計(jì)值算途。
最小二乘估計(jì)主要由兩種方式:
(1)最小平方和法:將每一個(gè)距離求平方后再求和
(2)最小絕對(duì)值法:將距離絕對(duì)值化再求和,也就是求絕對(duì)值的和
8.3最大似然估計(jì)
參數(shù)已知實(shí)驗(yàn)結(jié)果發(fā)生的可能性(概率)
實(shí)驗(yàn)結(jié)果已知參數(shù)的可能性(似然)
最大似然估計(jì):是一種點(diǎn)估計(jì)蚀腿,哪一個(gè)參數(shù)估計(jì)值能夠最大可能的導(dǎo)致當(dāng)前出現(xiàn)的數(shù)據(jù)嘴瓤。
8.4貝葉斯估計(jì)
貝葉斯估計(jì):是一種基于先驗(yàn)信息的一種估計(jì)方法。在經(jīng)典的頻率統(tǒng)計(jì)中莉钙,參數(shù)是固定的廓脆,樣本統(tǒng)計(jì)量是隨機(jī)變量。而在貝葉斯統(tǒng)計(jì)中磁玉,認(rèn)為參數(shù)也是隨機(jī)變量狞贱。
貝葉斯公示一般可以表示為:
(1)若標(biāo)準(zhǔn)似然比>1,則先驗(yàn)概率得到增強(qiáng),A的發(fā)生會(huì)增大事件B發(fā)生的可能性
(2)若標(biāo)準(zhǔn)似然比=1,則先驗(yàn)概率無變化蜀涨,A的發(fā)生對(duì)事件B發(fā)生的無影響
(3)若標(biāo)準(zhǔn)似然比<1,則先驗(yàn)概率得到削弱,A的發(fā)生會(huì)降低事件B發(fā)生的可能性
第9章:置信區(qū)間估計(jì)——給估計(jì)留點(diǎn)余地
9.1置信區(qū)間的理論和實(shí)際含義
理論上來講蝎毡,95%置信區(qū)間的意思是厚柳,如果從一個(gè)總體中重復(fù)多次抽取不同的樣本,對(duì)每一個(gè)樣本都可以計(jì)算一個(gè)95%置信區(qū)間沐兵。那么我們期望會(huì)有95%的置信區(qū)間包含總體參數(shù)别垮。
對(duì)于一個(gè)樣本中計(jì)算的95%置信區(qū)間,其確切含義為“有95%的信心認(rèn)為該區(qū)間包含了總體參數(shù)”
9.2置信區(qū)間與P值之間的關(guān)系
置信系數(shù):置信區(qū)間的前綴數(shù)字扎谎,一般為95%碳想。置信系數(shù)越大烧董,所得的區(qū)間越寬,置信系數(shù)越小胧奔,所得的區(qū)間越窄逊移。
一般來說,樣本量越大龙填,計(jì)算的置信區(qū)間越窄胳泉,精度越高,此時(shí)P值也會(huì)越小岩遗。
與P值之間的關(guān)系:
相同點(diǎn):二者都可做出相同的統(tǒng)計(jì)學(xué)結(jié)論
不同點(diǎn):置信區(qū)間既有P值的統(tǒng)計(jì)學(xué)意義扇商,還有P值反映不了的實(shí)際意義。P值的大小與差別大小沒什么關(guān)系宿礁,而是跟樣本的大小有關(guān);而置信區(qū)間還可以提示與無效假設(shè)的參數(shù)偏離有多遠(yuǎn)=
9.3利用標(biāo)準(zhǔn)誤計(jì)算置信區(qū)間
如果我們要對(duì)一個(gè)總體進(jìn)行多次抽樣案铺,每一次抽樣都可以得到一個(gè)均值,然后再計(jì)算著幾個(gè)均值之間的標(biāo)準(zhǔn)差梆靖,那這個(gè)標(biāo)準(zhǔn)差就是標(biāo)準(zhǔn)誤控汉。它反映的是每次抽樣樣本之間的差異。如果標(biāo)準(zhǔn)誤小涤姊,則反映了多次重復(fù)抽樣得到的統(tǒng)計(jì)量差別不大暇番,提示抽樣誤差較小。
95%置信區(qū)間:“參數(shù)估計(jì)值+1.96*標(biāo)準(zhǔn)誤”
9.4 利用Bootstrap法估計(jì)置信區(qū)間