統(tǒng)計(jì)推斷
生物統(tǒng)計(jì)學(xué)研究包括試驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)分析兩大部分额嘿。
表現(xiàn)在以下4個(gè)方面:
1. 提供整理昌罩、描述數(shù)據(jù)資料的科學(xué)方法并確定其數(shù)量特征值朋。(描述性統(tǒng)計(jì))
2. 判斷實(shí)驗(yàn)結(jié)果的可靠性矗积。(統(tǒng)計(jì)推斷)
3. 提供由樣本推斷總體的方法辨绊。(統(tǒng)計(jì)推斷)
4. 提供試驗(yàn)設(shè)計(jì)的原則客蹋。(實(shí)驗(yàn)設(shè)計(jì))
由于時(shí)間關(guān)系塞蹭,先復(fù)習(xí)老師重點(diǎn)章節(jié)。(第一個(gè)ppt讶坯,第三頁(yè)番电,標(biāo)藍(lán)的)
- 假設(shè)檢驗(yàn)
- 方差分析
- 回歸分析
這一篇先來(lái)講 假設(shè)檢驗(yàn) :
一圖勝千言,請(qǐng)看統(tǒng)計(jì)推斷內(nèi)容包括什么辆琅?
不要覺(jué)得這張圖不重要漱办,瞥一眼就過(guò)去了
其實(shí)這是老師第一節(jié)課 PPT 的內(nèi)容 (我填了一些內(nèi)容)
當(dāng)我們上完所有課后,重新回顧這張圖時(shí)
我們應(yīng)該對(duì) (老師上課講的) 生物統(tǒng)計(jì)學(xué)內(nèi)容的脈絡(luò)有一個(gè)基本的認(rèn)識(shí)
也就是說(shuō)婉烟,當(dāng)我們看到以上的關(guān)鍵詞娩井,我們的腦海應(yīng)該有一個(gè)大致的地圖
知道應(yīng)該往那個(gè)方向走
如果還十分模糊,那接下來(lái)我和大家一起重新捋一遍思路
如果感覺(jué)有點(diǎn)印象似袁,那接下來(lái)就溫故知新
我們先從假設(shè)檢驗(yàn)開(kāi)始洞辣,即圖中紅色框框那一部分內(nèi)容
假設(shè)檢驗(yàn)
先從字面開(kāi)始,假設(shè)的是什么昙衅?檢驗(yàn)的是什么扬霜?
假設(shè)
假設(shè),就是『猜』而涉。
比如說(shuō)《女士品茶》中著瓶,如下假設(shè):
- 那個(gè)女士能分辨出『先放茶,還是先放奶』
等價(jià)的說(shuō)法是:
- 研究者猜那個(gè)女士能分辨出『先放茶啼县,還是先放奶』
假設(shè)材原,是我們進(jìn)行學(xué)術(shù)研究的第一步。我們看得每一篇文獻(xiàn)谭羔,進(jìn)行得每一個(gè)研究課題华糖,都有一個(gè)假設(shè)。
一個(gè)好的假設(shè)應(yīng)該有以下特征:
1. 陳述句
2. 提出變量間的預(yù)期關(guān)系 (如: 能分辨/不能分辨瘟裸;促進(jìn)/抑制)
3. 假設(shè)應(yīng)基于已存在的理論或文獻(xiàn)基礎(chǔ) (如: 有人已經(jīng)研究過(guò)客叉,先煮辣椒,再放豆腐;和先煮豆腐兼搏,再放辣椒卵慰,這兩種烹飪方式做出的麻婆豆腐味道不一樣) (我隨便舉個(gè)例子,我們研究中大多假設(shè)的基礎(chǔ)佛呻,應(yīng)該有文獻(xiàn))
4. 簡(jiǎn)短并切中要點(diǎn) (不廢話裳朋,有說(shuō)服力)
5. 可檢驗(yàn) (意味著有可量化的方法判斷這個(gè)假設(shè)是對(duì)還是不對(duì))
檢驗(yàn)
一個(gè)好的假設(shè)是可檢驗(yàn)的。
什么是可檢驗(yàn)吓著?
可檢驗(yàn)就有判斷命題真?zhèn)蔚钠毡樾粤炕瘶?biāo)準(zhǔn)鲤嫡。
說(shuō)到哲學(xué)層面就太繞了 (有興趣的同學(xué)可以自己搜一下:邏輯實(shí)證主義)
“可檢驗(yàn)” 我的理解是:
「不能你說(shuō)了算」
而是有一個(gè)公認(rèn)的可測(cè)量規(guī)則
比如說(shuō),在《女士品茶》里
- 如果說(shuō)绑莺,『先放茶和先放奶喝起來(lái)感覺(jué)不一樣』暖眼,這個(gè)假設(shè)是無(wú)法檢驗(yàn)的,因?yàn)槊總€(gè)人的主觀感覺(jué)都不一樣纺裁。
- 但是如果說(shuō)诫肠,『一個(gè)女士能分辨出是先加了茶還是先加了奶』,這個(gè)是可以檢驗(yàn)的欺缘,因?yàn)楝F(xiàn)在的命題變成只有兩種可能栋豫,『能分辨』和『不能分辨』。
- 這里檢驗(yàn)?zāi)J(rèn)的規(guī)則是:『事實(shí)』谚殊,加什么的順序是可以事先人為決定的丧鸯。根據(jù)這樣的事實(shí),我們可以判斷這個(gè)女士是『能分辨』還是『不能分辨』嫩絮。
我們?cè)賮?lái)說(shuō)一個(gè)假設(shè):『地球是圓球』
- 這里檢驗(yàn)公認(rèn)的規(guī)則:圓的定義骡送。
- 要證明地球是圓球,你得證明從上看是圓絮记,從下看是圓,從每個(gè)角度看都是圓
- 但是虐先,如果要證明地球不是圓球怨愤,那簡(jiǎn)單,只要有一個(gè)角度看過(guò)去是方的就行
- 當(dāng)想肯定某個(gè)命題很難時(shí)蛹批,可以考慮用反證法撰洗,因?yàn)榉穸ㄏ鄬?duì)容易得多
OK,接下來(lái)是把兩個(gè)詞結(jié)合一起:『假設(shè)檢驗(yàn)』
無(wú)效假設(shè)(零假設(shè)) H0:我們要(間接)檢驗(yàn)的假設(shè)
備擇假設(shè)(研究假設(shè)) Ha:無(wú)效假設(shè)(零假設(shè))的對(duì)立命題 (非此即彼)腐芍,我們想研究的假設(shè)差导。
發(fā)現(xiàn)沒(méi)有?
有趣的是猪勇,我們想研究的其實(shí)是『備擇假設(shè)(研究假設(shè))』
但是我們檢驗(yàn)的卻是它對(duì)立的『無(wú)效假設(shè)(零假設(shè))』
假設(shè)檢驗(yàn)的基本思想:
- 反證法
- 小概率事件在統(tǒng)計(jì)學(xué)上認(rèn)為不可能發(fā)生
反證法前面已經(jīng)說(shuō)過(guò)了设褐,否認(rèn)一個(gè)命題相對(duì)容易。
- 所以想證明一個(gè)命題,可以從否定它的對(duì)立命題入手助析。
- 我們可以先假設(shè) H0 成立犀被,如果基于這個(gè)出發(fā),得到自相矛盾的結(jié)果外冀,那說(shuō)明原先我們假設(shè)的 H0 很有可能是錯(cuò)誤的寡键。
- 在沒(méi)有其他信息的情況下,零假設(shè)就被看成可接受的真實(shí)狀態(tài)雪隧。換句話說(shuō)西轩,直到你能證明存在差異,否則你只能假定沒(méi)有差異脑沿。
另外不知道有朋友發(fā)現(xiàn)沒(méi)有藕畔,在上面的零假設(shè)中,我用了『間接』二字捅伤。
零假設(shè)
零假設(shè)的對(duì)象是總體劫流,
如果你翻翻老師的課件,
你會(huì)發(fā)現(xiàn)丛忆,H0總是這樣的形式:
H0 : μ = μ0
μ 是什么祠汇?
我們回顧一下樣本與總體。
總體:具有相同性質(zhì)個(gè)體所組成的集合熄诡,即研究對(duì)象的全體
樣本:從總體中抽出若干個(gè)個(gè)體所構(gòu)成的集合
參數(shù):描述總體特征的數(shù)量可很。如用 μ 表示總體平均數(shù),σ表示總體標(biāo)準(zhǔn)差
統(tǒng)計(jì)數(shù):描述樣本特征的數(shù)量凰浮。如用 x? 表示樣本平均數(shù)我抠,S表示樣本標(biāo)準(zhǔn)差
還有一個(gè)概念,我一開(kāi)始搞混了袜茧,標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤
實(shí)際上菜拓,這其中有三個(gè)概念:(有沒(méi)有看到熟悉的縮寫(xiě))
總體標(biāo)準(zhǔn)差 σ
樣本標(biāo)準(zhǔn)差 S (sample standard deviation, SSD)
樣本平均數(shù)的標(biāo)準(zhǔn)差
樣本平均數(shù)的標(biāo)準(zhǔn)誤(差) (standard error of mean, SEM)
樣本標(biāo)準(zhǔn)差是表示個(gè)體間變異大小的指標(biāo),反映了整個(gè)樣本對(duì)樣本平均數(shù)的離散程度笛厦,是數(shù)據(jù)精密度的衡量指標(biāo) ;
而樣本平均數(shù)的標(biāo)準(zhǔn)誤(差)纳鼎,反映樣本平均數(shù)對(duì)總體平均數(shù)的變異程度,從而反映抽樣誤差的大小裳凸,是量度結(jié)果精密度的指標(biāo)
好的贱鄙,我們?cè)倩氐搅慵僭O(shè)
H0 : μ = μ0
總體我們一般無(wú)法獲得,我們通常使用抽樣獲得一部分樣本姨谷。
那我們是如何通過(guò)樣本來(lái)間接驗(yàn)證總體的呢逗宁?
下面我們來(lái)說(shuō)一說(shuō)分布:
概率分布
首先,總體的數(shù)據(jù)會(huì)服從某種分布梦湘,而抽取的樣本構(gòu)成的總體瞎颗,會(huì)服從某種抽樣分布件甥。
老師上課講的主要是:
總體分布:『正態(tài)分布』
抽樣分布:『t 分布』,『卡方分布』,『F 分布』
為什么主要講『正態(tài)分布』?
1. 因?yàn)樽匀粻顟B(tài)下解藻,大多數(shù)數(shù)據(jù)都服從正態(tài)分布拗秘。從正態(tài)總體中抽取樣本,樣本均數(shù)也服從正態(tài)分布。
2. 即使總體不是正態(tài)分布,只要樣本數(shù) n 足夠大,樣本均數(shù)的分布也近似服從正態(tài)分布导帝。(中心極限定理)
不知道大家留意到?jīng)]有,上面用的字眼是穿铆,樣本均數(shù)的分布您单,是樣本平均數(shù)的分布。這意味著荞雏,樣本的平均數(shù)虐秦,不是唯一的值(分布意味著是一系列的取值)。
為什么凤优? (理解這一點(diǎn)很重要悦陋,比如會(huì)把總體,樣本筑辨,樣本總體搞混)
因?yàn)槊看纬闃影呈唬闃拥臉颖臼遣灰粯拥?隨機(jī),樣本差異)棍辕。所以每次抽取出來(lái)的樣本的平均數(shù)暮现,肯定不會(huì)是一樣的。這樣的所有樣本均值會(huì)構(gòu)成一個(gè)新的總體楚昭,在這個(gè)總體里面栖袋,均值是 μ(x),標(biāo)準(zhǔn)差是 σ(x)抚太。(記住這些符合栋荸,后面會(huì)用到)
雖然算出來(lái)的均值可能會(huì)不一樣,但是總有個(gè)合理的范圍凭舶。如果出現(xiàn)某個(gè)偏離很遠(yuǎn)的值,我們會(huì)覺(jué)得很不合理爱沟。這個(gè)就是置信區(qū)間帅霜。
好的,思路到這里已經(jīng)越來(lái)越清晰了呼伸。
正態(tài)分布
雖然老師說(shuō)不用記這個(gè)圖身冀,但是我覺(jué)得還是有必要講一下的钝尸。
1. x 軸是樣本統(tǒng)計(jì)量。(如:樣本的均值)
2. 概率不是 x 對(duì)應(yīng)的 y 的值搂根,而是曲線和兩個(gè) x 軸的垂線以及 x 軸圍起來(lái)的面試珍促,是概率。
3. N(μ,σ2)剩愧,μ(總體均值) 是中心位置猪叙,σ (總體標(biāo)準(zhǔn)差) 代表數(shù)據(jù)的離散程度。但更重要的是記住:離 均值μ 若干個(gè) 標(biāo)準(zhǔn)差σ 距離 代表的概率仁卷。(如 1個(gè) σ : 68.2%; 1.96 個(gè) σ : 95%; 2.58 個(gè) σ : 99%)
4. 對(duì)應(yīng)到樣本均值穴翩,『樣本均值』偏離『樣本總體均值』若干個(gè)『樣本均值標(biāo)準(zhǔn)誤』也對(duì)應(yīng)著相應(yīng)的概率。(覺(jué)得懵的往下看)
標(biāo)準(zhǔn)正態(tài)分布
正態(tài)分布只需要兩個(gè)參數(shù) ( μ 和 σ ) 即可確定其曲線形狀
當(dāng) μ = 0 锦积,σ = 1 時(shí)芒帕,稱為標(biāo)準(zhǔn)正態(tài)分布,N(0,1)
然而丰介,我們抽取的樣本的均值構(gòu)成的分布背蟆,μ(x) 不會(huì)都等于 0 ,σ (x) 也不會(huì)正好等于 1哮幢,因此我們需要一個(gè)標(biāo)準(zhǔn)化正態(tài)變換带膀。
是不是有種熟悉的感覺(jué),沒(méi)錯(cuò)家浇,這個(gè)就是 u 檢驗(yàn)時(shí)本砰,我們計(jì)算的 u 值。
(看清楚钢悲,μ 和 u 点额,我也不知道為什么用這么相近的兩個(gè)字符)
(對(duì)符號(hào)含義理解還比較模糊的話往前看,這里的 μ(x) 是指所有抽取的樣本的均值構(gòu)成的新總體的總體均值莺琳, σ(x)是指對(duì)應(yīng)的總體標(biāo)準(zhǔn)差)
我們先來(lái)想一個(gè)問(wèn)題还棱,怎么才能得到 0
- 沒(méi)錯(cuò),就是一個(gè)數(shù)減去它本身惭等。
- 假設(shè)樣本平均數(shù)總體均值是 μ(x)珍手,如果整個(gè)分布對(duì)應(yīng)的 x 值都減去 μ(x),那么整個(gè)分布就會(huì)平移到以 x = 0 中心的位置辞做。(仔細(xì)琢磨一下)
而除以 σ(x) 琳要,就是希望『用同一把尺子量東西』
- 上面已經(jīng)說(shuō)過(guò),某個(gè)樣本平均數(shù) x? 出現(xiàn)的概率秤茅,是可以通過(guò) 『 x? 距離 均值 μ 有多少個(gè) 標(biāo)準(zhǔn)差σ 』來(lái)?yè)Q算≈刹梗現(xiàn)在除以 σ(x) ,就只剩下數(shù)字了框喳。(仔細(xì)琢磨一下)
- 也就是說(shuō)课幕,u 值就是偏離均值標(biāo)準(zhǔn)差的個(gè)數(shù)厦坛。
- 比如說(shuō),我 u 值算出來(lái)是 2乍惊,意思就是杜秸,該樣本平均數(shù) x? 偏離 樣本總體均值 μ(x) 有兩個(gè)樣本標(biāo)準(zhǔn)差μ(x) 距離,如果是雙尾檢驗(yàn)的話润绎,將會(huì)落在 概率為 5% 的區(qū)域撬碟。
下面,我們將式子變一下凡橱,再思考一下小作,這個(gè)概率意味著什么?
- 每個(gè)樣本均值 x? 都可以理解為稼钩,樣本平均數(shù)總體均值 μ(x) + 偏度值 ε 顾稀。
- 現(xiàn)在我們想要知道的是,這個(gè) 偏度值 ε 是由于 『隨機(jī)誤差』造成的坝撑,還是因?yàn)椤耗撤N處理』造成的偏離静秆。
- 如果計(jì)算出來(lái)的 z 值,大于 1.96巡李,也就是說(shuō)抚笔,由于『隨機(jī)誤差』造成樣本均值偏離樣本所在總體均值的可能性只有 5 %,那么這個(gè)偏離的原因很大可能不是由于『隨機(jī)誤差』造成的侨拦,而是有別的因素在起作用殊橙,影響了結(jié)果。
好了狱从,到這里應(yīng)該對(duì) u 值有清晰的理解了膨蛮,我們?cè)賮?lái)看看,『樣本總體』怎么對(duì)應(yīng)到『原總體』上季研。
『樣本均值總體』與『研究總體』
到了這一步敞葛,我們看看我們還缺什么?
很明顯与涡,x? 和 n 來(lái)自樣本惹谐,我們還缺 μ 和 σ
首先看看我們的零假設(shè),在一個(gè)樣本平均數(shù)的 u 檢驗(yàn)時(shí) :
H0 :μ = μ0 = 驼卖? 氨肌,我們是有應(yīng)該理論研究總體均值μ0
也就是說(shuō) μ 可以獲得,所以還缺 σ
所以 一個(gè)樣本平均數(shù)的 u 檢驗(yàn) 分為兩種情況:
好的酌畜,這里理解的話儒飒,基于這個(gè)思路,兩個(gè)樣本均值u檢驗(yàn)檩奠,均值t檢驗(yàn)桩了,(頻數(shù)檢驗(yàn)),應(yīng)該也比較好理解了埠戳。
先說(shuō)結(jié)論:
無(wú)論是『一個(gè)樣本的平均數(shù)檢驗(yàn)』還是『兩個(gè)樣本的平均數(shù)檢驗(yàn)』井誉,無(wú)論總體方差(σ^2)是『已知』還是『未知』,只要樣本容量 (n >= 30)整胃,根據(jù)中心極限定理颗圣,可以使用『u 檢驗(yàn)法』
-
對(duì)于小樣本平均數(shù)的假設(shè)檢驗(yàn),當(dāng)總體方差 (σ^2)『未知』且樣本容量 (n <30)時(shí)屁使,不論是『一個(gè)樣本的平均數(shù)檢驗(yàn)』還是『兩個(gè)樣本的平均數(shù)檢驗(yàn)』在岂,都適用『t 檢驗(yàn)法』。
- 其中蛮寂,『兩個(gè)小樣本的平均數(shù)檢驗(yàn)』蔽午,t 檢驗(yàn),又分為:
- 『成組數(shù)據(jù)平均數(shù)』
- 『成對(duì)數(shù)據(jù)平均數(shù)比較』
(考試看這個(gè)圖套公式就好了酬蹋,重要的是理解每個(gè)符號(hào)的含義)
(還有就是看懂題目及老,知道是u檢驗(yàn)還是t檢驗(yàn),知道是成組還是配對(duì)范抓,知道是用單尾檢驗(yàn)還是雙尾檢驗(yàn))
(這個(gè)圖有點(diǎn)小骄恶,放大后還是清晰的)
這張表逐一去看,理解后每個(gè)字符的含義后匕垫,直接套公式就好了僧鲁。
最后說(shuō)說(shuō),為什么 t 分布要查表象泵,而 u 分布不用寞秃?
- 實(shí)際上,u 分布也有表单芜,只不過(guò)我們不用去查蜕该,因?yàn)?strong>u 分布就是正態(tài)分布,只有一條曲線洲鸠,而我們已經(jīng)清楚地知道堂淡,u = 1.96 對(duì)應(yīng) 95%,u = 2.58 對(duì)應(yīng) 99%
- t 分布不止一條曲線扒腕,一個(gè)自由度df 下對(duì)應(yīng)一條曲線绢淀,所以需要查表,去找出相應(yīng)的概率值
- 從圖中可以看成瘾腰,當(dāng)樣本數(shù)越大時(shí)皆的,df 越大,t 分布越接近正態(tài)分布
總結(jié)假設(shè)檢驗(yàn)4部曲
- 提出彼此對(duì)立的兩個(gè)假設(shè):無(wú)效假設(shè)H0蹋盆,與備擇假設(shè)Ha
- 確定顯著性水平 (α = 0.05)
- 計(jì)算統(tǒng)計(jì)數(shù)和相應(yīng)的概率值 (基于某一理論分布费薄,如正態(tài)分布硝全,t 分布)
- 根據(jù)小概率原理進(jìn)行推斷 (算出來(lái)統(tǒng)計(jì)量>查表值,拒絕H0)(如 u = 2 > 1.96(查表得))
關(guān)于顯著性水平
- 單尾檢驗(yàn)(α)比雙尾檢驗(yàn)靈敏度高(α/2)楞抡,若能憑借專業(yè)知識(shí)伟众、實(shí)踐經(jīng)驗(yàn)和檢驗(yàn)具體要求等進(jìn)行判斷,最好盡量使用單尾檢驗(yàn)
- 一般設(shè)置 α = 0.05召廷,意味著『承當(dāng)5%的風(fēng)險(xiǎn)凳厢,犯第一類錯(cuò)誤』
- α錯(cuò)誤(第一類錯(cuò)誤),H0正確卻否定了它竞慢。即兩者無(wú)差異卻被當(dāng)成有差異(α 設(shè)置過(guò)大)
- β錯(cuò)誤(第二類)先紫,H0錯(cuò)誤卻接受了它。即兩者實(shí)際上有差異筹煮,但是計(jì)算后沒(méi)有達(dá)到顯著性水平遮精,所以接受了零假設(shè)。(一般來(lái)說(shuō)寺谤,在設(shè)定α = 0.05的情況下仑鸥,如果樣本數(shù)太少,犯第二類錯(cuò)誤概率會(huì)增加变屁,因?yàn)闃颖旧倨畲? (當(dāng)然α = 0.05設(shè)置過(guò)小也會(huì)抹除差異)
最后說(shuō)說(shuō)一個(gè)大家不知道會(huì)不會(huì)有的困惑眼俊?
我怎么知道我研究的總體是不是服從正態(tài)分布的?
或者說(shuō)粟关,我怎么通過(guò)采集的樣本推斷總體是不是服從正態(tài)分布的疮胖?
因?yàn)槲覀儸F(xiàn)在的假設(shè)檢驗(yàn),基本都是基于總體服從正態(tài)分布的前提下做的闷板,如果一開(kāi)始這個(gè)前提就不成立澎灸,那不是白干了。
還記得老師讓我們記得圖嗎遮晚?
魚(yú)群
我們將數(shù)據(jù)畫(huà)個(gè)一個(gè)頻數(shù)分布直方圖性昭,看看它大致的形狀是不是符合正態(tài)分布,如果符合鐘型县遣,那說(shuō)明可以用正態(tài)分布糜颠,如果不廢話,那可能需要做一定的轉(zhuǎn)換萧求,將數(shù)據(jù)變成正態(tài)分布(這個(gè)轉(zhuǎn)換我就不懂了)其兴。
『統(tǒng)計(jì)推斷』先寫(xiě)怎么多吧
參數(shù)估計(jì)(點(diǎn)估計(jì)、區(qū)間估計(jì))有空再寫(xiě)吧
我個(gè)人水平有限夸政,若有謬誤元旬,勞煩指出,我會(huì)盡快更正
如果有講的不清楚,或者漏了什么沒(méi)講的匀归,可以聯(lián)系我一起討論
作者:發(fā)哥
鏈接:發(fā)哥的檔案室 - 簡(jiǎn)書(shū)
來(lái)源:簡(jiǎn)書(shū)
著作權(quán)歸作者所有坑资。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處穆端。