兩個(gè)總體間的差異如何比較前塔?
研究樣本嚣艇,通過研究樣本來(lái)分析總體。實(shí)際上华弓,所研究的總體往往是無(wú)限總體食零,總體的參數(shù)是無(wú)法用觀察或計(jì)算得到的。同理寂屏,總體平均數(shù)常常無(wú)法計(jì)算贰谣,因而往往用樣本平均數(shù)作為總體平均數(shù)的估計(jì)值娜搂,因?yàn)闃颖酒骄鶖?shù)的數(shù)學(xué)期望等于總體的平均數(shù)。
詞義解析
離均差是每個(gè)觀察值的偏離平均數(shù)的度量指標(biāo)吱抚。
樣本均方是總體方差的無(wú)偏估計(jì)值百宇。
標(biāo)準(zhǔn)差為方差的正平均根值,用以表示資料的變異度秘豹。
抽樣分布的標(biāo)準(zhǔn)差又稱為標(biāo)準(zhǔn)誤携御,它可以度量抽樣分布的變異。
變異系數(shù)
標(biāo)準(zhǔn)差和觀察值的單位相同憋肖,表示一個(gè)樣本的變異度因痛,若比較兩個(gè)樣本的變異度,則因單位不同或均數(shù)不同岸更,不能用標(biāo)準(zhǔn)差進(jìn)行直接比較鸵膏。這時(shí)可以計(jì)算樣本的標(biāo)準(zhǔn)差對(duì)均數(shù)的百分?jǐn)?shù),稱為變異系數(shù)怎炊。
由于變異系數(shù)是由標(biāo)準(zhǔn)差和平均數(shù)構(gòu)成的比數(shù)谭企,即受標(biāo)準(zhǔn)差的影響,又受平均數(shù)的影響评肆,因此债查,在使用變異系數(shù)表示樣本變異程度時(shí),應(yīng)同時(shí)列舉平均數(shù)和標(biāo)準(zhǔn)差瓜挽,否則可能引起誤解盹廷。
正態(tài)分布
標(biāo)準(zhǔn)化的正態(tài)分布方程就是在正態(tài)分布的基礎(chǔ)上令,u為正態(tài)分布的平均數(shù),s為正態(tài)分布的方差久橙。
由于不同的總體的平均數(shù)和方差不同俄占,所以將其轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布方程,這樣凡要計(jì)算一個(gè)正態(tài)分布的概率只需將y轉(zhuǎn)換為U值淆衷,然后查表就可以得出y落入某區(qū)間的概率缸榄。
假設(shè)測(cè)驗(yàn)
可從假設(shè)的總體里推論其隨機(jī)抽樣平均數(shù)的分布,從而可以算出某一樣本平均數(shù)指定值出現(xiàn)的概率祝拯,這樣就可以研究樣本和總體的關(guān)系甚带,從而進(jìn)行假設(shè)測(cè)驗(yàn),這就是假設(shè)測(cè)驗(yàn)的基本原理佳头。
T檢驗(yàn)
F檢驗(yàn)又叫方差齊性檢驗(yàn)鹰贵。在兩樣本t檢驗(yàn)中要用到F檢驗(yàn)。在進(jìn)行t測(cè)驗(yàn)時(shí)康嘉,需要考慮方差是否相等砾莱,可以用F檢驗(yàn)進(jìn)行分析。
U測(cè)驗(yàn)和t測(cè)驗(yàn)
u測(cè)驗(yàn):利用u分布進(jìn)行的假設(shè)測(cè)驗(yàn)凄鼻,總體方差已知或者方差未知但大樣本腊瑟;
t測(cè)驗(yàn):利用t分布進(jìn)行的測(cè)驗(yàn),總體方差未知块蚌,是小樣本闰非。
u測(cè)驗(yàn)就是根據(jù)標(biāo)準(zhǔn)化正態(tài)分布的原理進(jìn)行計(jì)算的,u測(cè)驗(yàn)是在總體方差為已知峭范,或方差未知單樣本容量相當(dāng)大财松,可以用樣本方差直接作為總體方差進(jìn)行應(yīng)用。
同樣纱控,t測(cè)驗(yàn)也是根據(jù)這個(gè)原理進(jìn)行分析的辆毡,只不過因?yàn)閠測(cè)驗(yàn)的樣本比較小(通常小于30甜害,當(dāng)樣本大于30時(shí)接近正態(tài)分布)而總體方差又未知舶掖,所以就用樣本的方差先估算出總體的方差,然后進(jìn)行分析計(jì)算概率的尔店。
成對(duì)數(shù)據(jù)眨攘,由于同一配對(duì)內(nèi)兩個(gè)供試單位的試驗(yàn)條件很是相近,而不同配對(duì)間的條件差異又可通過同一配對(duì)的差數(shù)給予消除嚣州,因?yàn)榭梢钥刂茖?shí)驗(yàn)誤差鲫售,具有較高的精確度。
u測(cè)驗(yàn)和t測(cè)驗(yàn)適用于一個(gè)或兩個(gè)樣本平均數(shù)的假設(shè)測(cè)驗(yàn)该肴,方差分析可以用于3個(gè)及以上的樣本平均數(shù)的假設(shè)測(cè)驗(yàn)情竹。方差分析是用均方來(lái)度量試驗(yàn)處理產(chǎn)生的變異和誤差引起的變異而已。
方差分析
對(duì)一組處理的重復(fù)試驗(yàn)數(shù)據(jù)經(jīng)對(duì)總平方和與總自由度的分解估計(jì)出處理間均方和處理內(nèi)均方(誤差均方)匀哄,并通過F測(cè)驗(yàn)處理間所表示出的差異是否真實(shí)(比誤差大)
方差分析是建立在一定的線性可加模型基礎(chǔ)上的秦效,所謂線性可加模型就是指總體每一變量可以按其變異的原因分解成若干個(gè)線性組成部分,它是方差分析的理論基礎(chǔ)拱雏。
方差分析的基本假定
- 可加性
對(duì)于非可加性質(zhì)料棉安,一般需進(jìn)行轉(zhuǎn)換,使其效應(yīng)變?yōu)榭杉有灾郑拍芊戏讲罘治龅木€性模型贡耽。 - 正態(tài)性
但是也有研究者發(fā)現(xiàn),數(shù)據(jù)不服從正態(tài)分布對(duì)方差分析的結(jié)果影響不大鹊汛,這個(gè)性質(zhì)有待探究蒲赂。 - 誤差同質(zhì)性
如果發(fā)現(xiàn)各處理間的方差相差比較懸殊,一般可用bartlett氏法測(cè)驗(yàn)其是否同質(zhì)刁憋;如果不同質(zhì)滥嘴,可將方差特別大或變異特殊的處理從全試驗(yàn)中剔除,或者將實(shí)驗(yàn)分為幾部分至耻,使每一部分具有比較同質(zhì)的誤差方差若皱,以作為較為準(zhǔn)確的假設(shè)測(cè)驗(yàn)镊叁。
卡平方測(cè)驗(yàn)可以檢驗(yàn)方差同質(zhì)性
F測(cè)驗(yàn)
在一個(gè)平均數(shù)為u、方差為S的正態(tài)總體中走触,隨機(jī)抽取兩個(gè)獨(dú)立樣本晦譬,分別求得其均方為s1和s2,將s1和s2的比值定義為F互广,F(xiàn)值具有s1的自由度和s2的自由度敛腌。
在方差分析的體系中缩宜,F(xiàn)測(cè)驗(yàn)可用于檢測(cè)某項(xiàng)變異因素的相應(yīng)或方差是否真實(shí)存在裁奇,所以在計(jì)算F值時(shí)路翻,總是將要測(cè)驗(yàn)的那一項(xiàng)變異因素的均方作分子玫锋,而另一項(xiàng)變異(例如實(shí)驗(yàn)誤差項(xiàng))的均方為分母释涛。也就是說如果檢測(cè)的變異因素存在缰趋,那么他的均方就根據(jù)自由度的關(guān)系而大于限定內(nèi)的均方寺鸥。
多重比較
最小顯著差數(shù)法(實(shí)質(zhì)上就是t測(cè)驗(yàn))荣瑟、q法扫皱、新復(fù)極差法LSD
多重比較結(jié)果的表示方法
劃線法足绅、標(biāo)記字母法 先將平均數(shù)從大到小排列起來(lái),再將不顯著的劃分為同一組
參數(shù)估計(jì)法
矩法韩脑、最小二乘法氢妈、極大似然法
聯(lián)合方差分析
對(duì)用于多年多點(diǎn)實(shí)驗(yàn)的分析
相關(guān)系數(shù)和決定系數(shù)
對(duì)于坐標(biāo)點(diǎn)呈直線趨勢(shì)的兩個(gè)變數(shù),如果并不需要由X來(lái)估計(jì)Y段多,而僅需了解X和Y是否確有相關(guān)以及相關(guān)的性質(zhì)(正相關(guān)或負(fù)相關(guān))首量,則首先應(yīng)算出表示X和Y相關(guān)密切程度及其性質(zhì)的統(tǒng)計(jì)數(shù)————相關(guān)系數(shù)(以r表示相關(guān)系數(shù))。決定系數(shù)定義為由x不同而引起的y的平方和占y總平方和的比率(用R表述決定系數(shù))
回歸系數(shù)就是x對(duì)y的效應(yīng)进苍。
偏回歸系數(shù)
偏回歸系數(shù)是在其他自變數(shù)保持一定時(shí)加缘,某一變數(shù)對(duì)因變數(shù)的效應(yīng)。
偏相關(guān)系數(shù)就是其他變量保持一定是觉啊,某一變量和因變量的關(guān)系拣宏。
協(xié)變量
通俗的講,就是在試驗(yàn)過程中對(duì)因變量的影響除了自變量外的變量杠人,一些不可控但是能進(jìn)行測(cè)量的變量勋乾。在實(shí)驗(yàn)設(shè)計(jì)中,協(xié)變量是獨(dú)立變量嗡善,實(shí)驗(yàn)者不能操縱辑莫,但仍影響實(shí)驗(yàn)結(jié)果
協(xié)方差是在方差分析的基礎(chǔ)上,綜合回歸分析的方法罩引,研究如何調(diào)節(jié)協(xié)變量對(duì)因變量的影響效應(yīng)各吨,從而更加有效地分析實(shí)驗(yàn)處理效應(yīng)的一種統(tǒng)計(jì)技術(shù)。簡(jiǎn)單來(lái)講就是對(duì)協(xié)變量的分析袁铐。
回歸分析中如果想求得置信區(qū)間揭蜒,可以在進(jìn)行回歸分析時(shí):分析——回歸——線性回歸——統(tǒng)計(jì)——回歸系數(shù)——誤差條形圖的表征
協(xié)方差分析
直線回歸和相關(guān)的應(yīng)用要點(diǎn)(很重要)
偏度
度量數(shù)據(jù)偏離正態(tài)分布的程度横浑,它刻劃分布函數(shù)對(duì)稱性,當(dāng)偏度為正值時(shí)忌锯,分布向大于平均數(shù)方向偏斜伪嫁,偏度為負(fù)值時(shí)則向小于平均數(shù)方向偏斜;當(dāng)偏度的絕對(duì)值大于2時(shí)偶垮,分布的偏斜程度嚴(yán)重。
峰度
度量數(shù)據(jù)服從正態(tài)分布時(shí)峰的高度帝洪,它刻劃不同類型的分布的集中和分散程度似舵,當(dāng)峰度大于3時(shí),分布比較陡峭葱峡,峰態(tài)明顯砚哗,即總體變數(shù)的分布比較集中。
偏度和峰度是判斷正態(tài)分布的重要指標(biāo)
完全隨機(jī)試驗(yàn)就是簡(jiǎn)單的單因素方差分析
但是在隨機(jī)區(qū)組試驗(yàn)中砰奕,可以用雙因素?zé)o重復(fù)方差分析蛛芥,因?yàn)閰^(qū)組作為局部控制的一項(xiàng)手段,對(duì)于減小誤差是相當(dāng)有效的(一般區(qū)組間的F測(cè)驗(yàn)可以不必進(jìn)行军援,因?yàn)樵囼?yàn)?zāi)康牟皇茄芯繀^(qū)組效應(yīng)的)仅淑。
條區(qū)實(shí)驗(yàn)
在多因素實(shí)驗(yàn)中由于實(shí)施試驗(yàn)的需要,每一因素的各水平都有較大的面積胸哥,因而在裂區(qū)設(shè)計(jì)的基礎(chǔ)上將同一副處理也連成一片涯竟。這樣A,B兩個(gè)因素就互為主副處理,兩者的交叉處理為各該水平的處理組合空厌。這就是條區(qū)設(shè)計(jì)庐船。
裂區(qū)實(shí)驗(yàn)
裂區(qū)就是實(shí)驗(yàn)因素有主副之分,因此裂區(qū)實(shí)驗(yàn)的變異的誤差項(xiàng)有兩個(gè)嘲更,而一般的隨機(jī)區(qū)組實(shí)驗(yàn)誤差項(xiàng)只有一個(gè)
http://blog.sina.com.cn/s/blog_ab3eddb50102vz3i.html 使用單因素的定制筐钟,然后自己設(shè)計(jì)模型:區(qū)組 主效 區(qū)組(主效) 副效 主效*副效. 在文件——新建——語(yǔ)法 中進(jìn)行修改
條區(qū)實(shí)驗(yàn)
在spss中使用單因素的全因子分析
組內(nèi)觀察值數(shù)目相等的單項(xiàng)分組資料的方差分析(spss):簡(jiǎn)單的單因素分析
組內(nèi)觀察值數(shù)目不相等的單項(xiàng)分組資料的方差分析(spss):?jiǎn)我蛩兀愋?
組內(nèi)又分亞組的單項(xiàng)分組資料的方差分析(spss):?jiǎn)我蛩馗畴缓髮⒛P托薷臑? {因素 分組(因素) 亞組(因素*分組).}
多因素方差分析中的處理組合間的差異不必管它篓冲,
SPSS
許多現(xiàn)實(shí)的問題中,僅僅依靠統(tǒng)計(jì)描述和簡(jiǎn)單的統(tǒng)計(jì)推斷方法是不夠的北发,現(xiàn)實(shí)世界中變量間的聯(lián)系錯(cuò)綜復(fù)雜纹因,往往要同時(shí)考慮多個(gè)因素的作用,并為之建立多變量模型琳拨。
常用術(shù)語(yǔ)
1瞭恰、因素(Factor)與水平(Level)
因素也被稱為因子,就是指可能對(duì)因變量有影響的分類變量狱庇,而分類變量的不同取值等級(jí)(類別)就被稱為水平惊畏。
2恶耽、單元(Cell)
單元也被稱為水平組合,或者單元格颜启,是各因素各個(gè)水平的組合偷俭。
3、元素(Element)
元素指用于測(cè)量因變量值的最小單位缰盏。根據(jù)具體的試驗(yàn)設(shè)計(jì)涌萤,一個(gè)單元格內(nèi)可以有多個(gè)元素,也可以只有一個(gè)口猜,甚至沒有元素负溪。
4、均衡(Balance)
如果在一個(gè)試驗(yàn)設(shè)計(jì)中任意因素個(gè)水平在所在單元格中出現(xiàn)的次數(shù)相同济炎,且每個(gè)單元格內(nèi)的元素?cái)?shù)均相同川抡,則該試驗(yàn)時(shí)均衡的;否則须尚,就被稱為不均衡崖堤。不均衡的試驗(yàn)設(shè)計(jì)在分析時(shí)較為復(fù)雜,需要對(duì)方差分析模型做特別設(shè)置才能得到正確的分析結(jié)果耐床。
兩個(gè)處理的樣本量不等密幔,是不平衡試驗(yàn),不平衡試驗(yàn)用異方差和等方差計(jì)算出的t統(tǒng)計(jì)量數(shù)值是不相同的咙咽,而平衡試驗(yàn)用異方差和等方差計(jì)算出的t統(tǒng)計(jì)量數(shù)值是相同的老玛,只是自由度不同,這時(shí)兩種方法的結(jié)果就比較接近钧敞,因此實(shí)驗(yàn)設(shè)計(jì)中通常要求做平衡試驗(yàn)蜡豹。
兩個(gè)或多個(gè)處理下方差相等的情況稱為方差齊性,從嚴(yán)格的意義上說溉苛,任何兩個(gè)處理的方差都不會(huì)完全相同镜廉,我們說方差齊性也只是認(rèn)為兩個(gè)處理的方差相差不大,其方差的變異程度不足以影響統(tǒng)計(jì)分析結(jié)果的正確性愚战,這時(shí)采用平衡試驗(yàn)還能夠進(jìn)一步降低方差的差異對(duì)統(tǒng)計(jì)分析結(jié)果的影響娇唯。在方差齊性的前提下,平衡試驗(yàn)的統(tǒng)計(jì)效率是最高的寂玲。如果實(shí)驗(yàn)前能夠確定方差是非齊性的塔插,則應(yīng)該對(duì)方差大的處理分配較大的樣本量。
實(shí)際應(yīng)用中的多數(shù)情況方差是齊性的拓哟,在實(shí)驗(yàn)的處理數(shù)目多于兩個(gè)時(shí)想许,要使用方差分析比較多個(gè)處理間平均水平的差異,而方差分析的前提條件是方差齊性,所以等方差的的假設(shè)是普遍的流纹。
5糜烹、協(xié)變量(Covariates)
協(xié)變量指對(duì)因變量可能影響,需要在分析時(shí)對(duì)其作用加以控制的連續(xù)性變量漱凝。實(shí)際上疮蹦,可以簡(jiǎn)單地把因素和協(xié)變量分別理解為分類自變量和連續(xù)性自變量。
6茸炒、交互作用(Interaction)
如果一個(gè)因素的效用大小在另一個(gè)因素不同水平下明顯不同愕乎,則稱為兩因素間存在交互作用。
7壁公、固定因素(Fixed Factor)與隨機(jī)因素(Random Factor)
固定因素是指該因素在樣本中所有可能的水平都出現(xiàn)了妆毕。
隨機(jī)因素指的是,該因素所有可能的取值在樣本中沒有都出現(xiàn)贮尖,或者不可能都出現(xiàn)。
方差分析模型的適用條件
1趁怔、理論上的適用條件
* 各樣本的獨(dú)立性:由于各樣本相互獨(dú)立湿硝,來(lái)自真正的隨機(jī)抽樣,才能保證變異能夠按照模型表達(dá)式那樣具有可加性(可分解性)润努;
* 正態(tài)性:由于各組的隨機(jī)誤差項(xiàng)被設(shè)定為服從正態(tài)分布关斜,因此模型要求各單元格的殘差必須服從正態(tài)分布。
* 方差齊:同樣是因?yàn)殡S機(jī)誤差項(xiàng)铺浇,由于在模型中無(wú)論何種組合痢畜,隨機(jī)誤差項(xiàng)被假定服從相同的正態(tài)分布,因此模型要求各單元格都滿足方差齊(變異程度相同)的要求鳍侣。
2丁稀、實(shí)際操作中對(duì)適用條件的把握
(1)單因素方差分析
因模型只有一個(gè)因素,設(shè)計(jì)較為簡(jiǎn)單倚聚,樣本有充足的信息量對(duì)正態(tài)性和方差齊性進(jìn)行考察线衫,這已經(jīng)成為標(biāo)準(zhǔn)分析步驟
但是許多人誤將正態(tài)性理解為因變量應(yīng)當(dāng)正態(tài)分布,顯然這種想法和實(shí)際的要求不是一回事惑折。不過由于模型有一定穩(wěn)健性授账,只有因變量分布不是明顯偏態(tài),分析結(jié)果一般都是較穩(wěn)定的惨驶。
至于方差齊性白热,需要特別指出的是:根據(jù)Box的研究結(jié)果,在單因素方差分析中粗卜,如果各組的例數(shù)相同(即均衡)屋确,或總體呈正態(tài)分布,則方差分析模型對(duì)方差略微不齊有一定的耐受性,只要最大與最小方差之比小于3乍恐,分析結(jié)果是穩(wěn)定的评疗。
(2)單元格內(nèi)重復(fù)數(shù)據(jù)的方差分析
以配伍設(shè)計(jì)方差分析最為典型,此時(shí)不需要考慮正態(tài)性和方差齊性問題茵烈,原因在于正態(tài)性和方差齊性的考慮是以單元格為基礎(chǔ)單位的百匆,此時(shí)每個(gè)格子中只有一個(gè)元素,當(dāng)時(shí)沒法分析了呜投。除配伍設(shè)計(jì)的方差分析外加匈,交叉設(shè)計(jì)、正態(tài)設(shè)計(jì)等可以出現(xiàn)無(wú)重復(fù)數(shù)據(jù)的情況仑荐。但必須指出雕拼,這里只有因條件不足,無(wú)法考慮適用條件粘招,而不是說可以完全忽視這兩個(gè)問題啥寇,如果根據(jù)專業(yè)知識(shí)認(rèn)為可能在不同單元格內(nèi)正態(tài)性,方差齊性有問題洒扎,則應(yīng)當(dāng)避免使用這種無(wú)重復(fù)數(shù)據(jù)的設(shè)計(jì)方案辑甜。
當(dāng)然,從模型的角度講袍冷,實(shí)際操作對(duì)數(shù)據(jù)正態(tài)性的考慮還有一個(gè)辦法磷醋,就是擬合完畢后作出殘差分析圖,如果殘差呈隨機(jī)分布胡诗,則可知(單元格內(nèi))原始數(shù)據(jù)滿足正態(tài)條件邓线。
(3)有重復(fù)數(shù)據(jù)的多因素方差分析
由于正態(tài)性、方差齊性的考察是以單元格的基本單位煌恢,此時(shí)單元格數(shù)目往往很多骇陈,平均每個(gè)單元格內(nèi)的樣本粒數(shù)實(shí)際上比較少。
另一方面症虑,也可能因?yàn)橹挥袠O個(gè)別單元格方差不齊而導(dǎo)致檢驗(yàn)不能通過缩歪。根據(jù)實(shí)際經(jīng)驗(yàn),實(shí)際上在多因素方差分析中谍憔,極端值的影響大于方差齊性等問題的影響匪蝙,因此實(shí)際分析中可以直接考察因變量的分布情況,如果數(shù)據(jù)分布不是明顯偏態(tài)习贫,不存在極端值逛球,而一般而言方差齊性和正態(tài)齊性不會(huì)有太大問題,而且也可以基本保證單元格內(nèi)無(wú)極端值苫昌。因此在多因素方差分析中颤绕,方差齊性往往只限于理論探討。但對(duì)于較重要的研究,則建模后的殘差分析時(shí)非常重要的奥务。
LSD法:實(shí)際上要求將各組均和一個(gè)參照水平加以比較物独。
S-N-K法:兩兩比較結(jié)果則要清楚的多。
1. 首先氯葬,它會(huì)把各組在表格的縱向上按照均值的大小排序挡篓;
2. 其次,在表格的橫向各水平被分為了若干個(gè)亞組(Subset)帚称,不同亞組間的P值小于0.05官研,而同一亞組各組均數(shù)則兩兩無(wú)差異,比較的P值均大于0.05.
當(dāng)自變量與其他自變量或者協(xié)變量相關(guān)時(shí)闯睹,沒有明確的方法可以評(píng)價(jià)自變量對(duì)因變量的貢獻(xiàn)戏羽。例如,含因子A楼吃、B和因變量y的雙因素不平衡因子設(shè)計(jì)始花,有三種效應(yīng):A和B的主效應(yīng),A和B的交互效應(yīng)孩锡。假設(shè)你正使用如下表達(dá)式對(duì)數(shù)據(jù)進(jìn)行建模:
Y ~ A + B + A:B
有三種類型的方法可以分解等式右邊各效應(yīng)對(duì)y所解釋的方差衙荐。
類型Ⅰ(序貫型)
效應(yīng)根據(jù)表達(dá)式中先出現(xiàn)的效應(yīng)做調(diào)整。A不做調(diào)整浮创,B根據(jù)A調(diào)整,A:B交互項(xiàng)根據(jù)A和B調(diào)整砌函。
類型Ⅱ(分層型)
效應(yīng)根據(jù)同水平或低水平的效應(yīng)做調(diào)整斩披。A根據(jù)B調(diào)整,B依據(jù)A調(diào)整讹俊,A:B交互項(xiàng)同時(shí)根據(jù)A和B調(diào)整垦沉。
類型Ⅲ(邊界型)
每個(gè)效應(yīng)根據(jù)模型其他各效應(yīng)做相應(yīng)調(diào)整。A根據(jù)B和A:B做調(diào)整仍劈,A:B交互項(xiàng)根據(jù)A和B調(diào)整厕倍。
對(duì)平衡實(shí)驗(yàn),那種模型都可以贩疙,但是對(duì)于非均衡實(shí)驗(yàn)讹弯,使用類型Ⅰ
R默認(rèn)調(diào)用類型I方法,其他軟件(比如SAS和SPSS)默認(rèn)調(diào)用類型Ⅲ方法这溅。
一般來(lái)說组民,越基礎(chǔ)性的效應(yīng)越需要放在表達(dá)式前面。具體來(lái)講悲靴,首先是協(xié)變量臭胜,然后是主效應(yīng),接著是雙因素的交互項(xiàng),再接著是三因素的交互項(xiàng)耸三,以此類推乱陡。對(duì)于主效應(yīng),越基礎(chǔ)性的變量越應(yīng)放在表達(dá)式前面仪壮,因此性別要放在處理方式之前憨颠。
方差分析在R中的練習(xí)
方差分析泛應(yīng)用于商業(yè)、經(jīng)濟(jì)睛驳、醫(yī)學(xué)烙心、農(nóng)業(yè)等諸多領(lǐng)域的數(shù)量分析研究中。例如商業(yè)廣告宣傳方面乏沸,廣告效果可能會(huì)受廣告式淫茵、地區(qū)規(guī)模、播放時(shí)段蹬跃、播放頻率等多個(gè)因素的影響匙瘪,通過方差分析研究眾多因素中,哪些是主要的以及如何產(chǎn)生影響等蝶缀。而在經(jīng)濟(jì)管理中丹喻,方差分析常用于分析變量之間的關(guān)系,如人民幣匯率對(duì)股票收益率的影響翁都、存貸款利率對(duì)債券市場(chǎng)的影響碍论,等等。
協(xié)方差是在方差分析的基礎(chǔ)上柄慰,綜合回歸分析的方法鳍悠,研究如何調(diào)節(jié)協(xié)變量對(duì)因變量的影響效應(yīng),從而更加有效地分析實(shí)驗(yàn)處理效應(yīng)的一種統(tǒng)計(jì)技術(shù)坐搔。
8.1單因素方差分析及R實(shí)現(xiàn)
(1)正態(tài)性檢驗(yàn)
對(duì)數(shù)據(jù)的正態(tài)性藏研,利用Shapiro-Wilk正態(tài)檢驗(yàn)方法(W檢驗(yàn)),它通常用于樣本容量n≤50時(shí)概行,檢驗(yàn)樣本是否符合正態(tài)分布蠢挡。
R中,函數(shù)shapiro.test()提供了W統(tǒng)計(jì)量和相應(yīng)P值凳忙,所以可以直接使用P值作為判斷標(biāo)準(zhǔn)业踏,其調(diào)用格式為shapiro.test(x),參數(shù)x即所要檢驗(yàn)的數(shù)據(jù)集涧卵,它是長(zhǎng)度在35000之間的向量堡称。
例:
某銀行規(guī)定VIP客戶的月均賬戶余額要達(dá)到100萬(wàn)元,并以此作為比較各分行業(yè)績(jī)的一項(xiàng)指標(biāo)艺演。這里分行即因子却紧,賬戶余額是所要檢驗(yàn)的指標(biāo)桐臊,先從三個(gè)分行中,分別隨機(jī)抽取7個(gè)VIP客戶的賬戶晓殊。為了用單因素方差分析判斷三個(gè)分行此項(xiàng)業(yè)績(jī)指標(biāo)是否相同断凶,首先對(duì)二個(gè)分行的賬戶余額分別進(jìn)行正態(tài)檢驗(yàn)。
x1=c(103,101,98,110,105,100,106)
x2=c(113,107,108,116,114,110,115)
x3=c(82,92,84,86,84,90,88)
shapiro.test(x1)
Shapiro-Wilk normality test
data: x1
W = 0.97777, p-value =0.948
shapiro.test(x2)
Shapiro-Wilk normality test
data: x2
W = 0.91887, p-value =0.4607
shapiro.test(x3)
Shapiro-Wilk normality test
data: x3
W = 0.95473, p-value =0.7724
P值均大于顯著性水平a=0.05,因此不能拒絕原假設(shè)巫俺,說明數(shù)據(jù)在因子A的三個(gè)水平下都
是來(lái)自正態(tài)分布的认烁。
QQPlot圖是用于直觀驗(yàn)證一組數(shù)據(jù)是否來(lái)自某個(gè)分布,或者驗(yàn)證某兩組數(shù)據(jù)是否來(lái)自同一(族)分布介汹。在教學(xué)和軟件中常用的是檢驗(yàn)數(shù)據(jù)是否來(lái)自于正態(tài)分布
qq圖是正態(tài)分位數(shù)圖却嗡,縱坐標(biāo)是變量的取值,關(guān)鍵是橫坐標(biāo)嘹承,參考了以為博友的博客窗价。自己用R寫了一個(gè)程序驗(yàn)證了一下√揪恚基本沒問題撼港。
qqplot全名應(yīng)該是正態(tài)分位數(shù)圖,橫坐標(biāo)的做法:
首先把變量按從小到大的順序排列骤竹,計(jì)算變量的長(zhǎng)度帝牡,即總共有多少個(gè)取值,再按順序計(jì)算變量的所有取值的累積百分比蒙揣,所謂的累積百分比靶溜,也就是可以看成是累積概率,比如有10個(gè)值懒震,按照從小到大的順序墨技,第一個(gè)值的排序是1, 那么他的所占的百分比就是10%挎狸, 緊接著后一個(gè)值所占的百分比也會(huì)是10%,但是累積概率值為20%断楷, 依次往后計(jì)算锨匆,因?yàn)樽詈笠粋€(gè)值的累積百分比是100%,即等于1冬筒,這個(gè)值如果計(jì)算它的正態(tài)分布概率的分位數(shù)的話恐锣,是無(wú)限大的,因此需要對(duì)這個(gè)值進(jìn)行修正一下舞痰,就是因?yàn)檫@一個(gè)值無(wú)限大土榴,所以對(duì)全體計(jì)算出來(lái)的累積百分比減去一個(gè)適當(dāng)小的數(shù),修正后的累積百分比與原百分比相差不多响牛,但是回避了最后一個(gè)值是1而無(wú)法計(jì)算的問題玷禽。
有了累積百分比之后赫段,相對(duì)應(yīng)的就是累積的概率值。將累積概率值修正后矢赁,即得到累積概率糯笙,比如以10個(gè)值為例,第一個(gè)值的累積概率為0.05撩银,查正態(tài)分布表给涕,0.05的累積概率,對(duì)應(yīng)的正態(tài)分布的Z值為-1.64额获,這樣一次計(jì)算够庙,所得的Z值,就是qqplot的橫坐標(biāo)數(shù)據(jù)抄邀。下面以10個(gè)數(shù)據(jù)和30個(gè)數(shù)據(jù)為例說明耘眨。
my.qqplot <- function(y){
op <- par(mfrow = c(1, 1))
N <- length(y)
n <- seq(1, N)
xais <- qnorm((n - (.5*N) /N)/ N)
#####中間三句可選,只是為了輸出計(jì)算過程######
mid <- cbind(sort(y), n, n/N, (n-(.5*N)/N)/N , xais)
colnames(mid) <- c("y", "rank", "cumpercent", "adj-cumper","xaix")
print(mid)
#####中間三句可選撤摸,只是為了輸出計(jì)算過程######
par(mfrow = c(2,1))
qqnorm(y)
plot(sort(y) ~ xais, main = 'my qqplot')
par(op)
}
y <- rnorm(10, mean = 20, s = 50)
my.qqplot(y)
y rank cumpercentadj-cumper xaix
[1,] 2.877321 1 0.1 0.05 -1.6448536
[2,] 6.930063 2 0.2 0.15 -1.0364334
[3,] 16.461444 3 0.3 0.25 -0.6744898
[4,] 36.130825 4 0.4 0.35 -0.3853205
[5,] 40.477883 5 0.5 0.45 -0.1256613
[6,] 50.534636 6 0.6 0.55 0.1256613
[7,] 53.425025 7 0.7 0.65 0.3853205
[8,] 54.554269 8 0.8 0.75 0.6744898
[9,]120.496268 9 0.9 0.85 1.0364334
[10,] 125.290253 10 1.0 0.95 1.6448536))
qqnorm(x1) #數(shù)據(jù)是否是正態(tài)分布的可視化
qqline(x1)
qqplot
(2)方差齊性檢驗(yàn)
方差分析的另一個(gè)假設(shè):方差齊性毅桃,需要檢驗(yàn)不同水平卜的數(shù)據(jù)方差是否相等。R中最常用的Bartlett檢驗(yàn),bartlett.test()調(diào)用格式為
bartlett.test(x准夷,g…)
其中钥飞,參數(shù)X是數(shù)據(jù)向量或列表(list) ; g是因子向量,如果X是列表則忽略g.當(dāng)使用數(shù)據(jù)集時(shí)衫嵌,也通過formula調(diào)用函數(shù):
bartlett.test(formala, data, subset读宙,na.action…)
formula是形如lhs一rhs的方差分析公式;data指明數(shù)據(jù)集:subset是可選項(xiàng),可以用來(lái)指定觀測(cè)值的一個(gè)子集用于分析:na.action表示遇到缺失值時(shí)應(yīng)當(dāng)采取的行為楔绞。
續(xù)上例:
> x=c(x1,x2,x3)
> account=data.frame(x,A=factor(rep(1:3,each=7)))
> bartlett.test(x~A,data=account)
Bartlett test of homogeneity of variances
data: x by A
Bartlett's K-squared = 0.13625, df = 2, p-value = 0.9341
由于P值遠(yuǎn)遠(yuǎn)大于顯著性水平a=0.05结闸,因此不能拒絕原假設(shè),我們認(rèn)為不同水平下的數(shù)據(jù)是等方差的酒朵。
8.1.2單因素方差分析
R中的函數(shù)aov()用于方差分析的計(jì)算桦锄,其調(diào)用格式為:
aov(formula, data = NULL, projections =FALSE, qr = TRUE,contrasts = NULL, ...)
其中的參數(shù)formula表示方差分析的公式,在單因素方差分析中即為x~A ; data表示做方差分析的數(shù)據(jù)框:projections為邏輯值蔫耽,表示是否返回預(yù)測(cè)結(jié)果:qr同樣是邏輯值结耀,表示是否返回QR分解結(jié)果,默認(rèn)為TRUE; contrasts是公式中的一些因子的對(duì)比列表匙铡。通過函數(shù)summary()可列出方差分析表的詳細(xì)結(jié)果图甜。
上面的例子已經(jīng)對(duì)數(shù)據(jù)的正態(tài)性和方差齊性做了檢驗(yàn),接F來(lái)就可以進(jìn)行方差分析:
> a.aov=aov(x~A,data=account)
> summary(a.aov)
Df Sum Sq Mean Sq F value Pr(>F)
A 2 2315 1158 82.68 8.46e-10 ***
Residuals 18 252 14
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> plot(account$x~account$A)
Levene檢驗(yàn)
Levene檢驗(yàn)鳖眼,它既可以用于正態(tài)分布的數(shù)據(jù)黑毅,也可用于非正態(tài)分布的數(shù)據(jù)或分布不明的數(shù)據(jù),具有比較穩(wěn)健的特點(diǎn)钦讳,檢驗(yàn)效果也比較理想矿瘦。
R的程序包c(diǎn)ar中提供了Levene檢驗(yàn)的函數(shù)levene.test()
> library(car)
> levene.test(account$x,account$A)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 2 0.0426 0.9584
18
由于p值大于a=0.05枕面,不能拒絕原假設(shè),我們認(rèn)為不同水平下的數(shù)據(jù)是等方差的匪凡。
8.1.3多重t檢驗(yàn)
單因素方差分析是從總體的角度上說明各效應(yīng)的均值之間存在顯著差異膊畴,但具體哪些水平下的均值存在較人差異無(wú)從得知,所以我們要對(duì)每一對(duì)樣本均值進(jìn)行一一比較病游,即要進(jìn)行均值的多重比較唇跨。
> p.adjust.methods
[1] "holm" "hochberg" "hommel" "bonferroni" "BH"
[6] "BY" "fdr" "none"
> attach(account)
> pairwise.t.test(x,A,p.adjust.method="bonferroni")
Pairwise comparisons using t tests with pooled SD
data: x and A
1 2
2 0.0013 -
3 3.9e-07 6.5e-10
P value adjustment method: bonferroni
經(jīng)過修正后的p值比原來(lái)會(huì)增大很多,這在一定程度上克服了多重t檢驗(yàn)增加犯第一類錯(cuò)誤的
概率的缺點(diǎn)衬衬。從檢驗(yàn)結(jié)果來(lái)看买猖,樣本兩兩之問t檢驗(yàn)的p值都很小,說明幾個(gè)樣本之間差異明顯滋尉。
8.1.4Kruskal-Wallis秩和檢驗(yàn)
R內(nèi)置函數(shù)kruskal.test()可以完成Kruskal-Wallis秩和檢驗(yàn)玉控,使用如下:
kruskal.test(x, ...)
kruskal.test(x, g, ...)
kruskal.test(formula, data, subset,na.action, ...)
例:
某制造商雇用了來(lái)自三所本地大學(xué)的雇員作為管理人員。最近狮惜,公司的人事部門已經(jīng)收集信息并考核了年度工作成績(jī)高诺。從三所大學(xué)來(lái)的雇員中隨機(jī)地抽取了三個(gè)獨(dú)立樣本,樣本量分別為7碾篡、6, 7虱而,數(shù)據(jù)如表所示。制造商想知道來(lái)自這三所不同的大學(xué)的雇員在管理崗位上的表現(xiàn)是否有所不同开泽,我們通過Kruskal-Wallis秩和檢驗(yàn)來(lái)得到結(jié)論牡拇。
>data=data.frame(x=c(25,70,60,85,95,90,80,60,20,30,15,40,35,50,70,60,80,90,70,75),g=factor(rep(1:3,c(7,6,7))))
> kruskal.test(x~g, data=data)
Kruskal-Wallis rank sum test
data: x by g
Kruskal-Wallis chi-squared = 8.9839, df = 2, p-value = 0.0112
檢驗(yàn)的結(jié)果為P=0.0112<0.05,因此拒絕原假設(shè)穆律,說明來(lái)自這三個(gè)不同的大學(xué)的雇員在管理崗位上的表現(xiàn)有比較顯著的差異惠呼。
8.2雙因素方差分析及R實(shí)現(xiàn)
8.2.1無(wú)交互作用的分析
例:
某商品在不同地區(qū)、不同包裝的銷售數(shù)據(jù)
首先為了建立數(shù)據(jù)集峦耘,引入生成因子水平的函數(shù)g1()剔蹋,其調(diào)用格式為:
gl(n, k, length=nk,labels=1:n,ordered=FALSE)
n是因子的水平個(gè)數(shù);k表示每一水平上的重復(fù)次數(shù);length=nk表示總觀測(cè)數(shù);可通過參數(shù)labels對(duì)因子的不同水平添加標(biāo)簽;ordered為邏輯值,指示是否排序辅髓。
> x=c(20,12,20,10,14,22,10,20,12,6,24,14,18,18,10,16,4,8,6,18,26,22,16,20,10)
> sales=data.frame(x,A=gl(5,5),B=gl(5,1,25))
> sales$B
[1] 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 12 3 4 5
Levels: 1 2 3 4 5
分析前先對(duì)因素A和B作方差齊性檢驗(yàn)泣崩,使用函數(shù)bartlett.test()
> bartlett.test(x~A,data=sales)
Bartlett test of homogeneity of variances
data: x by A
Bartlett's K-squared =0.66533, df = 4, p-value = 0.9555
> bartlett.test(x~B,data=sales)
Bartlett test of homogeneity of variances
data: x by B
Bartlett's K-squared =1.2046, df = 4, p-value = 0.8773
因素A和B的P值都遠(yuǎn)大于0.05的顯著性水平,不能拒絕原假設(shè)利朵,說明因素A, B的各水平是滿足方差齊性的。這時(shí)再進(jìn)行雙因素方差分析猎莲,輸入指令
> sales.aov=aov(x~A+B,data=sales)
> summary(sales.aov)
Df Sum Sq Mean Sq F valuePr(>F)
A 4 199.4 49.84 2.303 0.1032
B 4 335.4 83.84 3.874 0.0219 *
Residuals 16 346.2 21.64
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1
檢驗(yàn)的結(jié)論:因素B的P值=0.0219<0.05绍弟,拒絕原假設(shè),說明銷售地區(qū)對(duì)飲料的銷售量有顯著影響;而因素A的P值=0.1032>0.05著洼,不能拒絕原假設(shè)樟遣,因此沒有充分的理由可以說明包裝方式對(duì)銷售有明顯影響而叼。
8.2.2有交互作用的分析
R仍然用函數(shù)aov()作雙因素方差分析,只需將formula改為xA+B+A:B或xA*B的形式即可豹悬。
例:
不同路段和不同時(shí)段的行車時(shí)間數(shù)據(jù)
首先構(gòu)造數(shù)據(jù)集葵陵,對(duì)因素A和B作方差齊性檢驗(yàn),利用函數(shù)bartlett.test()
> time=c(25,24,27,25,25,19,20,23,22,21,29,28,31,28,30,20,17,22,21,17,18,17,13,16,12,22,18,24,21,22)
> traffic=data.frame(time,A=gl(2,15,30),B=gl(3,5,30,labels=c("I","II","III")))
> bartlett.test(time~A,data=traffic)
Bartlett test of homogeneity of variances
data: time by A
Bartlett's K-squared =0.053302, df = 1, p-value = 0.8174
> bartlett.test(time~B,data=traffic)
Bartlett test of homogeneity of variances
data: time by B
Bartlett's K-squared =0.57757, df = 2, p-value = 0.7492
檢驗(yàn)結(jié)果的P值均遠(yuǎn)大于顯著性水平0.05瞻佛,說明兩個(gè)因素下的各水平都滿足方差齊性的要求脱篙,可以進(jìn)一步做方差分析。畫圖來(lái)觀察一下數(shù)據(jù)的特點(diǎn)伤柄,首先是箱線圖绊困。
> op=par(mfrow=c(1,2)) #分割圖形區(qū)域
> plot(time~A+B,data=traffic)
Hit <Return> tosee next plot:
從圖形上單獨(dú)觀察時(shí)段和路段對(duì)行車時(shí)間的影響,可以發(fā)現(xiàn)因素的不同水平還是有明顯差別的适刀。為了考察因素間的交互作用是否存在秤朗,利用函數(shù)interaction.plot()繪制交互效應(yīng)圖:
interaction.plot(x.factor, trace.factor,response, fun = mean,type = c("l","p", "b", "o", "c"), legend = TRUE,trace.label =deparse(substitute(trace.factor)),fixed = FALSE,xlab =deparse(substitute(x.factor)),ylab = ylabel,ylim = range(cells, na.rm =TRUE),lty = nc:1, col = 1, pch =c(1:9, 0, letters),xpd = NULL, leg.bg =par("bg"), leg.bty = "n",
xtick = FALSE, xaxt = par("xaxt"),axes = TRUE,...)
x.factor表示橫軸的因子
trace.factor表示分類繪圖的因子
response是數(shù)值向量,要輸入響應(yīng)變量
fun表示匯總數(shù)據(jù)的方式笔喉,默認(rèn)為計(jì)算每個(gè)因子水平下的均值
type指定圖形類型
legend是邏輯值取视,指示是否生成圖例
trace.label給出圖例中的標(biāo)簽。
> attach(traffic)
> interaction.plot(A,B,time,legend=F)
> interaction.plot(B,A,time,legend=F)
曲線均沒有相交常挚,所以可以初步判斷兩個(gè)因素之間應(yīng)該沒有交互作用作谭。用方差分析進(jìn)行確認(rèn):
> traf.aov=aov(time~A*B,data=traffic)
> summary(traf.aov)
Df Sum Sq Mean Sq F value Pr(>F)
A 1 313.63 313.63 84.766 2.41e-09 ***
B 2 261.60 130.80 35.351 7.02e-08 ***
A:B 2 6.67 3.33 0.901 0.42
Residuals 24 88.80 3.70
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
根據(jù)檢驗(yàn)結(jié)果的P值作判斷:引素A時(shí)段和B路段對(duì)行車時(shí)間有顯著影響;而交互作用A:B的P值=0.42>0.05 ,因此不能拒絕原假設(shè)H0,說明兩個(gè)因素間沒有明顯的交互效應(yīng)待侵。
8.3協(xié)方差分析及R實(shí)現(xiàn)
為了提高試驗(yàn)的精確性和準(zhǔn)確性丢早,我們對(duì)除研究因素以外的一切條件都需要采取有效措施嚴(yán)加控制,使它們?cè)谝蛩氐牟煌介g盡量保持一致秧倾,這叫做試驗(yàn)控制怨酝。但當(dāng)我們進(jìn)行試驗(yàn)設(shè)計(jì)時(shí),即使做出很大努力控制那先,也經(jīng)常會(huì)碰到試驗(yàn)個(gè)體的初始條件不同的情況农猬,如果不考慮這些因素有可能導(dǎo)致結(jié)果失真。如果考慮這些不可控的因素售淡,這種方差分析就叫做協(xié)方差分析斤葱,其是將回歸分析和方差分析結(jié)合在一起的方法。它的基本原理如下:將一些對(duì)響應(yīng)變量Y有影響的變量X(未知或難以控制的因素)看作協(xié)變量揖闸,建立響應(yīng)變量Y隨X變化的線性回歸分析揍堕,從Y的總的平方和中扣除X對(duì)Y的回歸平方和,對(duì)殘差平方和作進(jìn)一步分解后再進(jìn)行方差分析汤纸。
例:
施用3種肥料的蘋果產(chǎn)量
>Weight_Initial=c(15,13,11,12,12,16,14,17,17,16,18,18,21,22,19,18,22,24,20,23,25,27,30,32)
>Weight_Increment=c(85,83,65,76,80,91,84,90,97,90,100,95,103,106,99,94,89,91,83,95,100,102,105,110)
> feed=gl(3,8,24)
> data_feed=data.frame(Weight_Initial,Weight_Increment,feed)
> library(HH)
> m=ancova(Weight_Increment~Weight_Initial+feed,data=data_feed)
> summary(m)
Df Sum Sq Mean Sq F value Pr(>F)
Weight_Initial 1 1621.1 1621.1 142.44 1.50e-10
feed 2 707.2 353.6 31.07 7.32e-07
Residuals 20 227.6 11.4
Weight_Initial ***
feed ***
Residuals
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
協(xié)方差分析的P值非常小衩茸,說明結(jié)果非常顯著,應(yīng)該拒絕原假設(shè)贮泞,認(rèn)為各因素在不同水平下的試驗(yàn)結(jié)果有顯著差別楞慈,即三種肥料對(duì)蘋果產(chǎn)量有很大的影響幔烛。
zhan<-read.table("zhan.txt",sep="\t",header=T,stringsAsFactors=F)
head(zhan)
install.packages("psych")
library(psych)
zhan_12HS<-zhan[1:243,5:8]
corr.test(zhan_12HS,use="complete")
zhan_13HS<-zhan[244:585,5:8]
corr.test(zhan_13HS,use="complete")
zhan_14HN<-zhan[586:1026,5:8]
corr.test(zhan_14HN,use="complete")
zhan_14SH<-zhan[1027:1311,5:8]
corr.test(zhan_14SH,use="complete")
zhan_15HN<-zhan[1312:1557,5:8]
corr.test(zhan_15HN,use="complete")
zhan_15SC<-zhan[1558:1908,5:8]
corr.test(zhan_15SC,use="complete")