0. 主要概念及其定義
- 最小二乘法準(zhǔn)則
- 誤差平方和
- 總平方和
- 回歸平方和
-
之間的關(guān)系
- 判定系數(shù)
如果我們用一個(gè)百分比來(lái)表示判定系數(shù)耍贾,則 可以理解為總平方和中能被估計(jì)的回歸方程解釋的百分比。也即應(yīng)變量的變異性有多少百分比能被回歸方程所解釋。 - 修正多元判定系數(shù)
其中责嚷,代表觀測(cè)值的數(shù)目莱睁,表示自變量的數(shù)目。 - 樣本相關(guān)系數(shù)
其中 為估計(jì)的回歸方程 的斜率颁虐。
在兩變量之間存在一個(gè)線性關(guān)系的情況下蛮原,判定系數(shù)和樣本相關(guān)系數(shù)都給出了它們之間線性關(guān)系強(qiáng)度的度量。但是樣本相關(guān)系數(shù)被限制在兩變量之間存在線性關(guān)系的情況另绩,而判定系數(shù)對(duì)非線性關(guān)系以及有兩個(gè)或兩個(gè)以上自變量的相關(guān)關(guān)系都適用儒陨。
1. 簡(jiǎn)單線性回歸
含有一個(gè)自變量和一個(gè)應(yīng)變量花嘶,并且兩個(gè)變量之間的關(guān)系用一條直線近似的回歸分析。
1.2 模型的假定
關(guān)于回歸模型 的誤差項(xiàng) 的假定
- 誤差項(xiàng) 是一個(gè)平均值或者期望值為零的隨機(jī)變量蹦漠,即 椭员。
這就意味著,因?yàn)? 和 都是常數(shù)笛园,所以有 和 隘击;于是,對(duì)于一個(gè)給定的 值研铆, 的期望是 - 對(duì)所有的 值埋同, 的方差都是相同的,用 表示方差棵红。
這就意味著凶赁, 關(guān)于回歸直線的方差等于 ,也就是說(shuō)逆甜,對(duì)于所有的 虱肄, 的方差都是相等的。 -
的值是相互獨(dú)立的忆绰。
這就意味著浩峡,對(duì)于一個(gè)特定的 值,它所對(duì)應(yīng)的 值與任何其他的 值所對(duì)應(yīng)的 值不相關(guān)错敢。 - 對(duì)所有的 值翰灾,誤差項(xiàng) 是一個(gè)正態(tài)分布的隨機(jī)變量。
這就意味著稚茅,因?yàn)? 是 的一個(gè)線性函數(shù)纸淮,所以對(duì)所有的 值, 也是一個(gè)正態(tài)分布的隨機(jī)變量亚享。
1.3 顯著性檢驗(yàn)
對(duì)于簡(jiǎn)單線性回歸模型 咽块,如果 和 之間存在一個(gè)線性關(guān)系,則必須有 欺税。顯著性檢驗(yàn)的目的就是我們能否斷定 侈沪。
1.3.1 的估計(jì)
殘差平方和 是實(shí)際觀測(cè)值關(guān)于估計(jì)的回歸直線變異性的度量, 除以它的自由度晚凿,得到的均方誤差 是 的一個(gè)估計(jì)量亭罪。為了計(jì)算 ,必須估計(jì)兩個(gè)參數(shù) 和 歼秽,所以 的自由度為 应役。
1.3.2 檢驗(yàn)
建立原假設(shè)和備擇假設(shè)
檢驗(yàn)統(tǒng)計(jì)量
拒絕法則
值法:如果 值,則拒絕
臨界值法:如果 或者,則拒絕
其中箩祥, 為自由度 的 分布上側(cè)的面積為 時(shí)對(duì)應(yīng)的 值院崇。
的抽樣分布
- 期望值
- 標(biāo)準(zhǔn)差
- 分布形式:正態(tài)分布
- 估計(jì)的標(biāo)準(zhǔn)差
1.3.3 的置信區(qū)間
其中, 為 的點(diǎn)估計(jì)量袍祖; 為邊際誤差底瓣。 為自由度 的 分布上側(cè)的面積為 時(shí)對(duì)應(yīng)的 值。我們可以利用置信區(qū)間對(duì) 進(jìn)行任何雙側(cè)假設(shè)檢驗(yàn)盲泛,如果 的假設(shè)值包括在置信區(qū)間里濒持,則不拒絕 键耕,否則寺滚,拒絕 。
1.3.4 檢驗(yàn)
建立原假設(shè)和備擇假設(shè)
檢驗(yàn)統(tǒng)計(jì)量
拒絕法則
值法:如果 值屈雄,則拒絕
臨界值法:如果 村视,則拒絕
其中, 為分子自由度 酒奶,分母自由為 時(shí)蚁孔,使 分布上側(cè)的面積為 時(shí)對(duì)應(yīng)的 值, 的計(jì)算公式如下:
如果 不成立惋嚎, 仍然是 的一個(gè)無(wú)偏估計(jì)量杠氢,而 會(huì)高估 ;如果 成立另伍, 和 都是 的無(wú)偏估計(jì)量鼻百,在這種情況下, 應(yīng)接近于 摆尝。
簡(jiǎn)單線性回歸 的一般形式:
方差來(lái)源 | 平方和 | 自由度 | 均方 | F | -值 |
---|---|---|---|---|---|
回歸 | |||||
誤差 | |||||
總計(jì) |
1.4 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測(cè)
1.4.1 的平均值的置信區(qū)間
置信區(qū)間:對(duì)于一個(gè)給定的 值温艇, 的平均值的區(qū)間估計(jì)。
其中堕汞, 為置信系數(shù)勺爱, 為自由度 的 分布上側(cè)的面積為 時(shí)對(duì)應(yīng)的 值。估計(jì)值 的標(biāo)準(zhǔn)差的計(jì)算公式:
當(dāng) 時(shí)讯检,就能得到 的平均值最佳或是最精確的估計(jì)量琐鲁;當(dāng) 偏離 愈遠(yuǎn),差 就變得愈大人灼, 的平均值的置信區(qū)間就變得愈寬围段。
1.4.2 的一個(gè)個(gè)別值的預(yù)測(cè)區(qū)間
預(yù)測(cè)區(qū)間:對(duì)于一個(gè)給定的 值, 的一個(gè)個(gè)別值的區(qū)間估計(jì)挡毅。
其中蒜撮, 為置信系數(shù), 為自由度 的 分布上側(cè)的面積為 時(shí)對(duì)應(yīng)的 值。估計(jì)值 的標(biāo)準(zhǔn)差的計(jì)算公式:
1.5 殘差分析
在 中段磨,我們對(duì)誤差項(xiàng) 做了 項(xiàng)假定取逾,殘差分析是確定誤差項(xiàng) 是否成立的重要步驟。
殘差圖主要有以下 種:
- 關(guān)于自變量 的值的殘差圖苹支。
- 關(guān)于應(yīng)變量的預(yù)測(cè)值 的殘差圖砾隅。
- 標(biāo)準(zhǔn)化殘差圖。
- 正態(tài)概率圖债蜜。
1.5.1 關(guān)于自變量 的值的殘差圖
第一個(gè)坐標(biāo)為 晴埂,第二個(gè)坐標(biāo)為對(duì)應(yīng)的第 個(gè)殘差 的值。
如果模型滿(mǎn)足殘差的假定寻定,則所有散點(diǎn)都應(yīng)落在一條水平帶中間儒洛。
1.5.2 關(guān)于 的殘差圖
第一個(gè)坐標(biāo)為 ,第二個(gè)坐標(biāo)為對(duì)應(yīng)的第 個(gè)殘差 的值狼速。
如果模型滿(mǎn)足殘差的假定琅锻,則所有散點(diǎn)都應(yīng)落在一條水平帶中間。
1.5.3 標(biāo)準(zhǔn)化殘差圖
第 個(gè)殘差的標(biāo)準(zhǔn)差
其中向胡, 代表第 個(gè)殘差的標(biāo)準(zhǔn)差恼蓬, 代表估計(jì)的標(biāo)準(zhǔn)誤差。 被稱(chēng)為第 次觀測(cè)的杠桿率:
表示的是某一個(gè)自變量的觀測(cè)值和所有觀測(cè)值的平均值之間距離遠(yuǎn)近的度量僵芹。第 次觀測(cè)的標(biāo)準(zhǔn)化誤差
如果模型滿(mǎn)足殘差的假定处硬,標(biāo)準(zhǔn)化殘差分布也應(yīng)該服從一個(gè)標(biāo)準(zhǔn)正態(tài)概率分布。大約 的標(biāo)準(zhǔn)化殘差應(yīng)介于 拇派。
1.5.4 正態(tài)概率圖
正態(tài)概率圖 (Normal Probability Plot) 用于檢查一組數(shù)據(jù)是否服從正態(tài)分布荷辕,如果該組數(shù)據(jù)服從正態(tài)分布,則正態(tài)概率圖會(huì)是一條直線攀痊。
QQ-Plot (Quantile-Quantile Plot)用來(lái)判斷樣本是否近似服從某種分布桐腌,或驗(yàn)證兩組數(shù)據(jù)是否來(lái)至同一分布。
- 正態(tài)分?jǐn)?shù)
假設(shè)從一個(gè)平均值為 苟径,標(biāo)準(zhǔn)差為 的標(biāo)準(zhǔn)正態(tài)概率分布中隨機(jī)地抽取 個(gè)數(shù)值案站,并將這一抽樣過(guò)程反復(fù)進(jìn)行,然后把每個(gè)樣本中的 個(gè)數(shù)值進(jìn)行排序棘街,則每個(gè)順序上的一組值對(duì)應(yīng)的期望值被稱(chēng)為正態(tài)分?jǐn)?shù)蟆盐,排序上的第 個(gè)正態(tài)分?jǐn)?shù)被稱(chēng)為 階順序統(tǒng)計(jì)量。
用水平軸表示正態(tài)分?jǐn)?shù)遭殉,用縱軸表示對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差(即也按照從小到大進(jìn)行排序石挂,然后一一對(duì)應(yīng)的值)所做的散點(diǎn)圖。如果模型滿(mǎn)足殘差的假定险污,則這些散點(diǎn)應(yīng)密集圍繞在通過(guò)坐標(biāo)軸原點(diǎn)的 直線附近痹愚。
1.5.5 異常值和有影響的觀測(cè)值
- 異常值
可通過(guò)標(biāo)準(zhǔn)化殘差圖來(lái)看富岳,如果標(biāo)準(zhǔn)化殘差小于 或者大于 ,則 會(huì)將該值標(biāo)注為異常值(數(shù)據(jù)被單獨(dú)打印拯腮,最后帶 )窖式。 - 有影響的觀測(cè)值
自變量是極端值的觀測(cè)值被稱(chēng)為高杠桿率點(diǎn),如果杠桿率 动壤,則 會(huì)將該值標(biāo)注為具有高杠桿率的觀測(cè)值(數(shù)據(jù)被單獨(dú)打印萝喘,最后帶 )
有影響的觀測(cè)值是由于大的殘差和高杠桿率的交互作用而產(chǎn)生的。
2. 多元回歸
包含兩個(gè)或兩個(gè)以上自變量的回歸分析琼懊。
2.1 模型的假定
關(guān)于多元回歸模型 的誤差項(xiàng) 的假定
- 誤差項(xiàng) 是一個(gè)平均值或者期望值為零的隨機(jī)變量阁簸,即 。
這就意味著哼丈,對(duì)于一個(gè)給定的 的值启妹, 的期望是 - 對(duì)所有的 值, 的方差都是相同的削祈,用 表示方差翅溺。
這就意味著, 關(guān)于回歸線的方差等于 髓抑。 -
的值是相互獨(dú)立的。
這就意味著优幸,對(duì)于自變量 的一組特定的值吨拍,它所對(duì)應(yīng)的 值與任何其他組 值所對(duì)應(yīng)的 值不相關(guān)。 - 誤差項(xiàng) 是一個(gè)服從正態(tài)分布的隨機(jī)變量网杆。
這就意味著生棍,對(duì)所有的 值宋梧, 也是一個(gè)正態(tài)分布的隨機(jī)變量。
2.2 顯著性檢驗(yàn)
- 檢驗(yàn)用于確定在應(yīng)變量和所有自變量之間是否存在一個(gè)顯著性的關(guān)系, 檢驗(yàn)也稱(chēng)為總體的顯著性檢驗(yàn)框杜。
- 如果 檢驗(yàn)已經(jīng)表明了模型總體的顯著性,那么 檢驗(yàn)用來(lái)確定每一個(gè)單個(gè)的自變量是否為一個(gè)顯著性的自變量搬设。對(duì)模型中每一個(gè)單獨(dú)的自變量竭沫,都要單獨(dú)的進(jìn)行 檢驗(yàn)。
2.2.1 總體顯著性的 檢驗(yàn)
建立原假設(shè)和備擇假設(shè)
檢驗(yàn)統(tǒng)計(jì)量
拒絕法則
值法:如果 值关噪,則拒絕
臨界值法:如果 鸟蟹,則拒絕
其中, 為分子自由度 ( 為自變量的個(gè)數(shù))使兔,分母自由為 時(shí)建钥,使 分布上側(cè)的面積為 時(shí)對(duì)應(yīng)的 值, 的計(jì)算公式如下:
如果 不成立虐沥, 仍然是 的一個(gè)無(wú)偏估計(jì)量熊经,而 會(huì)高估 ;如果 成立, 和 都是 的無(wú)偏估計(jì)量镐依,在這種情況下悉盆, 應(yīng)接近于 。
具有 個(gè)自變量的多元回歸模型的 表:
方差來(lái)源 | 平方和 | 自由度 | 均方 | F | -值 |
---|---|---|---|---|---|
回歸 | |||||
誤差 | |||||
總計(jì) |
2.2.2 單個(gè)參數(shù)顯著性的 檢驗(yàn)
建立原假設(shè)和備擇假設(shè):對(duì)于任一個(gè)參數(shù)
檢驗(yàn)統(tǒng)計(jì)量
拒絕法則
值法:如果 值馋吗,則拒絕
臨界值法:如果 或者焕盟,則拒絕
其中, 為自由度 的 分布上側(cè)的面積為 時(shí)對(duì)應(yīng)的 值宏粤; 是 標(biāo)準(zhǔn)差的估計(jì)脚翘。
2.3 多重共線性
在多元回歸分析中,我們把自變量之間的相關(guān)性稱(chēng)為多重共線性绍哎。
在對(duì)單個(gè)參數(shù)的顯著性進(jìn)行 檢驗(yàn)時(shí)来农,由于多重共線性帶來(lái)的困難是:當(dāng)多元回歸方程總體顯著性的 檢驗(yàn)表明有一個(gè)顯著的關(guān)系時(shí),我們可能得出單個(gè)參數(shù)沒(méi)有一個(gè)是顯著的不同于零的結(jié)論崇堰。只有當(dāng)變量之間的相關(guān)性非常小時(shí)沃于,才有可能回避這個(gè)問(wèn)題。如果兩個(gè)變量之間的樣本相關(guān)系數(shù)的絕對(duì)值大于 海诲,多重共線性有可能成為一個(gè)潛在的問(wèn)題繁莹。
2.4 分類(lèi)變量的處理
如果一個(gè)分類(lèi)變量有 個(gè)水平,那么需要定義 個(gè)虛擬變量特幔,每一個(gè)虛擬變量或者取值為 咨演, 或者取值為 。
2.5 殘差分析
殘差圖與簡(jiǎn)單線性回歸一致蚯斯。
2.5.1 學(xué)生化刪除殘差
假設(shè)從數(shù)據(jù)集中刪除第 次觀測(cè)值薄风,利用其余的 次觀測(cè)值建立一個(gè)新的估計(jì)的回歸方程,設(shè) 表示從數(shù)據(jù)集中刪除了第 次觀測(cè)值后得到的估計(jì)的標(biāo)準(zhǔn)誤差拍嵌,如果我們計(jì)算第 次觀測(cè)的殘差的標(biāo)準(zhǔn)差遭赂,用 代替 中的 ,那我們?cè)谟?jì)算第 次觀測(cè)的標(biāo)準(zhǔn)化殘差時(shí)横辆, 利用了 的修正值撇他,這樣得到的標(biāo)準(zhǔn)化殘差稱(chēng)為學(xué)生化刪除殘差。如果第 次觀測(cè)值是一個(gè)異常值龄糊,那么 將小于 逆粹。所以,第 次觀測(cè)的學(xué)生化刪除殘差的絕對(duì)值將大于標(biāo)準(zhǔn)化殘差的絕對(duì)值炫惩。所以僻弹,學(xué)生化刪除殘差可以檢測(cè)出標(biāo)準(zhǔn)化殘差不能檢測(cè)出的異常值。
2.5.2 有影響的觀測(cè)值
中判定準(zhǔn)則是
有時(shí)候僅根據(jù)杠桿率來(lái)識(shí)別有影響的觀測(cè)值他嚷,可能導(dǎo)致錯(cuò)誤的結(jié)論蹋绽,因此芭毙,引出 庫(kù)克距離測(cè)度(Cook's distance measure)
其中, 代表第 次觀測(cè)的庫(kù)克距離測(cè)度卸耘, 代表第 次觀測(cè)的殘差退敦, 代表第 次觀測(cè)的杠桿率, 代表自變量的個(gè)數(shù)蚣抗, 代表估計(jì)的標(biāo)準(zhǔn)誤差侈百。
作為經(jīng)驗(yàn)準(zhǔn)則,如果 翰铡,則表明第 次觀測(cè)值是一個(gè)有影響的觀測(cè)值钝域。
3. Logistic 回歸
3.1 回歸方程
如果應(yīng)變量 的值被賦值為 或者 ,那么在自變量 的一組特定值已知的條件下锭魔,式 中 的值給出了 的概率例证。所以式 又可以寫(xiě)成
3.2 估計(jì)的 logistic 回歸方程
式中, 是在自變量 的一組特定值已知時(shí)迷捧,給出了 的概率织咧。
3.3 顯著性檢驗(yàn)
3.3.1 總體的顯著性的 檢驗(yàn)
建立原假設(shè)和備擇假設(shè)
檢驗(yàn)統(tǒng)計(jì)量為 統(tǒng)計(jì)量。如果原假設(shè)成立漠秋,則 統(tǒng)計(jì)量的抽樣分布為服從自由度等于模型中自變量的個(gè)數(shù)的 分布笙蒙。
3.3.2 單個(gè)參數(shù)顯著性的 檢驗(yàn)
如果 檢驗(yàn)表明模型的總體是顯著的,則可以利用 檢驗(yàn)來(lái)確定每一個(gè)單個(gè)自變量對(duì)模型總體是否有顯著的作用膛堤。
建立原假設(shè)和備擇假設(shè):對(duì)于任一個(gè)參數(shù)
如果原假設(shè)成立手趣,則估計(jì)的系數(shù) 除以它的標(biāo)準(zhǔn)差 后,得到的結(jié)果 為一服從標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)計(jì)量肥荔。
3.4 解釋 logistic 回歸方程
- 有利于一個(gè)事件發(fā)生的機(jī)會(huì)比 (odds in favor of an event occurring)
事件將要發(fā)生的概率與該事件將不會(huì)發(fā)生的概率的比。在自變量的一組特定值已知時(shí)朝群,有利于事件 發(fā)生的機(jī)會(huì)比可以按照下式計(jì)算:
- 機(jī)會(huì)比率 (odds ratio)
度量一組自變量中只有一個(gè)自變量增加了一個(gè)單位時(shí)燕耿,對(duì)機(jī)會(huì)比的影響。即當(dāng)給定的一組自變量中的一個(gè)自變量增加了一個(gè)單位時(shí)姜胖, 的機(jī)會(huì)比 () 除以該組自變量的值都沒(méi)有變化時(shí)誉帅, 的機(jī)會(huì)比 ()
- 機(jī)會(huì)比率和回歸系數(shù)之間的關(guān)系
一個(gè)變量的機(jī)會(huì)比率和它所對(duì)應(yīng)的回歸系數(shù)之間存在一個(gè)唯一的關(guān)系:
當(dāng)自變量變化一個(gè)單位,而所有其他的自變量都保持不變時(shí)右莱,一個(gè)自變量的機(jī)會(huì)比率描述了該自變量機(jī)會(huì)比的變化蚜锨。當(dāng)一個(gè)自變量的變化大于 個(gè)單位時(shí)(比如 個(gè)單位),對(duì)應(yīng)的估計(jì)的機(jī)會(huì)比率是
一般來(lái)說(shuō)慢蜓,機(jī)會(huì)比率使我們能夠比較兩個(gè)不同事件的機(jī)會(huì)比亚再,如果機(jī)會(huì)比率的值是 ,那么兩個(gè)事件的機(jī)會(huì)比是相同的晨抡。如果自變量對(duì)事件發(fā)生的概率有一個(gè)正的影響氛悬,那么對(duì)應(yīng)的機(jī)會(huì)比率將大于 则剃。
3.5 對(duì)數(shù)機(jī)會(huì)比(logit)變換
有利于 的機(jī)會(huì)比的自然對(duì)數(shù)是自變量的線性函數(shù)
這個(gè)線性函數(shù)稱(chēng)為對(duì)數(shù)機(jī)會(huì)比(logit),用符號(hào) 表示對(duì)數(shù)機(jī)會(huì)比:
4. 建立模型
4.1 確定什么時(shí)候增加或者刪除變量
考慮以下含有 個(gè)自變量的多元回歸模型:
如果增加自變量 到這個(gè)模型上如捅,得到含有 個(gè)自變量的多元回歸模型
為了檢驗(yàn)增加的自變量 是否在統(tǒng)計(jì)上是顯著的棍现,提出如下原假設(shè)和備擇假設(shè):
計(jì)算檢驗(yàn)統(tǒng)計(jì)量
簡(jiǎn)化形式
拒絕法則
值法:如果 值,則拒絕
臨界值法:如果 镜遣,則拒絕
其中己肮, 為分子自由度 ,分母自由為 時(shí)悲关,使 分布上側(cè)的面積為 時(shí)對(duì)應(yīng)的 值谎僻。
4.2 變量選擇方法
4.2.1 逐步回歸法
逐步回歸方法的每一步,首先要考慮的是查看一下是否有哪個(gè)自變量能從當(dāng)前的模型中被刪除坚洽,如果沒(méi)有一個(gè)變量能從模型中被刪除戈稿,則查看是否有哪個(gè)不在當(dāng)前模型中的自變量能增加到模型里來(lái)。判斷的標(biāo)準(zhǔn)即是 檢驗(yàn)讶舰。停止條件為沒(méi)有自變量能從模型中被刪除且沒(méi)有自變量能進(jìn)入到模型里來(lái)鞍盗。
4.2.2 前向選擇法
前向選擇方法從模型中沒(méi)有自變量開(kāi)始,使用與逐步回歸方法為了確定一個(gè)變量是否應(yīng)該進(jìn)入模型同樣的程序來(lái)增加變量跳昼,并且每次只能增加一個(gè)變量般甲。需要注意的是,一個(gè)變量一旦加入到模型中鹅颊,前向選擇方法就不允許這個(gè)變量從模型中刪除敷存。停止條件為當(dāng)不在模型中每一個(gè)自變量的 -值全都大于 (即顯著性水平閾值)。
4.2.3 后向消元法
后向消元法從包含所有自變量的模型開(kāi)始堪伍,使用與逐步回歸方法為了確定一個(gè)變量是否應(yīng)該從模型中刪除同樣的程序來(lái)刪除變量锚烦,并且每次只能刪除一個(gè)變量。需要注意的是帝雇,一個(gè)變量一旦從模型中刪除涮俄,后向消元法就不允許這個(gè)變量重新再進(jìn)入模型。停止條件為當(dāng)模型中自變量的 -值沒(méi)有一個(gè)大于 (即顯著性水平閾值)尸闸。
注:前向選擇法和后向消元法可能得出不同的模型彻亲。
4.2.4 最佳子集回歸法
暫略
4.3 試驗(yàn)設(shè)計(jì)的多元回歸方法
4.3.1 完全隨機(jī)化實(shí)驗(yàn)
包含 四種處理的一個(gè)完全隨機(jī)化設(shè)計(jì),可以考慮如下的多元回歸方程:
處理 | |||
---|---|---|---|
0 | 0 | 0 | 處理 A |
1 | 0 | 0 | 處理 B |
0 | 1 | 0 | 處理 C |
0 | 0 | 1 | 處理 D |
4.3.2 析因?qū)嶒?yàn)
因素 有 水平吮廉,因素 有 水平的兩因素設(shè)計(jì)苞尝,可以考慮如下的多元回歸方程:
因素 :如果水平 ,則 宦芦;如果水平 宙址,則 ,因素 :
水平 | ||
---|---|---|
0 | 0 | 1 |
1 | 0 | 2 |
0 | 1 | 3 |
4.4 自相關(guān)性和杜賓-瓦特森檢驗(yàn)
- 自相關(guān)性
當(dāng)模型誤差項(xiàng)在連續(xù)時(shí)間點(diǎn)上相關(guān)時(shí)踪旷,在誤差項(xiàng)中出現(xiàn)的相關(guān)性曼氛。
如果 在 時(shí)期的值依賴(lài)于 在 時(shí)期的值豁辉,則稱(chēng)數(shù)據(jù)中存在一階自相關(guān)性;如果 在 時(shí)期的值依賴(lài)于 在 時(shí)期的值舀患,則稱(chēng)數(shù)據(jù)中存在二階自相關(guān)性徽级,等等。
回歸模型的假定之一是模型的誤差項(xiàng)是獨(dú)立的聊浅,當(dāng)數(shù)據(jù)存在自相關(guān)性時(shí)餐抢,違背了這一假定。因此低匙,檢測(cè)出自相關(guān)性的存在并作出適當(dāng)?shù)男拚种匾?/p>
杜賓-瓦特森檢驗(yàn) (Durbin-Watson test) 的檢驗(yàn)統(tǒng)計(jì)量
其中旷痕,,表示第 個(gè)殘差顽冶。
- 修正措施
如果顯著的自相關(guān)性被識(shí)別出來(lái)欺抗,應(yīng)考慮假設(shè)的回歸模型是否遺漏了一個(gè)或幾個(gè)重要的自變量,而這些自變量對(duì)應(yīng)變量有顯著的時(shí)序影響强重。如果沒(méi)有這樣的自變量被識(shí)別出來(lái)绞呈,則可以在模型中引入一個(gè)度量觀測(cè)次數(shù)的自變量(例如,對(duì)于第一次觀測(cè)间景,這個(gè)變量的值可以為 佃声,對(duì)于第二次觀測(cè),這個(gè)變量的值可以為 倘要,等等)圾亏。當(dāng)這些嘗試不起作用時(shí),再考慮對(duì)應(yīng)變量或者自變量進(jìn)行適當(dāng)?shù)淖儞Q可能是有幫助的封拧。