0. 主要概念及其定義
- 最小二乘法準(zhǔn)則
- 誤差平方和
- 總平方和
- 回歸平方和
-
之間的關(guān)系
- 判定系數(shù)
如果我們用一個(gè)百分比來(lái)表示判定系數(shù)耍贾,則可以理解為總平方和中能被估計(jì)的回歸方程解釋的百分比。也即應(yīng)變量的變異性有多少百分比能被回歸方程所解釋。
- 修正多元判定系數(shù)
其中责嚷,代表觀測(cè)值的數(shù)目莱睁,
表示自變量的數(shù)目。
- 樣本相關(guān)系數(shù)
其中為估計(jì)的回歸方程
的斜率颁虐。
在兩變量之間存在一個(gè)線性關(guān)系的情況下蛮原,判定系數(shù)和樣本相關(guān)系數(shù)都給出了它們之間線性關(guān)系強(qiáng)度的度量。但是樣本相關(guān)系數(shù)被限制在兩變量之間存在線性關(guān)系的情況另绩,而判定系數(shù)對(duì)非線性關(guān)系以及有兩個(gè)或兩個(gè)以上自變量的相關(guān)關(guān)系都適用儒陨。
1. 簡(jiǎn)單線性回歸
含有一個(gè)自變量和一個(gè)應(yīng)變量花嘶,并且兩個(gè)變量之間的關(guān)系用一條直線近似的回歸分析。
1.2 模型的假定
關(guān)于回歸模型 的誤差項(xiàng)
的假定
- 誤差項(xiàng)
是一個(gè)平均值或者期望值為零的隨機(jī)變量蹦漠,即
椭员。
這就意味著,因?yàn)?和
都是常數(shù)笛园,所以有
和
隘击;于是,對(duì)于一個(gè)給定的
值研铆,
的期望是
- 對(duì)所有的
值埋同,
的方差都是相同的,用
表示方差棵红。
這就意味著凶赁,關(guān)于回歸直線的方差等于
,也就是說(shuō)逆甜,對(duì)于所有的
虱肄,
的方差都是相等的。
-
的值是相互獨(dú)立的忆绰。
這就意味著浩峡,對(duì)于一個(gè)特定的值,它所對(duì)應(yīng)的
值與任何其他的
值所對(duì)應(yīng)的
值不相關(guān)错敢。
- 對(duì)所有的
值翰灾,誤差項(xiàng)
是一個(gè)正態(tài)分布的隨機(jī)變量。
這就意味著稚茅,因?yàn)?是
的一個(gè)線性函數(shù)纸淮,所以對(duì)所有的
值,
也是一個(gè)正態(tài)分布的隨機(jī)變量亚享。
1.3 顯著性檢驗(yàn)
對(duì)于簡(jiǎn)單線性回歸模型 咽块,如果
和
之間存在一個(gè)線性關(guān)系,則必須有
欺税。顯著性檢驗(yàn)的目的就是我們能否斷定
侈沪。
1.3.1
的估計(jì)
殘差平方和 是實(shí)際觀測(cè)值關(guān)于估計(jì)的回歸直線變異性的度量,
除以它的自由度晚凿,得到的均方誤差
是
的一個(gè)估計(jì)量亭罪。為了計(jì)算
,必須估計(jì)兩個(gè)參數(shù)
和
歼秽,所以
的自由度為
应役。
1.3.2
檢驗(yàn)
建立原假設(shè)和備擇假設(shè)
檢驗(yàn)統(tǒng)計(jì)量
拒絕法則
值法:如果
值
,則拒絕
臨界值法:如果 或者
,則拒絕
其中箩祥, 為自由度
的
分布上側(cè)的面積為
時(shí)對(duì)應(yīng)的
值院崇。
的抽樣分布
- 期望值
- 標(biāo)準(zhǔn)差
- 分布形式:正態(tài)分布
- 估計(jì)的標(biāo)準(zhǔn)差
1.3.3
的置信區(qū)間
其中, 為
的點(diǎn)估計(jì)量袍祖;
為邊際誤差底瓣。
為自由度
的
分布上側(cè)的面積為
時(shí)對(duì)應(yīng)的
值。我們可以利用置信區(qū)間對(duì)
進(jìn)行任何雙側(cè)假設(shè)檢驗(yàn)盲泛,如果
的假設(shè)值包括在置信區(qū)間里濒持,則不拒絕
键耕,否則寺滚,拒絕
。
1.3.4
檢驗(yàn)
建立原假設(shè)和備擇假設(shè)
檢驗(yàn)統(tǒng)計(jì)量
拒絕法則
值法:如果
值
屈雄,則拒絕
臨界值法:如果 村视,則拒絕
其中, 為分子自由度
酒奶,分母自由為
時(shí)蚁孔,使
分布上側(cè)的面積為
時(shí)對(duì)應(yīng)的
值,
的計(jì)算公式如下:
如果 不成立惋嚎,
仍然是
的一個(gè)無(wú)偏估計(jì)量杠氢,而
會(huì)高估
;如果
成立另伍,
和
都是
的無(wú)偏估計(jì)量鼻百,在這種情況下,
應(yīng)接近于
摆尝。
簡(jiǎn)單線性回歸 的一般形式:
方差來(lái)源 | 平方和 | 自由度 | 均方 | F |
|
---|---|---|---|---|---|
回歸 | |||||
誤差 | |||||
總計(jì) |
1.4 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測(cè)
1.4.1
的平均值的置信區(qū)間
置信區(qū)間:對(duì)于一個(gè)給定的 值温艇,
的平均值的區(qū)間估計(jì)。
其中堕汞, 為置信系數(shù)勺爱,
為自由度
的
分布上側(cè)的面積為
時(shí)對(duì)應(yīng)的
值。估計(jì)值
的標(biāo)準(zhǔn)差的計(jì)算公式:
當(dāng) 時(shí)讯检,就能得到
的平均值最佳或是最精確的估計(jì)量琐鲁;當(dāng)
偏離
愈遠(yuǎn),差
就變得愈大人灼,
的平均值的置信區(qū)間就變得愈寬围段。
1.4.2
的一個(gè)個(gè)別值的預(yù)測(cè)區(qū)間
預(yù)測(cè)區(qū)間:對(duì)于一個(gè)給定的 值,
的一個(gè)個(gè)別值的區(qū)間估計(jì)挡毅。
其中蒜撮, 為置信系數(shù),
為自由度
的
分布上側(cè)的面積為
時(shí)對(duì)應(yīng)的
值。估計(jì)值
的標(biāo)準(zhǔn)差的計(jì)算公式:
1.5 殘差分析
在 中段磨,我們對(duì)誤差項(xiàng)
做了
項(xiàng)假定取逾,殘差分析是確定誤差項(xiàng)
是否成立的重要步驟。
殘差圖主要有以下 種:
- 關(guān)于自變量
的值的殘差圖苹支。
- 關(guān)于應(yīng)變量的預(yù)測(cè)值
的殘差圖砾隅。
- 標(biāo)準(zhǔn)化殘差圖。
- 正態(tài)概率圖债蜜。
1.5.1 關(guān)于自變量
的值的殘差圖
第一個(gè)坐標(biāo)為 晴埂,第二個(gè)坐標(biāo)為對(duì)應(yīng)的第
個(gè)殘差
的值。
如果模型滿(mǎn)足殘差的假定寻定,則所有散點(diǎn)都應(yīng)落在一條水平帶中間儒洛。
1.5.2 關(guān)于
的殘差圖
第一個(gè)坐標(biāo)為 ,第二個(gè)坐標(biāo)為對(duì)應(yīng)的第
個(gè)殘差
的值狼速。
如果模型滿(mǎn)足殘差的假定琅锻,則所有散點(diǎn)都應(yīng)落在一條水平帶中間。
1.5.3 標(biāo)準(zhǔn)化殘差圖
第
個(gè)殘差的標(biāo)準(zhǔn)差
其中向胡,代表第
個(gè)殘差的標(biāo)準(zhǔn)差恼蓬,
代表估計(jì)的標(biāo)準(zhǔn)誤差。
被稱(chēng)為第
次觀測(cè)的杠桿率:
表示的是某一個(gè)自變量的觀測(cè)值和所有觀測(cè)值的平均值之間距離遠(yuǎn)近的度量僵芹。第
次觀測(cè)的標(biāo)準(zhǔn)化誤差
如果模型滿(mǎn)足殘差的假定处硬,標(biāo)準(zhǔn)化殘差分布也應(yīng)該服從一個(gè)標(biāo)準(zhǔn)正態(tài)概率分布。大約 的標(biāo)準(zhǔn)化殘差應(yīng)介于
拇派。
1.5.4 正態(tài)概率圖
正態(tài)概率圖 (Normal Probability Plot) 用于檢查一組數(shù)據(jù)是否服從正態(tài)分布荷辕,如果該組數(shù)據(jù)服從正態(tài)分布,則正態(tài)概率圖會(huì)是一條直線攀痊。
QQ-Plot (Quantile-Quantile Plot)用來(lái)判斷樣本是否近似服從某種分布桐腌,或驗(yàn)證兩組數(shù)據(jù)是否來(lái)至同一分布。
- 正態(tài)分?jǐn)?shù)
假設(shè)從一個(gè)平均值為苟径,標(biāo)準(zhǔn)差為
的標(biāo)準(zhǔn)正態(tài)概率分布中隨機(jī)地抽取
個(gè)數(shù)值案站,并將這一抽樣過(guò)程反復(fù)進(jìn)行,然后把每個(gè)樣本中的
個(gè)數(shù)值進(jìn)行排序棘街,則每個(gè)順序上的一組值對(duì)應(yīng)的期望值被稱(chēng)為正態(tài)分?jǐn)?shù)蟆盐,排序上的第
個(gè)正態(tài)分?jǐn)?shù)被稱(chēng)為
階順序統(tǒng)計(jì)量。
用水平軸表示正態(tài)分?jǐn)?shù)遭殉,用縱軸表示對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差(即也按照從小到大進(jìn)行排序石挂,然后一一對(duì)應(yīng)的值)所做的散點(diǎn)圖。如果模型滿(mǎn)足殘差的假定险污,則這些散點(diǎn)應(yīng)密集圍繞在通過(guò)坐標(biāo)軸原點(diǎn)的 直線附近痹愚。
1.5.5 異常值和有影響的觀測(cè)值
- 異常值
可通過(guò)標(biāo)準(zhǔn)化殘差圖來(lái)看富岳,如果標(biāo)準(zhǔn)化殘差小于或者大于
,則
會(huì)將該值標(biāo)注為異常值(數(shù)據(jù)被單獨(dú)打印拯腮,最后帶
)窖式。
- 有影響的觀測(cè)值
自變量是極端值的觀測(cè)值被稱(chēng)為高杠桿率點(diǎn),如果杠桿率动壤,則
會(huì)將該值標(biāo)注為具有高杠桿率的觀測(cè)值(數(shù)據(jù)被單獨(dú)打印萝喘,最后帶
)
有影響的觀測(cè)值是由于大的殘差和高杠桿率的交互作用而產(chǎn)生的。
2. 多元回歸
包含兩個(gè)或兩個(gè)以上自變量的回歸分析琼懊。
2.1 模型的假定
關(guān)于多元回歸模型 的誤差項(xiàng)
的假定
- 誤差項(xiàng)
是一個(gè)平均值或者期望值為零的隨機(jī)變量阁簸,即
。
這就意味著哼丈,對(duì)于一個(gè)給定的的值启妹,
的期望是
- 對(duì)所有的
值,
的方差都是相同的削祈,用
表示方差翅溺。
這就意味著,關(guān)于回歸線的方差等于
髓抑。
-
的值是相互獨(dú)立的。
這就意味著优幸,對(duì)于自變量的一組特定的值吨拍,它所對(duì)應(yīng)的
值與任何其他組
值所對(duì)應(yīng)的
值不相關(guān)。
- 誤差項(xiàng)
是一個(gè)服從正態(tài)分布的隨機(jī)變量网杆。
這就意味著生棍,對(duì)所有的值宋梧,
也是一個(gè)正態(tài)分布的隨機(jī)變量。
2.2 顯著性檢驗(yàn)
-
檢驗(yàn)用于確定在應(yīng)變量和所有自變量之間是否存在一個(gè)顯著性的關(guān)系,
檢驗(yàn)也稱(chēng)為總體的顯著性檢驗(yàn)框杜。
- 如果
檢驗(yàn)已經(jīng)表明了模型總體的顯著性,那么
檢驗(yàn)用來(lái)確定每一個(gè)單個(gè)的自變量是否為一個(gè)顯著性的自變量搬设。對(duì)模型中每一個(gè)單獨(dú)的自變量竭沫,都要單獨(dú)的進(jìn)行
檢驗(yàn)。
2.2.1 總體顯著性的
檢驗(yàn)
建立原假設(shè)和備擇假設(shè)
檢驗(yàn)統(tǒng)計(jì)量
拒絕法則
值法:如果
值
关噪,則拒絕
臨界值法:如果 鸟蟹,則拒絕
其中, 為分子自由度
(
為自變量的個(gè)數(shù))使兔,分母自由為
時(shí)建钥,使
分布上側(cè)的面積為
時(shí)對(duì)應(yīng)的
值,
的計(jì)算公式如下:
如果 不成立虐沥,
仍然是
的一個(gè)無(wú)偏估計(jì)量熊经,而
會(huì)高估
;如果
成立,
和
都是
的無(wú)偏估計(jì)量镐依,在這種情況下悉盆,
應(yīng)接近于
。
具有 個(gè)自變量的多元回歸模型的
表:
方差來(lái)源 | 平方和 | 自由度 | 均方 | F |
|
---|---|---|---|---|---|
回歸 | |||||
誤差 | |||||
總計(jì) |
2.2.2 單個(gè)參數(shù)顯著性的
檢驗(yàn)
建立原假設(shè)和備擇假設(shè):對(duì)于任一個(gè)參數(shù)
檢驗(yàn)統(tǒng)計(jì)量
拒絕法則
值法:如果
值
馋吗,則拒絕
臨界值法:如果 或者
焕盟,則拒絕
其中, 為自由度
的
分布上側(cè)的面積為
時(shí)對(duì)應(yīng)的
值宏粤;
是
標(biāo)準(zhǔn)差的估計(jì)脚翘。
2.3 多重共線性
在多元回歸分析中,我們把自變量之間的相關(guān)性稱(chēng)為多重共線性绍哎。
在對(duì)單個(gè)參數(shù)的顯著性進(jìn)行 檢驗(yàn)時(shí)来农,由于多重共線性帶來(lái)的困難是:當(dāng)多元回歸方程總體顯著性的
檢驗(yàn)表明有一個(gè)顯著的關(guān)系時(shí),我們可能得出單個(gè)參數(shù)沒(méi)有一個(gè)是顯著的不同于零的結(jié)論崇堰。只有當(dāng)變量之間的相關(guān)性非常小時(shí)沃于,才有可能回避這個(gè)問(wèn)題。如果兩個(gè)變量之間的樣本相關(guān)系數(shù)的絕對(duì)值大于
海诲,多重共線性有可能成為一個(gè)潛在的問(wèn)題繁莹。
2.4 分類(lèi)變量的處理
如果一個(gè)分類(lèi)變量有 個(gè)水平,那么需要定義
個(gè)虛擬變量特幔,每一個(gè)虛擬變量或者取值為
咨演, 或者取值為
。
2.5 殘差分析
殘差圖與簡(jiǎn)單線性回歸一致蚯斯。
2.5.1 學(xué)生化刪除殘差
假設(shè)從數(shù)據(jù)集中刪除第 次觀測(cè)值薄风,利用其余的
次觀測(cè)值建立一個(gè)新的估計(jì)的回歸方程,設(shè)
表示從數(shù)據(jù)集中刪除了第
次觀測(cè)值后得到的估計(jì)的標(biāo)準(zhǔn)誤差拍嵌,如果我們計(jì)算第
次觀測(cè)的殘差的標(biāo)準(zhǔn)差遭赂,用
代替
中的
,那我們?cè)谟?jì)算第
次觀測(cè)的標(biāo)準(zhǔn)化殘差時(shí)横辆,
利用了
的修正值撇他,這樣得到的標(biāo)準(zhǔn)化殘差稱(chēng)為學(xué)生化刪除殘差。如果第
次觀測(cè)值是一個(gè)異常值龄糊,那么
將小于
逆粹。所以,第
次觀測(cè)的學(xué)生化刪除殘差的絕對(duì)值將大于標(biāo)準(zhǔn)化殘差的絕對(duì)值炫惩。所以僻弹,學(xué)生化刪除殘差可以檢測(cè)出標(biāo)準(zhǔn)化殘差不能檢測(cè)出的異常值。
2.5.2 有影響的觀測(cè)值
中判定準(zhǔn)則是
有時(shí)候僅根據(jù)杠桿率來(lái)識(shí)別有影響的觀測(cè)值他嚷,可能導(dǎo)致錯(cuò)誤的結(jié)論蹋绽,因此芭毙,引出 庫(kù)克距離測(cè)度(Cook's distance measure)
其中, 代表第
次觀測(cè)的庫(kù)克距離測(cè)度卸耘,
代表第
次觀測(cè)的殘差退敦,
代表第
次觀測(cè)的杠桿率,
代表自變量的個(gè)數(shù)蚣抗,
代表估計(jì)的標(biāo)準(zhǔn)誤差侈百。
作為經(jīng)驗(yàn)準(zhǔn)則,如果 翰铡,則表明第
次觀測(cè)值是一個(gè)有影響的觀測(cè)值钝域。
3. Logistic 回歸
3.1 回歸方程
如果應(yīng)變量 的值被賦值為
或者
,那么在自變量
的一組特定值已知的條件下锭魔,式
中
的值給出了
的概率例证。所以式
又可以寫(xiě)成
3.2 估計(jì)的 logistic 回歸方程
式中, 是在自變量
的一組特定值已知時(shí)迷捧,給出了
的概率织咧。
3.3 顯著性檢驗(yàn)
3.3.1 總體的顯著性的
檢驗(yàn)
建立原假設(shè)和備擇假設(shè)
檢驗(yàn)統(tǒng)計(jì)量為 統(tǒng)計(jì)量。如果原假設(shè)成立漠秋,則
統(tǒng)計(jì)量的抽樣分布為服從自由度等于模型中自變量的個(gè)數(shù)的
分布笙蒙。
3.3.2 單個(gè)參數(shù)顯著性的
檢驗(yàn)
如果 檢驗(yàn)表明模型的總體是顯著的,則可以利用
檢驗(yàn)來(lái)確定每一個(gè)單個(gè)自變量對(duì)模型總體是否有顯著的作用膛堤。
建立原假設(shè)和備擇假設(shè):對(duì)于任一個(gè)參數(shù)
如果原假設(shè)成立手趣,則估計(jì)的系數(shù) 除以它的標(biāo)準(zhǔn)差
后,得到的結(jié)果
為一服從標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)計(jì)量肥荔。
3.4 解釋 logistic 回歸方程
- 有利于一個(gè)事件發(fā)生的機(jī)會(huì)比 (odds in favor of an event occurring)
事件將要發(fā)生的概率與該事件將不會(huì)發(fā)生的概率的比。在自變量的一組特定值已知時(shí)朝群,有利于事件發(fā)生的機(jī)會(huì)比可以按照下式計(jì)算:
- 機(jī)會(huì)比率 (odds ratio)
度量一組自變量中只有一個(gè)自變量增加了一個(gè)單位時(shí)燕耿,對(duì)機(jī)會(huì)比的影響。即當(dāng)給定的一組自變量中的一個(gè)自變量增加了一個(gè)單位時(shí)姜胖,的機(jī)會(huì)比 (
) 除以該組自變量的值都沒(méi)有變化時(shí)誉帅,
的機(jī)會(huì)比 (
)
- 機(jī)會(huì)比率和回歸系數(shù)之間的關(guān)系
一個(gè)變量的機(jī)會(huì)比率和它所對(duì)應(yīng)的回歸系數(shù)之間存在一個(gè)唯一的關(guān)系:
當(dāng)自變量變化一個(gè)單位,而所有其他的自變量都保持不變時(shí)右莱,一個(gè)自變量的機(jī)會(huì)比率描述了該自變量機(jī)會(huì)比的變化蚜锨。當(dāng)一個(gè)自變量的變化大于 個(gè)單位時(shí)(比如
個(gè)單位),對(duì)應(yīng)的估計(jì)的機(jī)會(huì)比率是
一般來(lái)說(shuō)慢蜓,機(jī)會(huì)比率使我們能夠比較兩個(gè)不同事件的機(jī)會(huì)比亚再,如果機(jī)會(huì)比率的值是 ,那么兩個(gè)事件的機(jī)會(huì)比是相同的晨抡。如果自變量對(duì)事件發(fā)生的概率有一個(gè)正的影響氛悬,那么對(duì)應(yīng)的機(jī)會(huì)比率將大于
则剃。
3.5 對(duì)數(shù)機(jī)會(huì)比(logit)變換
有利于 的機(jī)會(huì)比的自然對(duì)數(shù)是自變量的線性函數(shù)
這個(gè)線性函數(shù)稱(chēng)為對(duì)數(shù)機(jī)會(huì)比(logit),用符號(hào) 表示對(duì)數(shù)機(jī)會(huì)比:
4. 建立模型
4.1 確定什么時(shí)候增加或者刪除變量
考慮以下含有 個(gè)自變量的多元回歸模型:
如果增加自變量 到這個(gè)模型上如捅,得到含有
個(gè)自變量的多元回歸模型
為了檢驗(yàn)增加的自變量 是否在統(tǒng)計(jì)上是顯著的棍现,提出如下原假設(shè)和備擇假設(shè):
計(jì)算檢驗(yàn)統(tǒng)計(jì)量
簡(jiǎn)化形式
拒絕法則
值法:如果
值
,則拒絕
臨界值法:如果 镜遣,則拒絕
其中己肮, 為分子自由度
,分母自由為
時(shí)悲关,使
分布上側(cè)的面積為
時(shí)對(duì)應(yīng)的
值谎僻。
4.2 變量選擇方法
4.2.1 逐步回歸法
逐步回歸方法的每一步,首先要考慮的是查看一下是否有哪個(gè)自變量能從當(dāng)前的模型中被刪除坚洽,如果沒(méi)有一個(gè)變量能從模型中被刪除戈稿,則查看是否有哪個(gè)不在當(dāng)前模型中的自變量能增加到模型里來(lái)。判斷的標(biāo)準(zhǔn)即是 檢驗(yàn)讶舰。停止條件為沒(méi)有自變量能從模型中被刪除且沒(méi)有自變量能進(jìn)入到模型里來(lái)鞍盗。
4.2.2 前向選擇法
前向選擇方法從模型中沒(méi)有自變量開(kāi)始,使用與逐步回歸方法為了確定一個(gè)變量是否應(yīng)該進(jìn)入模型同樣的程序來(lái)增加變量跳昼,并且每次只能增加一個(gè)變量般甲。需要注意的是,一個(gè)變量一旦加入到模型中鹅颊,前向選擇方法就不允許這個(gè)變量從模型中刪除敷存。停止條件為當(dāng)不在模型中每一個(gè)自變量的 -值全都大于
(即顯著性水平閾值)。
4.2.3 后向消元法
后向消元法從包含所有自變量的模型開(kāi)始堪伍,使用與逐步回歸方法為了確定一個(gè)變量是否應(yīng)該從模型中刪除同樣的程序來(lái)刪除變量锚烦,并且每次只能刪除一個(gè)變量。需要注意的是帝雇,一個(gè)變量一旦從模型中刪除涮俄,后向消元法就不允許這個(gè)變量重新再進(jìn)入模型。停止條件為當(dāng)模型中自變量的 -值沒(méi)有一個(gè)大于
(即顯著性水平閾值)尸闸。
注:前向選擇法和后向消元法可能得出不同的模型彻亲。
4.2.4 最佳子集回歸法
暫略
4.3 試驗(yàn)設(shè)計(jì)的多元回歸方法
4.3.1 完全隨機(jī)化實(shí)驗(yàn)
包含 四種處理的一個(gè)完全隨機(jī)化設(shè)計(jì),可以考慮如下的多元回歸方程:
處理 | |||
---|---|---|---|
0 | 0 | 0 | 處理 A |
1 | 0 | 0 | 處理 B |
0 | 1 | 0 | 處理 C |
0 | 0 | 1 | 處理 D |
4.3.2 析因?qū)嶒?yàn)
因素 有
水平吮廉,因素
有
水平的兩因素設(shè)計(jì)苞尝,可以考慮如下的多元回歸方程:
因素 :如果水平
,則
宦芦;如果水平
宙址,則
,因素
:
水平 | ||
---|---|---|
0 | 0 | 1 |
1 | 0 | 2 |
0 | 1 | 3 |
4.4 自相關(guān)性和杜賓-瓦特森檢驗(yàn)
- 自相關(guān)性
當(dāng)模型誤差項(xiàng)在連續(xù)時(shí)間點(diǎn)上相關(guān)時(shí)踪旷,在誤差項(xiàng)中出現(xiàn)的相關(guān)性曼氛。
如果在
時(shí)期的值依賴(lài)于
在
時(shí)期的值豁辉,則稱(chēng)數(shù)據(jù)中存在一階自相關(guān)性;如果
在
時(shí)期的值依賴(lài)于
在
時(shí)期的值舀患,則稱(chēng)數(shù)據(jù)中存在二階自相關(guān)性徽级,等等。
回歸模型的假定之一是模型的誤差項(xiàng)是獨(dú)立的聊浅,當(dāng)數(shù)據(jù)存在自相關(guān)性時(shí)餐抢,違背了這一假定。因此低匙,檢測(cè)出自相關(guān)性的存在并作出適當(dāng)?shù)男拚种匾?/p>
杜賓-瓦特森檢驗(yàn) (Durbin-Watson test) 的檢驗(yàn)統(tǒng)計(jì)量
其中旷痕,,表示第
個(gè)殘差顽冶。
- 修正措施
如果顯著的自相關(guān)性被識(shí)別出來(lái)欺抗,應(yīng)考慮假設(shè)的回歸模型是否遺漏了一個(gè)或幾個(gè)重要的自變量,而這些自變量對(duì)應(yīng)變量有顯著的時(shí)序影響强重。如果沒(méi)有這樣的自變量被識(shí)別出來(lái)绞呈,則可以在模型中引入一個(gè)度量觀測(cè)次數(shù)的自變量(例如,對(duì)于第一次觀測(cè)间景,這個(gè)變量的值可以為佃声,對(duì)于第二次觀測(cè),這個(gè)變量的值可以為
倘要,等等)圾亏。當(dāng)這些嘗試不起作用時(shí),再考慮對(duì)應(yīng)變量或者自變量進(jìn)行適當(dāng)?shù)淖儞Q可能是有幫助的封拧。