多重共線性、異方差和自相關性

1.多重共線性

多重共線性是解釋變量存在線性關系或者近似的線性關系撩独,多重共線性影響的模型一般為底層是線性的模型,例如:回歸账月、SVM等

如果變量間不存在多重共線性综膀,則變量系數組成的矩陣應該是滿秩的,且變量間不存在共線性不代表變量間不存在非線性關系

產生變量相關性的原因有很多局齿,一般為經濟變量之間的相同變化趨勢剧劝,模型中包含滯后變量和截面數據等等

1.1多重共線性的檢驗

&計算相關系數,因為相關系數是對線性相關的度量

&對于線性回歸來說抓歼,刪除或者增加變量系數是不是有較大變化

&系數的正負號是否與現實相違背

&系數通不過顯著性檢驗

&變量之間做回歸讥此,計算可決系數和VIF=1/(1-可決系數)來度量,也稱為方差擴大因子法

1.2多重共線性的影響后果

&共線性使最小二乘法預估的參數不確定且估計值方差較大谣妻,方差較大又會導致參數的置信區(qū)間增大

&回歸顯著但是回歸系數通不過檢驗萄喳,甚至會出現回歸系數的正負號的不到合理的解釋

但是如果遇到必須使用這些變量度量且為了預測Y,則可以對這些變量進行線性組合

1.3多重共線性的處理方法

&刪除變量--這個方法一般不推薦使用蹋半,因為刪除變量會導致異方差增大取胎,異方差后面會講到

&增加樣本容量--這個好像現實中也不是很好實現,畢竟能用的數據肯定都會用的,時效性不強的也沒太大用

&變換模型--對數據求差分闻蛀;計算相對指標匪傍;吧相關變量做線性組合,即小類合并成大類觉痛;----比較靠譜的做法

&逐步回歸----常用方法役衡,添加刪除變量之后做可決系數、F檢驗和T檢驗來確定是否增加或者剔除變量薪棒,若果增加變量對這些指標的影響較小手蝎,也認為指標為多余的,如果增加指標引起R和F的變動且通不過T檢驗俐芯,說明存在共線性---常常使用的方法

&嶺回歸---但是嶺回歸的參數k不好選擇棵介,k的選擇嚴重影響方差和偏倚程度

2.異方差性

什么是異方差呢,我們前面寫線性回歸的時候說過吧史,做線性回歸應假定隨機擾動項滿足l平均值和同方差邮辽,同方差表示的是所有變量對其均值的分散程度相同,由于u=0贸营,所以也可以說是Y圍繞回歸線均值的分散程度吨述,但是如果u對不同x呈現的離散程度不同,則稱u具有異方差性钞脂,也就是被解釋變量的觀測值分散程度隨著解釋變量的變化而 變化揣云,也可以說異方差是某個解釋變量引起的

2.1產生異方差的原因

模型的設定(例如多重共線性變量的刪除,但是變量與y具有相關性冰啃,也會產生異方差)

測量誤差和截面數據的影響

2.3異方差的影響

&存在異方差將不能保證最小二乘法估計的方差最小邓夕,但是模型的擬合依然是無偏性和一致性,但不具有有效性阎毅,即不具有最小方差

&異方差會導致參數的方差增大翎迁,如果還是使用不存在異方差時的方法進行估計,則會低估參數方差

&破壞t檢驗和f檢驗的有效性

圖片發(fā)自簡書App

&由于參數估計不滿足方差最小净薛,所以不是有效的汪榔,則對Y的預測也是無效的

2.4異方差的檢驗

&相關圖檢驗---觀察隨著x的增加y的離散程度是否增加,如果增加說明存在遞增的異方差

&殘差圖分析



&White檢驗

基本思想是如果存在異方差肃拜,x與u存在相關關系痴腌,所以white檢驗不但可以檢驗異方差,還可以檢驗時哪個變量導致的異方差燃领,但該方法要求大樣本士聪,但是解釋變量過多又會導致喪失自由度,所以一般用u與預測值y和y的平方做回歸猛蔽,用F檢驗檢驗是否存在異方差剥悟,H0所有系數為0不存在異方差灵寺,否則存在異方差

2.5異方差的處理

&加權最小二乘法

方差越小,樣本偏離均值的程度越小区岗,越重視略板,權重越大,否則越小慈缔,一般權重使用1/x,1/x2,1/根號x

&模型對數變換叮称,log之后縮小了異方差的范圍

3.自相關

自相關即u存在自相關,即cov(u)不等于0藐鹤,不滿足線性回歸的假定

3.1自相關產生的原因

經濟活動滯后和經濟系統的慣性

3.2自相關的后果

&存在自相關將不能保證最小二乘法估計的方差最小瓤檐,但是模型的擬合依然是無偏性和一致性,但不具有有效性娱节,即不具有最小方差挠蛉,所以估計的參數不是最佳線性無偏估計

&低估真實的方差會導致高估t檢驗的值,夸大參數顯著性肄满,本來不重要的變量會變?yōu)橹匾淖兞壳垂牛檢驗的意義

&方差的變大導致預測變量的區(qū)間增加,降低了預測的精度

3.3自相關的檢驗

&殘差圖---et與e(t-1)的相關圖

&DW檢驗

但是DW檢驗的前提條件較多悄窃,首先需要u為一階自回歸,而且回歸必須存在常數項





3.4自相關的處理

&差分法

&科克倫--奧克特迭代

基本思想是對變量回歸蹂窖,求殘差u轧抗,u=相關系數*u(t-1)+隨機擾動項

然后根據計算出來的相關系數做差分,yt-相關系數*y(t-1)=yt*

用yt*和xt*做回歸

然后令最終計算的參數=上一步計算的參數/(1-上一步的相關系數)

迭代直到兩次相關系數相差很小時作為最佳的相關系數

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末瞬测,一起剝皮案震驚了整個濱河市横媚,隨后出現的幾起案子,更是在濱河造成了極大的恐慌月趟,老刑警劉巖灯蝴,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異孝宗,居然都是意外死亡穷躁,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門因妇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來问潭,“玉大人,你說我怎么就攤上這事婚被〗泼Γ” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵址芯,是天一觀的道長灾茁。 經常有香客問我窜觉,道長,這世上最難降的妖魔是什么北专? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任禀挫,我火速辦了婚禮,結果婚禮上逗余,老公的妹妹穿的比我還像新娘特咆。我一直安慰自己,他們只是感情好录粱,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布腻格。 她就那樣靜靜地躺著,像睡著了一般啥繁。 火紅的嫁衣襯著肌膚如雪菜职。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天旗闽,我揣著相機與錄音酬核,去河邊找鬼。 笑死适室,一個胖子當著我的面吹牛嫡意,可吹牛的內容都是我干的。 我是一名探鬼主播捣辆,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蔬螟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了汽畴?” 一聲冷哼從身側響起旧巾,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎忍些,沒想到半個月后鲁猩,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡罢坝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年廓握,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘁酿。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡疾棵,死狀恐怖,靈堂內的尸體忽然破棺而出痹仙,到底是詐尸還是另有隱情是尔,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布开仰,位于F島的核電站拟枚,受9級特大地震影響薪铜,放射性物質發(fā)生泄漏。R本人自食惡果不足惜恩溅,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一隔箍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧脚乡,春花似錦蜒滩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至锌订,卻和暖如春竹握,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背辆飘。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工啦辐, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蜈项。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓芹关,卻偏偏與公主長得像,于是被迫代替她去往敵國和親紧卒。 傳聞我的和親對象是個殘疾皇子侥衬,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內容