1.多重共線性
多重共線性是解釋變量存在線性關系或者近似的線性關系撩独,多重共線性影響的模型一般為底層是線性的模型,例如:回歸账月、SVM等
如果變量間不存在多重共線性综膀,則變量系數組成的矩陣應該是滿秩的,且變量間不存在共線性不代表變量間不存在非線性關系
產生變量相關性的原因有很多局齿,一般為經濟變量之間的相同變化趨勢剧劝,模型中包含滯后變量和截面數據等等
1.1多重共線性的檢驗
&計算相關系數,因為相關系數是對線性相關的度量
&對于線性回歸來說抓歼,刪除或者增加變量系數是不是有較大變化
&系數的正負號是否與現實相違背
&系數通不過顯著性檢驗
&變量之間做回歸讥此,計算可決系數和VIF=1/(1-可決系數)來度量,也稱為方差擴大因子法
1.2多重共線性的影響后果
&共線性使最小二乘法預估的參數不確定且估計值方差較大谣妻,方差較大又會導致參數的置信區(qū)間增大
&回歸顯著但是回歸系數通不過檢驗萄喳,甚至會出現回歸系數的正負號的不到合理的解釋
但是如果遇到必須使用這些變量度量且為了預測Y,則可以對這些變量進行線性組合
1.3多重共線性的處理方法
&刪除變量--這個方法一般不推薦使用蹋半,因為刪除變量會導致異方差增大取胎,異方差后面會講到
&增加樣本容量--這個好像現實中也不是很好實現,畢竟能用的數據肯定都會用的,時效性不強的也沒太大用
&變換模型--對數據求差分闻蛀;計算相對指標匪傍;吧相關變量做線性組合,即小類合并成大類觉痛;----比較靠譜的做法
&逐步回歸----常用方法役衡,添加刪除變量之后做可決系數、F檢驗和T檢驗來確定是否增加或者剔除變量薪棒,若果增加變量對這些指標的影響較小手蝎,也認為指標為多余的,如果增加指標引起R和F的變動且通不過T檢驗俐芯,說明存在共線性---常常使用的方法
&嶺回歸---但是嶺回歸的參數k不好選擇棵介,k的選擇嚴重影響方差和偏倚程度
2.異方差性
什么是異方差呢,我們前面寫線性回歸的時候說過吧史,做線性回歸應假定隨機擾動項滿足l平均值和同方差邮辽,同方差表示的是所有變量對其均值的分散程度相同,由于u=0贸营,所以也可以說是Y圍繞回歸線均值的分散程度吨述,但是如果u對不同x呈現的離散程度不同,則稱u具有異方差性钞脂,也就是被解釋變量的觀測值分散程度隨著解釋變量的變化而 變化揣云,也可以說異方差是某個解釋變量引起的
2.1產生異方差的原因
模型的設定(例如多重共線性變量的刪除,但是變量與y具有相關性冰啃,也會產生異方差)
測量誤差和截面數據的影響
2.3異方差的影響
&存在異方差將不能保證最小二乘法估計的方差最小邓夕,但是模型的擬合依然是無偏性和一致性,但不具有有效性阎毅,即不具有最小方差
&異方差會導致參數的方差增大翎迁,如果還是使用不存在異方差時的方法進行估計,則會低估參數方差
&破壞t檢驗和f檢驗的有效性
&由于參數估計不滿足方差最小净薛,所以不是有效的汪榔,則對Y的預測也是無效的
2.4異方差的檢驗
&相關圖檢驗---觀察隨著x的增加y的離散程度是否增加,如果增加說明存在遞增的異方差
&殘差圖分析
&White檢驗
基本思想是如果存在異方差肃拜,x與u存在相關關系痴腌,所以white檢驗不但可以檢驗異方差,還可以檢驗時哪個變量導致的異方差燃领,但該方法要求大樣本士聪,但是解釋變量過多又會導致喪失自由度,所以一般用u與預測值y和y的平方做回歸猛蔽,用F檢驗檢驗是否存在異方差剥悟,H0所有系數為0不存在異方差灵寺,否則存在異方差
2.5異方差的處理
&加權最小二乘法
方差越小,樣本偏離均值的程度越小区岗,越重視略板,權重越大,否則越小慈缔,一般權重使用1/x,1/x2,1/根號x
&模型對數變換叮称,log之后縮小了異方差的范圍
3.自相關
自相關即u存在自相關,即cov(u)不等于0藐鹤,不滿足線性回歸的假定
3.1自相關產生的原因
經濟活動滯后和經濟系統的慣性
3.2自相關的后果
&存在自相關將不能保證最小二乘法估計的方差最小瓤檐,但是模型的擬合依然是無偏性和一致性,但不具有有效性娱节,即不具有最小方差挠蛉,所以估計的參數不是最佳線性無偏估計
&低估真實的方差會導致高估t檢驗的值,夸大參數顯著性肄满,本來不重要的變量會變?yōu)橹匾淖兞壳垂牛檢驗的意義
&方差的變大導致預測變量的區(qū)間增加,降低了預測的精度
3.3自相關的檢驗
&殘差圖---et與e(t-1)的相關圖
&DW檢驗
但是DW檢驗的前提條件較多悄窃,首先需要u為一階自回歸,而且回歸必須存在常數項
3.4自相關的處理
&差分法
&科克倫--奧克特迭代
基本思想是對變量回歸蹂窖,求殘差u轧抗,u=相關系數*u(t-1)+隨機擾動項
然后根據計算出來的相關系數做差分,yt-相關系數*y(t-1)=yt*
用yt*和xt*做回歸
然后令最終計算的參數=上一步計算的參數/(1-上一步的相關系數)
迭代直到兩次相關系數相差很小時作為最佳的相關系數