轉(zhuǎn)自:知乎 https://zhuanlan.zhihu.com/p/22907932
突然想到蚌卤,在實際情況中实束,對于回歸模型
不難保證每維特征的獨立性,特征之間難免會存在共線性關(guān)系逊彭,而線性回歸中通常采用的最小二乘法是一種無偏估計咸灿,會對結(jié)果造成偏差
在消除多重共線性的問題的時候,可以利用相關(guān)系數(shù)矩陣和方差擴大因子來進行識別侮叮,可以使用主成分分析(pca)和嶺回歸(ridge)來對多重共線性的問題進行減弱或者消除避矢。
1. 多元回歸的基本假定:
第一:對于擾動項的假設(shè)為正態(tài)性,零均值囊榜,同方差审胸,相互獨立
第二:對自變量的假定,解釋變量是確定型變量卸勺,不存在線性相關(guān)關(guān)系
第三:自變量與擾動項不相關(guān)
2. 數(shù)據(jù)和多重共線性驗證
(一) 如果不存在共線性問題的話砂沛,只用普通的最小二乘法即可
這里需要注意的是,為了提高處理效率和準確率曙求,常常我們會將數(shù)據(jù)標準化處理
比如變成均值為0碍庵,標準差為1的序列,這樣能夠使每個因子得到平等對待
(二)相關(guān)性矩陣
如果各個因子之間存在比較低的正相關(guān)或者負相關(guān)系數(shù)悟狱,但不一定是多重共線性問題静浴,那么問題不嚴重
(三)多重共線
多重共線表示變量之間的線性相關(guān)關(guān)系,多重共線性一般采用反證法
(四)方差擴大因子
方差擴大因子其實類似于相關(guān)系數(shù)矩陣挤渐,通過相關(guān)系數(shù)矩陣苹享,我們只能大致看出存不存在多重共線性,但是通過方差擴大因子VIF可以度量多重共線性的嚴重程度挣菲。
經(jīng)驗表明富稻,當VIF>10掷邦,也就是R^2>0.9,就說明xi和其他變量之間有嚴重的多重共線性椭赋,且會影響最小二乘估計量抚岗。
三、解決多重共線性問題
(一)嶺回歸
最小二乘法對于參數(shù)的估計是無偏的哪怔,但是建立在很多基本假設(shè)之上宣蔚,如果我們可以放寬一些條件,對于參數(shù)估計是有偏的认境,那么多重共線性問題就沒有那么嚴重了胚委,損失了無偏性,但是帶來的是高的數(shù)值穩(wěn)定叉信。
當變量之間存在多重共線的時候亩冬,|X^TX|約定于0,矩陣的逆也及其不穩(wěn)定硼身,導(dǎo)致最小二乘法對參數(shù)的估計偏差非常大硅急,矩陣解決奇異性的成都就非常高。這時強制加上一個單位矩陣佳遂,那么矩陣就變得可逆了营袜。
(二)主成分分析
如果因變量的個數(shù)比較多丑罪,彼此很可能存在多重共線性問題荚板,觀測信息有一定程度上的信息重疊,這時希望用較少的幾個綜合變量來代替原來較多的變量吩屹,使得這幾個綜合變量之間彼此不相關(guān)跪另,但是盡可能地包含原有的信息。
pca---假設(shè)數(shù)據(jù)的數(shù)量為N祟峦,因子數(shù)量是n罚斗,首先求解幾個因子的協(xié)方差矩陣(n*n),對協(xié)方差矩陣求解特征值宅楞,特征向量,選出的特征向量最大的p個組成矩陣(n*p)袱吆,再和原本的數(shù)據(jù)做乘法(N*n)
利用調(diào)整后的數(shù)據(jù)進行回歸厌衙。