1. 如何理解協(xié)方差和相關(guān)系數(shù)末荐?
協(xié)方差公式:公式簡單翻譯一下是:如果有X,Y兩個(gè)變量湃累,每個(gè)時(shí)刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個(gè)乘積陕靠,再對這每時(shí)刻的乘積求和并求出均值(其實(shí)是求“期望”,但就不引申太多新概念了脱茉,簡單認(rèn)為就是求均值了)剪芥。
相關(guān)系數(shù)的公式:就是用X、Y的協(xié)方差除以X的標(biāo)準(zhǔn)差和Y的標(biāo)準(zhǔn)差琴许。
細(xì)節(jié)說明可以參考這篇文章:如何通俗易懂地解釋「協(xié)方差」與「相關(guān)系數(shù)」的概念榜田?
相關(guān)系數(shù)的性質(zhì)如下:
- 相關(guān)系數(shù)的值介于-1與+1之間箭券,即-1≤r≤+1蛔六。
當(dāng)r>0時(shí),表示兩變量正相關(guān)具钥,當(dāng)r<0時(shí)骂删,表示兩變量為負(fù)相關(guān)。當(dāng)|r|=1時(shí)欧瘪,表示兩變量為完全線性相關(guān)即函數(shù)關(guān)系。當(dāng)r=1時(shí)罚屋,稱為完全正相關(guān),而當(dāng)r=-1時(shí)猛拴,稱為完全負(fù)相關(guān)愉昆。當(dāng)r=0時(shí),表示兩變量間無線性相關(guān)關(guān)系芳室。 - r具有對稱性堪侯。X與y之間的相關(guān)系數(shù)rxy和y與x之間的相關(guān)系數(shù)ryx相等芽死。
- r數(shù)值大小與x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度無關(guān)收奔。改變x和y的數(shù)據(jù)原點(diǎn)和計(jì)量尺度,并不改變r(jià)數(shù)值的大小翩肌。
- r僅僅是x與y 之間線性關(guān)系的一個(gè)度量念祭,它不能用于描述非線性關(guān)系粱坤。
- r雖然是兩個(gè)變量之間線性關(guān)系的一個(gè)度量,卻不一定意味著x與y一定有因果關(guān)系株旷。
當(dāng)︱r︱≥0.8時(shí)晾剖,可視為高度相關(guān)齿尽;當(dāng)0.5≤︱r︱<0.8時(shí)雕什,可視為中度相關(guān);當(dāng)0.3≤︱r︱<0.5時(shí)偿警,視為低度相關(guān)盒使;當(dāng)︱r︱<0.3時(shí)少办,說明兩個(gè)變量之間的相關(guān)程度極弱
在R中,相關(guān)系數(shù)的計(jì)算使用cor函數(shù)
2. 相關(guān)系數(shù)的顯著性檢驗(yàn)
一般情況下我們都是使用樣本數(shù)據(jù)來計(jì)算相關(guān)系數(shù),用樣本的相關(guān)系數(shù)來估計(jì)整體的相關(guān)系數(shù)吗蚌,因此存在一定的偏差敷燎,會受到抽樣波動的影響。每次抽樣數(shù)據(jù)不同澄成,得到的樣本相關(guān)系數(shù)也不同卫漫。因此樣本相關(guān)系數(shù)是個(gè)隨機(jī)變量宏悦。如何確定樣本相關(guān)系數(shù)是否能代表總體的相關(guān)水平呢包吝?需要對樣本相關(guān)系數(shù)進(jìn)行可靠性檢驗(yàn)砖瞧,也就是顯著性檢驗(yàn)嚷狞。一般我們用t檢驗(yàn)振坚。
在R中呀狼,相關(guān)系數(shù)的檢驗(yàn)可以使用cor.test函數(shù)
3. 一元線性回歸
回歸模型:
回歸模型中的參數(shù)估計(jì)( ,
),使用最小二乘法來進(jìn)行估計(jì)計(jì)算损离。
擬合優(yōu)度:通俗點(diǎn)說就是看我們推斷出來的這條直線代表了實(shí)際數(shù)據(jù)分布情況的優(yōu)良程度哥艇。
判定系數(shù)():
實(shí)際的觀測數(shù)據(jù)跟總體平均值之間的差異叫作變差(也即離均差或離差)。變差的平方,也即平方偏差汁咏。所有的平方偏差之和赖瞒,記為:
注意,方差的定義其實(shí)就是對平方偏差之和求平均數(shù)。即笑诅,
從下圖可以看到,所有的變差(也即離均差)都可分解為:
將上式兩邊平方再求和,得到:
可以證明有勾,,因此
其中呜达,由于 是根據(jù)回歸方程估計(jì)出來的值,因此大猛,
可以表示根據(jù)回歸方程估計(jì)出來的值與總體平均值之間的變差撬槽,他是由于自變量x的變化而引起的變化究珊。其平方和我們稱為回歸平方和悬槽,記為SSR磅叛。
而 表示的是實(shí)際觀測值和我們根據(jù)回歸方程估計(jì)出來的估計(jì)值之間的差異屑咳,也即回歸模型中的
部分访雪,它表示的是除了x對y線性影響之外的其他因素引起的y的變化部分脂倦,我們稱之為殘差。其平方和我們稱之為殘差平方和柳击,記為:SSE猿推。三個(gè)平方和之間的關(guān)系為:
根據(jù)上圖我們可以看到,回歸直線擬合的好壞取決于殘差部分。殘差越小蹬叭,擬合得越好藕咏。跟據(jù)上式我們可知,SSE越小秽五,SSR越大孽查。也即,SSR/SST的比值越大坦喘。我們將這個(gè)比例稱為判定系數(shù):
若所有觀測點(diǎn)都落在直線上盲再,則,此時(shí)
瓣铣,
答朋。若y的變化與x完全無關(guān),x完全無助于解釋y的變化棠笑,此時(shí)
梦碗,
”途龋可見洪规,
的取值范圍為[0,1]。而上面講到的相關(guān)系數(shù)循捺,其實(shí)就是判定系數(shù)的平方根斩例,即
估計(jì)標(biāo)準(zhǔn)誤:
從上面可以看到,从橘,其實(shí)就是殘差的均方差(MSE)樱拴。而估計(jì)標(biāo)準(zhǔn)誤,其實(shí)就是對所有殘差求標(biāo)準(zhǔn)差而已洋满。公式:
顯著性檢驗(yàn)
注意如下幾點(diǎn):
1)我們的回歸方程晶乔,是根據(jù)樣本數(shù)據(jù)得出的,不一定代表了整體真實(shí)數(shù)據(jù)牺勾;
2)我們在做擬合時(shí)正罢,先入為主的假定了y和x存在線性關(guān)系;
3)我們在做擬合時(shí)驻民,還假設(shè)了誤差項(xiàng)是一個(gè)服從正態(tài)分布的隨機(jī)變量翻具,且對不同的x,具有相同的方差
以上假設(shè)是否成立回还,還需要通過檢驗(yàn)來加以證實(shí)裆泳。
線性關(guān)系的檢驗(yàn):
F檢驗(yàn)(也叫方差比率檢驗(yàn)):對兩組樣本數(shù)據(jù)求方差,計(jì)算兩組樣本數(shù)據(jù)的方差之比F柠硕,如果:
F < F表 表明兩組數(shù)據(jù)沒有顯著差異工禾;
F ≥ F表 表明兩組數(shù)據(jù)存在顯著差異运提。
如果y和x存在顯著的線性關(guān)系,那么闻葵,根據(jù)線性方程得到的y值(估計(jì)值)民泵,在樣本范圍內(nèi),其方差與實(shí)際值和估計(jì)值之間的殘差的方差槽畔,應(yīng)該存在顯著差異栈妆。那我們就可以采用F檢驗(yàn)來判定。即:
注意厢钧,SST的自由度為n鳞尔,SSR的自由度為k,即自變量的個(gè)數(shù)早直,在一元線性回歸中為1铅檩,SSE的自由度為n-k-1,在一元線性回歸中為n-2莽鸿;
若昧旨,則拒絕原假設(shè)(兩個(gè)變量間的線性關(guān)系不顯著假設(shè)),認(rèn)為兩個(gè)變量間的線性關(guān)系是顯著的祥得,否則不拒絕原假設(shè)兔沃,沒有證據(jù)表明兩個(gè)變量間的線性關(guān)系是顯著的。
回歸系數(shù)的檢驗(yàn)(檢驗(yàn)
是否等于0)
我們之前用的是判定系數(shù)或者估計(jì)標(biāo)準(zhǔn)誤來對回歸方程的擬合性好壞做判段级及。但是判定系數(shù)只能說明回歸方程總體的回歸效果乒疏,整體效果顯著并不能說明每個(gè)自變量對因變量都是有效的。(尤其是在多元回歸中饮焦,如果某個(gè)自變量對因變量不顯著怕吴,就應(yīng)該剔除)。顯然县踢,如果某個(gè)自變量對因變量作用不顯著转绷,那么他的系數(shù)就應(yīng)該為0。所以硼啤,我們要檢測每個(gè)自變量的系數(shù)是否顯著不為0议经。上面的F檢驗(yàn),也是檢驗(yàn)的整體效果谴返,做F檢驗(yàn)時(shí)煞肾,我們是假設(shè)所有的自變量系數(shù)都為0,那么顯然嗓袱,即便模型通過了F檢驗(yàn)籍救,但也并不清楚究竟哪一個(gè)參數(shù)不為零,那么我們對模型的解釋就還不夠清楚渠抹。
如何判斷自變量系數(shù)顯著不為0呢蝙昙?因?yàn)樽宰兞肯禂?shù)是個(gè)隨機(jī)變量闪萄,方差也未知。在此情況下耸黑,根據(jù)統(tǒng)計(jì)學(xué)原理桃煎,這個(gè)隨機(jī)變量轉(zhuǎn)化為標(biāo)準(zhǔn)分?jǐn)?shù)后的標(biāo)準(zhǔn)值應(yīng)該服從自由度為n-2的t分布篮幢。因此我們用t檢驗(yàn)來檢測參數(shù)是否顯著不為0:
一般我們會計(jì)算P值大刊,即根據(jù)t分布表,查到的在n-2自由度下三椿,概率為t時(shí)對應(yīng)的a(也即百分比)缺菌,如果小于給定的a(例如0.05,也就是5%)搜锰,那么表示我們有極少的概率會出現(xiàn)系數(shù)為0的情況伴郁,因此要拒絕原假設(shè),反之蛋叼,我們不拒絕原假設(shè)焊傅。-
殘差分析: 檢驗(yàn)誤差項(xiàng)
的假定是否成立
殘差除以標(biāo)準(zhǔn)誤差后的值,叫標(biāo)準(zhǔn)化殘差狈涮,記作:
檢驗(yàn)誤差項(xiàng)的假定是否成立狐胎,可以通過殘差圖分析來完成。殘差圖的x軸是自變量的值
或者因變量的值
歌馍,縱軸是對應(yīng)的殘差
握巢。
(或
)對應(yīng)的殘差
,在圖中用一個(gè)點(diǎn)表示松却。
若關(guān)于等方差的假設(shè)成立暴浦,且描述y與x之間關(guān)系的回歸模型是合理的,那么殘差圖中的所有點(diǎn)都應(yīng)以均值0為中心隨機(jī)分布在一條水平帶中間晓锻,如下圖(a)所示歌焦。
不同形態(tài)的殘差圖
另外,在R語言中砚哆,我們可以方便的來進(jìn)行圖形化的模型診斷
model <- lm(因變量~自變量)
plot(model)
此時(shí)會顯示四張圖:
其中同规,Residuals vs Fitted類似于殘差圖,橫坐標(biāo)代表你擬合值窟社,縱坐標(biāo)代表殘差值券勺。若關(guān)于
Normal QQ-plot用來檢測其殘差是否是正態(tài)分布的。正態(tài)分布的QQ圖的橫坐標(biāo)為:標(biāo)準(zhǔn)正態(tài)分布的分位數(shù),縱坐標(biāo)為樣本值匣吊。利用QQ圖鑒別樣本數(shù)據(jù)是否近似于正態(tài)分布只需看QQ圖上的點(diǎn)是否近似地在一條直線附近,圖形是直線說明是正態(tài)分布儒拂,而且該直線的斜率為標(biāo)準(zhǔn)差,截距為均值.
Scale-Location 是位置尺度圖寸潦,用來判斷殘差的方差齊性。若滿足方差齊性假設(shè)社痛,那么在位置尺度圖中见转,水平線周圍的點(diǎn)應(yīng)該隨機(jī)分布。
Residuals vs Leverage 用于判斷樣本數(shù)據(jù)中是否有離群點(diǎn)蒜哀、高杠桿值點(diǎn)和強(qiáng)影響點(diǎn)斩箫。
更細(xì)致的說明可以參考這篇文章:R語言里的模型診斷圖
4. 多元線性回歸
基本同一元線性回歸,回歸模型為:
在多元回歸總撵儿,我們?nèi)匀皇褂门卸ㄏ禂?shù)來判段擬合程度的好壞乘客。此時(shí)叫多重判定系數(shù)。但是要注意的是淀歇,殘差平方和往往隨著解釋變量個(gè)數(shù)的增加而減少易核,至少不會增加,但是由增加解釋變量個(gè)數(shù)引起的判定系數(shù)的增大與擬合好壞無關(guān)浪默,因此在多元回歸模型之間比較擬合優(yōu)度牡直,判定系數(shù)就不是一個(gè)合適的指標(biāo),必須加以調(diào)整纳决,于是引入了調(diào)整的多重判定系數(shù):
在多元回歸中碰逸,既要避免遺漏變量偏誤的發(fā)生,也要盡量避免引入過多的變量岳链,導(dǎo)致多重共線性的發(fā)生花竞。
當(dāng)回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)時(shí),則稱回歸模型中存在多重共線性掸哑。具體來說约急,如果出現(xiàn)以下情況,暗示存在多重共線性:
- 模型中各對自變量存在顯著相關(guān)苗分;
- 當(dāng)模型的線性關(guān)系檢驗(yàn)(F檢驗(yàn))顯著時(shí)厌蔽,幾乎所有回歸系數(shù)的t檢驗(yàn)卻不顯著;
- 回歸系數(shù)的正負(fù)號與預(yù)期的相反摔癣;
- 通過容忍度和方差擴(kuò)大因子判斷:容忍度越小奴饮,多重共線性越嚴(yán)重。方差擴(kuò)大因子越大择浊,多重共線性越嚴(yán)重戴卜。
多重共線性度問題主要是影響對單個(gè)回歸系數(shù)的解釋和檢驗(yàn),在求因變量置信區(qū)間和預(yù)測區(qū)間時(shí)一般不會受影響琢岩,但必須保證用于估計(jì)和預(yù)測的自變量值在樣本數(shù)據(jù)范圍內(nèi)投剥。
解決多重共線性的方法主要是:
- 將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除,是保留的自變量盡量不相關(guān)担孔;
- 如果要保留所有的自變量江锨,則避免根據(jù)t統(tǒng)計(jì)量對單個(gè)參數(shù)進(jìn)行檢驗(yàn)吃警,同時(shí)對因變量y的推斷限定在自變量樣本值的范圍內(nèi)。
變量選擇與逐步回歸
在建立模型時(shí)啄育,盡量用最少的變量來建立模型酌心。每次只增加一個(gè)變量,并將新變量與模型中的變量進(jìn)行比較挑豌。若新變量引入模型后安券,以前的某個(gè)變量的t統(tǒng)計(jì)量不顯著,這個(gè)變量就會從模型中剔除浮毯。另外完疫,我們引入新的變量后泰鸡,要看是否使殘差平方和(SSE)顯著減少债蓝。如果增加一個(gè)自變量使得殘差平方和顯著減少,則說明有必要將這個(gè)自變量引入到模型中盛龄,否則就沒有必要饰迹。確定引入自變量是否使殘差平方和顯著減少的一個(gè)辦法就是使用F檢驗(yàn)統(tǒng)計(jì)量。
變量的選擇方法包括:向前選擇余舶、向后剔除啊鸭、逐步回歸、最優(yōu)子集等匿值。
向前選擇:
第一步:對k個(gè)自變量赠制,分別擬合與因變量y的一元線性回歸模型,共有k個(gè)挟憔,然后找出F統(tǒng)計(jì)量的最大模型及對應(yīng)的自變量钟些,并將其作為第一個(gè)自變量引入到模型中;
第二步:對剩下的k-1個(gè)自變量绊谭,分別引入到第一步的模型中政恍,得到k-1個(gè)二元線性回歸模型,然后找出F統(tǒng)計(jì)量的最大模型及對應(yīng)的自變量达传,并將其作為第二個(gè)自變量引入到模型中篙耗。如果除
之外的k-1個(gè)自變量中沒有一個(gè)是統(tǒng)計(jì)上顯著的,則運(yùn)算終止宪赶。如此反復(fù)進(jìn)行宗弯,直到模型外的自變量均無統(tǒng)計(jì)顯著性為止。
向后剔除
與向前選擇相反搂妻,先建立包括所有自變量的多元線性回歸模型蒙保,然后考察去掉一個(gè)自變量的模型,是模型SSE值減小最小的自變量被挑出來并從模型中去除叽讳,直到剔除一個(gè)自變量不會使SSE顯著減小為止追他。上述過程可以通過F檢驗(yàn)的P值來判斷逐步回歸
使用向前選擇和向后剔除的混合坟募。前兩步先用向前回歸,從增加第三個(gè)變量開始邑狸,需要判斷增加這個(gè)變量后懈糯,前面的變量是否對模型的貢獻(xiàn)變得不顯著,如不顯著单雾,就剔除赚哗。
在R中,使用AIC作為選擇標(biāo)準(zhǔn)硅堆,選擇使用AIC最小的變量建立模型屿储。AIC越小,表示擬合的模型精度越高而且越簡潔渐逃。
n為樣本量够掠,p為模型中參數(shù)的個(gè)數(shù)(包括常數(shù)項(xiàng))
model1 <- lm(y~x1+x2+x3+x4+x5, data=example)
mode2 <- step(model1)
模型比較
采用了逐步回歸方式得到的模型是否很好的擬合了數(shù)據(jù),或者說得到的模型是否就一定比使用所有變量的模型要好茄菊,需要比較后才能得知疯潭。
對于嵌套模型(一個(gè)模型中包含了另外一個(gè)模型的所有變量,并且至少有一個(gè)額外項(xiàng))面殖,我們可以假設(shè)竖哩,多出來的額外項(xiàng),其參數(shù)全為0脊僚。如果假設(shè)不成立相叁,則表示使用了比較全的模型,擬合效果要好于簡化模型辽幌。否則表示使用簡化模型和完全擬合模型擬合效果一樣好增淹,此時(shí)我們應(yīng)選擇簡化模型。
對于上述假設(shè)舶衬,我們一般是計(jì)算出兩個(gè)模型的SSE埠通。如果兩者的差值較大,證明完全擬合模型提供的信息比較多逛犹,就不能拒絕原假設(shè)端辱。檢驗(yàn)統(tǒng)計(jì)量為:
其中,代表簡化模型虽画,
代表完全模型舞蔽,完全模型中的參數(shù)個(gè)數(shù)(包括常數(shù)項(xiàng))為k+1,簡化模型中的參數(shù)個(gè)數(shù)為g+1码撰。如果檢驗(yàn)的P值很小渗柿,就拒絕
,否則不拒絕原假設(shè)。這一檢驗(yàn)過程可以有R的anova函數(shù)來完成朵栖。
用anova函數(shù)比較時(shí)颊亮,要求兩個(gè)模型是嵌套模型。如果不是嵌套模型陨溅,可以使用AIC來比較终惑。AIC值小,說明模型用比較少的參數(shù)就獲得了足夠的擬合度门扇。
自變量的相對重要性
評估自變量的相對重要性的方法之一就是比較標(biāo)準(zhǔn)化回歸系數(shù)雹有。標(biāo)準(zhǔn)化回歸系數(shù),就是將因變量和所有自變量都標(biāo)準(zhǔn)化后臼寄,再進(jìn)行回歸霸奕,得到的回歸系數(shù)。其含義是:在其他自變量取值不變的情況下吉拳,自變量每變動一個(gè)標(biāo)準(zhǔn)差质帅,因變量平均變動
個(gè)標(biāo)準(zhǔn)差。顯然合武,
的絕對值越大临梗,說明該自變量
對因變量的影響越大涡扼,因此相對于其他自變量而言稼跳,它也越重要。在R中吃沪,可以使用lm.beta(object)函數(shù)來計(jì)算標(biāo)準(zhǔn)化回歸系數(shù)汤善。
穩(wěn)健回歸:
我們一般使用的普通最小二乘法(OLS)進(jìn)行線性回歸,其原理就是使得殘差的平方和最小票彪,也就相當(dāng)于使各殘差平方的算術(shù)均數(shù)最小红淡,而算術(shù)均數(shù)對于偏離正態(tài)分布的情況其估計(jì)顯然是不穩(wěn)健的,
例如降铸,當(dāng)數(shù)據(jù)樣本點(diǎn)出現(xiàn)很多的異常點(diǎn)(outliers)在旱,這些異常點(diǎn)對回歸模型的影響會非常的大,傳統(tǒng)的基于最小二乘的回歸方法將不適用推掸。
比如下圖中所示桶蝎,數(shù)據(jù)中存在一個(gè)異常點(diǎn),如果不剔除該點(diǎn)谅畅,適用OLS方法來做回歸的話登渣,那么就會得到途中紅色的那條線;如果將這個(gè)異常點(diǎn)剔除掉的話毡泻,那么就可以得到圖中藍(lán)色的那條線胜茧。顯然,藍(lán)色的線比紅色的線對數(shù)據(jù)有更強(qiáng)的解釋性仇味,這就是OLS在做回歸分析時(shí)候的弊端呻顽。
但在此情況下中位數(shù)卻非常穩(wěn)健雹顺,于是將LS估計(jì)的目標(biāo)函數(shù)改為使各殘差平方的中位數(shù)最小,得到的“最小平方中位數(shù)”估計(jì)應(yīng)該是穩(wěn)健的廊遍,這就是LMS无拗。
同理,由于在單變量情況下的“調(diào)整均數(shù)”(trimmed mean)是穩(wěn)健的昧碉,所以考慮在回歸情形下如果把殘差較大的點(diǎn)棄去不計(jì)英染,目標(biāo)函數(shù)是使排序在前一部分較小的殘差平方合計(jì)最小,這就是LTS被饿。
生活中常見的一個(gè)應(yīng)用穩(wěn)健統(tǒng)計(jì)(Robust Statistics)的例子是四康, 在一些主觀性的評價(jià)比賽打分中, 比如歌唱比賽狭握,藝術(shù)體操比賽闪金, 去掉一個(gè)最高分, 去掉一個(gè)最低分论颅, 剩下的評分再取平均值為選手的得分哎垦, 這樣就非常有效地防止了某些評委故意打出一個(gè)特別高的分或者特別低的分來影響選手的最終得分,這樣的評分統(tǒng)計(jì)規(guī)則就是穩(wěn)健的恃疯。
關(guān)于穩(wěn)健回歸漏设,可以參考這篇文章:穩(wěn)健回歸
以及這篇文章:線性回歸有離群值也不怕?穩(wěn)健回歸
由于上述原因今妄,我們通過普通最小二乘法估計(jì)出來的模型郑口,有可能存在異方差問題(可以通過上面的方法對殘差進(jìn)行異方差檢驗(yàn)),而我們單個(gè)參數(shù)的t統(tǒng)計(jì)量盾鳞,其公式等于系數(shù)值除以其標(biāo)準(zhǔn)誤犬性。如果存在異方差情況下,這個(gè)標(biāo)準(zhǔn)誤是不準(zhǔn)確的腾仅,因此我們得到的t檢驗(yàn)量也不準(zhǔn)確乒裆,此時(shí)應(yīng)該考慮使用穩(wěn)健的t檢驗(yàn)量來進(jìn)行檢驗(yàn)。
在R中推励,我們可以使用lmtest包中的coeftest()函數(shù)來進(jìn)行穩(wěn)健的t統(tǒng)計(jì)量檢驗(yàn):
coeftest(linear_model, vcov. = vcov)
有關(guān)上述知識鹤耍,可以參考:標(biāo)準(zhǔn)誤兩三事:為什么一使用穩(wěn)健標(biāo)準(zhǔn)誤,我的系數(shù)就不顯著了吹艇?
這篇文章挺好惰蜜,收藏一下:R語言回歸篇