參考書目為安德森的《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》,以下為個(gè)人的學(xué)習(xí)總結(jié)它抱,如果有錯(cuò)誤歡迎指正。有需要本書pdf的朴艰,鏈接在本文末尾观蓄。(僅限個(gè)人學(xué)習(xí)使用,請勿牟利)
第十五章 多元回歸
15.1 多元回歸模型
用p表示自變量的數(shù)目祠墅。
15.1.1 回歸模型和回歸方程
多元回歸模型:
多元回歸方程:
15.1.2 估計(jì)的多元回歸方程
估計(jì)的多元回歸方程:
15.2 最小二乘法
最小二乘法準(zhǔn)則:
通過讓殘差的平方和達(dá)到最小侮穿,求得,,,,這些值很難計(jì)算(涉及矩陣代數(shù))毁嗦,所以我們只需要會用計(jì)算機(jī)算就可以了亲茅。
15.2.1 一個(gè)例子:Butler運(yùn)輸公司
Butler運(yùn)輸公司管理人員想估計(jì)司機(jī)每天的行駛時(shí)間。
通過散點(diǎn)圖的觀察狗准,我們可以先用簡單線性回歸模型來描述每天行駛的時(shí)間(y)和每天行駛的里程(x)之間的關(guān)系克锣。利用計(jì)算機(jī)得出:
其中F為15.81,對應(yīng)的p-值為0.004<0.05腔长,所以我們拒絕原假設(shè)袭祟。這是一個(gè)不錯(cuò)的結(jié)果,但是管理人員希望考慮第二個(gè)自變量去解釋應(yīng)變量中剩余的變異性捞附。
管理人員把運(yùn)送貨物的次數(shù)()加入到自變量巾乳。得到回歸方程
15.2.2 關(guān)于回歸系數(shù)解釋的注釋
- 簡單線性回歸:我們把看作是當(dāng)自變量變化1個(gè)單位時(shí),應(yīng)變量y變化程度的一個(gè)估計(jì)鸟召。
- 多元回歸分析:當(dāng)所有其它自變量保持不變胆绊,可以看作對應(yīng)變化1個(gè)單位時(shí),應(yīng)變量y變化程度的一個(gè)估計(jì)欧募。
15.3 多元判定系數(shù)
- 總的平方和
- 回歸平方和
關(guān)系:
上述的計(jì)算很困難压状,我們可以使用計(jì)算機(jī)得到。
自變量個(gè)數(shù) | SST | SSR | SSE |
---|---|---|---|
一個(gè) | 23.9 | 15.871 | 8.029 |
兩個(gè) | 23.9 | 21.601 | 2.299 |
可以看到不同自變量下槽片,兩個(gè)自變量在SSR中貢獻(xiàn)更多何缓,得到了更好的擬合。
多元判定系數(shù):
理解:應(yīng)變量y中的變異性能被估計(jì)的多元回歸方程解釋的比例还栓。
這個(gè)判定系數(shù)可以再上圖計(jì)算機(jī)的結(jié)果中碌廓,看R-Sq,修正后的為R-Sq(adj)(sq為平方剩盒,adj為adjust修正后的)
由于自變量個(gè)數(shù)增加谷婆,判定系數(shù)也會增加,我們使用下面的方法來修正。
修正多元判定系數(shù)
(p為自變量數(shù)目纪挎,n為觀測值數(shù)目)
當(dāng)數(shù)值比較小期贫,而模型的自變量數(shù)目多,則修正后可能變負(fù)數(shù)异袄。這個(gè)時(shí)候Minitab會調(diào)整為0.
15.4 模型的假定
關(guān)于多元回歸模型的誤差項(xiàng)的假定:
- 誤差項(xiàng)通砍,是給定所有自變量后的所有可能出現(xiàn)的值的期望。
- 對于自變量,,,的所有值烤蜕,的方差()都是相同的封孙。
- 是相互獨(dú)立的,對于自變量,,,的一組特定值對應(yīng)一個(gè)誤差項(xiàng)讽营。
- 誤差項(xiàng)服從正態(tài)分布虎忌,這就意味著模型中由于預(yù)測值在一組自變量下是一定的,服從正態(tài)分布橱鹏,那么y的真實(shí)值也是服從正態(tài)分布的膜蠢。
舉例:
是一個(gè)平面,叫響應(yīng)曲面莉兰。
響應(yīng)變量=應(yīng)變量
15.5 顯著性檢驗(yàn)
在簡單線性回歸中t檢驗(yàn)和F檢驗(yàn)在原假設(shè)被拒絕時(shí)給出同樣的結(jié)論挑围,即。而在多元回歸中贮勃。
- F檢驗(yàn)用于確定應(yīng)變量和所有自變量之間是否存在一個(gè)顯著性關(guān)系贪惹,稱作總體的顯著性檢驗(yàn)苏章。
- 如果F檢驗(yàn)顯示模型總體的顯著性寂嘉,那么用t檢驗(yàn)來確定每單個(gè)自變量是否為一個(gè)顯著的自變量。稱作單個(gè)的顯著性檢驗(yàn)枫绅。
15.5.1 F檢驗(yàn)
F檢驗(yàn)的假設(shè):,至少有一個(gè)參數(shù)不為0
概念回憶:均方=
自由度:總平方和n-1泉孩,回歸平方和SSR為p個(gè)自由度,誤差平方和SSE為n-p-1個(gè)自由度并淋。
因此:均方回歸寓搬,均方誤差
其中MSE給出了誤差項(xiàng)方差的無偏估計(jì)量。如果成立县耽,MSR也會給出的無偏估計(jì)量句喷。但如果拒絕則MSR會高估。
總體顯著性的F檢驗(yàn):
- 假設(shè):,至少有一個(gè)參數(shù)不為0
- 檢驗(yàn)統(tǒng)計(jì)量:
- 拒絕法則:
- p-值法:如果p-值,則拒絕
- 臨界值法:如果兔毙,則拒絕
其中唾琼,代表分子自由度為p,分母自由度為n-p-1時(shí)澎剥,F(xiàn)分布上側(cè)面積為的F值锡溯。
回到Butler公司的案例,利用Minitab計(jì)算出
計(jì)算得到F=32.9,分子分母自由度分別為2和7祭饭。的上側(cè)面積小于0.01芜茵,則我們拒絕。同樣的臨界值法算出上側(cè)面積為0.01的F=9.55倡蝙,也可以得到同樣的結(jié)論九串。
MSE是對方差()的無偏估計(jì)。則(Butler公司案例)
一般的方差分析表(ANOVA):
15.5.2 t檢驗(yàn)
t檢驗(yàn)幫助我們確定每一個(gè)參數(shù)的顯著性寺鸥。
單個(gè)參數(shù)顯著性的t檢驗(yàn):
- 對任一個(gè)參數(shù)的假設(shè):,
- 檢驗(yàn)統(tǒng)計(jì)量:
- 拒絕法則:
- p-值法:如果p-值蒸辆,則拒絕
- 臨界值法:如果或者,則拒絕
其中析既,是自由度為n-p-1時(shí)躬贡,使t分布的上側(cè)面積為的t值。(要看t值的正負(fù))
回到Butler公司眼坏,求得,拂玻,,
計(jì)算得到t分別為6.18和4.18。對應(yīng)p-值為0.000和0.004(p值是由單側(cè)面積乘2得到)宰译。則我們拒絕兩個(gè)檐蚜,認(rèn)為兩個(gè)參數(shù)都是顯著的。
當(dāng)然也可以用臨界值法沿侈。
15.5.3 多重共線性
在多元回歸分析中闯第,往往自變量和自變量也存在聯(lián)系,比如當(dāng)我們計(jì)算行駛里程()和運(yùn)送次數(shù)()的相關(guān)系數(shù)缀拭。我們把自變量之間的相關(guān)性稱為多重共線性咳短。
當(dāng)我們把自變量變?yōu)椋盒旭偫锍?)和油耗()≈肓埽可能在t檢驗(yàn)中出現(xiàn)不能拒絕咙好。這可能是因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=x_2" alt="x_2" mathimg="1">已經(jīng)在模型里了,導(dǎo)致不再有顯著呃貢獻(xiàn)褐荷。
綜上所述:當(dāng)總體顯著性的F檢驗(yàn)表明有顯著關(guān)系時(shí)勾效,可能得到單個(gè)參數(shù)沒有一個(gè)是顯著的不等于0。只有當(dāng)自變量之間的相關(guān)性非常小才能回避這個(gè)問題叛甫。
經(jīng)驗(yàn):當(dāng)相關(guān)系數(shù)絕對值>0.7层宫,多重共線性可能稱為一個(gè)潛在的問題。
15.6 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測
在14章說明了其监,對于給定的自變量萌腿,y的期望值的點(diǎn)估計(jì)和y的一個(gè)個(gè)別值得點(diǎn)估計(jì)都是,在多元回歸分析中同樣如此棠赛。
問題:
- 對所有運(yùn)貨汽車哮奇,行駛100英里膛腐,運(yùn)送2次的情況下,求汽車平均行駛時(shí)間的置信區(qū)間鼎俘。
- 對特定運(yùn)貨汽車哲身,行駛100英里,運(yùn)送2次的情況下贸伐,求汽車行駛時(shí)間的預(yù)測區(qū)間勘天。
利用估計(jì)的回歸方程計(jì)算得到在,時(shí),捉邢。后續(xù)的計(jì)算用計(jì)算機(jī)軟件即可脯丝,下圖時(shí)Minitab的示例:
注意:預(yù)測區(qū)間往往比置信區(qū)間的范圍更大。也就是說預(yù)測的精準(zhǔn)度相比更低伏伐。
15.7 分類自變量
15.7.1 一個(gè)例子:約翰遜過濾股份公司
我們希望預(yù)測客戶提出水過濾系統(tǒng)的維修時(shí)間宠进。
- 應(yīng)變量:維修時(shí)間
- 自變量:上次維修到這次保修的時(shí)間差(),故障類型()
我們利用預(yù)測的回歸模型:算出和y的簡單線性回歸藐翎。發(fā)現(xiàn)R-sq=53.4%表明只能解釋維修時(shí)間變異性的53.4%材蹬。
我們引入自變量
在回歸分析中,是虛擬變量或指標(biāo)變量吝镣。
我們把多元回歸模型寫成:
利用Minitab計(jì)算得到
在0.05的顯著水平下堤器,p-值為0.001,我們認(rèn)為回歸關(guān)系是顯著的末贾。
15.7.2 解釋參數(shù)
當(dāng)已知機(jī)械故障類型時(shí)闸溃,可以分別計(jì)算兩個(gè)預(yù)測的回歸方程:
15.7.3 更復(fù)雜的分類變量
當(dāng)分類變量有k個(gè)水平,則需要定義k-1個(gè)虛擬變量拱撵。每個(gè)虛擬變量只能為0或1辉川。
舉例:復(fù)印機(jī)制造商的銷售數(shù)量
- 應(yīng)變量:銷售數(shù)量
- 自變量:銷售地區(qū)(A、B裕膀、C)员串,
設(shè)置方式,全為0代表一個(gè)分類昼扛,其中僅有一個(gè)為1代表一個(gè)分類。這樣k個(gè)分類欲诺,剛好需要k-1個(gè)虛擬變量抄谐。
對應(yīng)的回歸方程如下:
總結(jié):分類變量對于線性回歸相當(dāng)于時(shí)同一斜率下,上下平移一定舉例扰法。
15.8 殘差分析
第i次觀測的標(biāo)準(zhǔn)化殘差:(分母為殘差的標(biāo)準(zhǔn)差)
第i次觀測的殘差的標(biāo)準(zhǔn)差:(代表第i次觀測的杠桿率)
利用計(jì)算機(jī)我們可以輕松計(jì)算:
圖中反映的標(biāo)準(zhǔn)化殘差都在之間蛹含,因此沒有理由懷疑誤差項(xiàng)是正態(tài)分布的假定。
當(dāng)然也可以用正態(tài)概率圖塞颁。
15.8.1 檢測異常值
一般來說浦箱,如果數(shù)據(jù)集存在一個(gè)或以上的異常值吸耿,將導(dǎo)致估計(jì)的標(biāo)準(zhǔn)誤差s增加。從而使得第i次觀測的殘差的標(biāo)準(zhǔn)差增加酷窥。這就導(dǎo)致在標(biāo)準(zhǔn)化殘差中分母變大咽安,讓原本大于2的值小于2了。那么這個(gè)標(biāo)準(zhǔn)化殘差規(guī)則就失效了蓬推。
我們可以用學(xué)生化刪除殘差的標(biāo)準(zhǔn)化殘差妆棒,來解決這個(gè)問題。
15.8.2 學(xué)生化刪除殘差和異常值
設(shè)表示從數(shù)據(jù)集中刪除了第i次觀測值后得到的估計(jì)的標(biāo)準(zhǔn)誤差沸伏。如果我們用代替中的糕珊,這樣的到的標(biāo)準(zhǔn)化殘差稱為學(xué)生化刪除殘差如果第i次觀測是異常值,那么將小于毅糟。所以第i次觀測的學(xué)生化刪除殘差的絕對值大于標(biāo)準(zhǔn)化殘差的絕對值红选。也就是說,學(xué)生化刪除殘差可以檢測出標(biāo)準(zhǔn)化殘差不能檢測出的異常值姆另。
我們利用t分布來確定學(xué)生化刪除殘差是否表明存在異常值纠脾。p表示自變量個(gè)數(shù),n表示觀測值個(gè)數(shù)蜕青。此時(shí)苟蹈,誤差平方和自由度為在自由度為6雙側(cè)分位數(shù)
當(dāng)有學(xué)生化刪除殘差的絕對值大于2.447即為異常值,本表中顯示無異常值右核。
15.8.3 有影響的觀測值
前面講到如何利用杠桿率來識別有影響的觀測值慧脱。也可以用經(jīng)驗(yàn)法則:來識別有影響的觀測值。
15.8.4 利用庫克舉例測度識別有影響的觀測值
如圖所示贺喝,最后一個(gè)觀測值的杠桿率0.91>0.75(杠桿率的臨界值)菱鸥,所以這個(gè)觀測值被識別出來是一個(gè)有影響的觀測值。
但是我們看到散點(diǎn)圖躏鱼,在圖中兩個(gè)回歸方程沒有明顯區(qū)別氮采。盡管杠桿率認(rèn)為最后一個(gè)是異常值。
庫克距離測度染苛,利用第i次觀測的杠桿率和第i次觀測的殘差來確定這個(gè)觀測值是否是一個(gè)有影響的觀測值鹊漠。
其中,p代表自變量個(gè)數(shù)茶行,s代表估計(jì)的標(biāo)準(zhǔn)誤差躯概。
經(jīng)驗(yàn)準(zhǔn)則:時(shí),表明第i次觀測值是一個(gè)有影響的觀測值畔师。
15.9 logistic 回歸
例子:銀行希望建立一個(gè)估計(jì)回歸方程娶靡,符合條件的信用卡申請用戶應(yīng)變量y=1,拒絕批準(zhǔn)的y=0看锉。利用logistic回歸就能估計(jì)批準(zhǔn)使用的信用卡的概率姿锭。
例子:Simmons經(jīng)營的婦女服飾連鎖店塔鳍,想通過郵寄廣告冊(內(nèi)含滿200-50的優(yōu)惠券)的方式來增加銷量。但是廣告冊成本高呻此,所以想通過下面兩個(gè)變量來判斷顧客是否會消費(fèi)200及以上的金額轮纫。
- 在Simmons的年消費(fèi)支出
- 是否有Simmons信用卡
現(xiàn)在抽取樣本容量n=100,其中有信用卡和無信用卡的各占50.優(yōu)惠券如果被使用趾诗,賦值為1蜡感,否則為0。
15.9.1 logistic回歸方程
logistic回歸方程:
logistic回歸中被解釋為概率:
15.9.2 估計(jì)logistic回歸方程
估計(jì)的logistic回歸方程:
回到Simmons商店的例子:
利用Minitab的二進(jìn)制logistic回歸程序計(jì)算模型參數(shù)的估計(jì)值恃泪。對應(yīng)
然后就可以使用公式判斷特定的一組自變量()使用優(yōu)惠券的概率了郑兴。
15.9.3 顯著性檢驗(yàn)
- 總體顯著性檢驗(yàn)
- 假設(shè):,至少有一個(gè)參數(shù)不等于零
- 檢驗(yàn)統(tǒng)計(jì)量:G檢驗(yàn)統(tǒng)計(jì)量服從自由度為模型中自變量個(gè)數(shù)的分布。(圖15-13底部)
- 單個(gè)自變量顯著性檢驗(yàn):
- 假設(shè):,
- 檢驗(yàn)統(tǒng)計(jì)量:(服從標(biāo)準(zhǔn)正態(tài)分布)(圖15-13中間的spending和card贝乎,兩個(gè)p-值都小于0.05)
15.9.4 管理上的應(yīng)用
算出不同自變量組合的概率情连,如下圖
篩選出合適的概率進(jìn)行郵遞廣告冊即可。
15.9.5 解釋logistic回歸方程
由于自變量與y=1是非線性方程览效,但可以利用機(jī)會比率的概念間接解釋這個(gè)關(guān)系却舀。
有利于一個(gè)時(shí)間發(fā)生的機(jī)會比():被定義為事件將要發(fā)生的概率與該事件將不會發(fā)生的概率的比。
機(jī)會比率:度量了當(dāng)一組自變量中只有一個(gè)自變量增加了一個(gè)單位時(shí)锤灿,對機(jī)會比的影響挽拔。
其中是該組自變量的一個(gè)增加了一個(gè)單位時(shí),y=1的機(jī)會比()除以沒有變化時(shí)y=1的機(jī)會比()但校。
回到Simmons的例子螃诅,信用卡顧客年消費(fèi)2000美元(),無信用卡顧客年消費(fèi)2000美元()。
對應(yīng)的,;則估計(jì)的機(jī)會比率
結(jié)論:前一個(gè)顧客使用優(yōu)惠券的機(jī)會比是后一個(gè)顧客使用消費(fèi)券的機(jī)會的3倍状囱。(不代表y的值是3倍术裸。)
我們回到下圖,看到Odds Ratio對于spending和card分別是1.41和3.00
spending的1.41表示3000美元的顧客使用優(yōu)惠券的機(jī)會比是消費(fèi)2000美元的顧客使用消費(fèi)券的機(jī)會比的1.41倍亭枷。同理4000是3000的1.41倍袭艺。
card的3.00表示有信用卡的顧客使用優(yōu)惠券的機(jī)會比是無信用卡的顧客使用優(yōu)惠券的機(jī)會比的3倍。
上述都是針對自變量增加1個(gè)單位的機(jī)會比變化叨粘。每個(gè)自變量都能寫成:
那么:
- 估計(jì)的機(jī)會比率
- 估計(jì)的機(jī)會比率
那么現(xiàn)在我們就可以求得消費(fèi)5000美元顧客使用優(yōu)惠券的概率是2000美元顧客使用優(yōu)惠券概率的倍數(shù)猾编。
- c=5-2=3
-
則消費(fèi)5000美元顧客使用優(yōu)惠券的概率是2000美元顧客使用優(yōu)惠券概率的2.79倍。
一般來說軟件還會給出機(jī)會比率的95%的置信區(qū)間宣鄙。且機(jī)會比率大于1袍镀,說明自變量增加對結(jié)果是正影響。
15.9.6 對數(shù)機(jī)會比(logit)變換
對數(shù)機(jī)會比:
估計(jì)的對數(shù)機(jī)會比:
估計(jì)的logistic回歸方程:
鏈接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取碼: 333c 復(fù)制這段內(nèi)容后打開百度網(wǎng)盤手機(jī)App冻晤,操作更方便哦