多元線性回歸模型
多元性先回歸相較于一元線性回歸更為泛化犁柜,后者可以看做是前者的特例洲鸠。對(duì)于多元線性模型,應(yīng)變量Y與自變量 X1 , X2 , … , Xk 存在線性關(guān)系馋缅,那么對(duì)于每一個(gè)樣本集Yi扒腕,都有以下公式成立:
通常在金融領(lǐng)域中,公式往往被改寫成以下的形式萤悴,兩者只是參數(shù)名稱做了調(diào)整瘾腰,為了與我們常說(shuō)的alpha(超額收益)和beta(風(fēng)險(xiǎn)收益)能夠匹配上。
為了能夠找到一條直線(或者超平面)盡可能多的擬合這些觀測(cè)集中的樣本 i = 1 , 2 , … , n覆履,我們將使用最小二乘法(OLS)蹋盆,通過最小化預(yù)測(cè)值與實(shí)際值直接誤差的平方和,也即使 ∑?i^2最小硝全,來(lái)求得最終解栖雾。之所以用?i^2 而非 ?i,原因在于平方避免了發(fā)生正負(fù)數(shù)相抵的情況從而影響了對(duì)誤差程度的統(tǒng)計(jì)伟众。另外還有一些其他的數(shù)學(xué)特性便于求導(dǎo)計(jì)算析藕,這里不做深入討論。
線性模型參數(shù)求解
我們用Y表示真實(shí)值凳厢,用Y_hat表示通過線性回歸模型得到的預(yù)測(cè)值
當(dāng)我們通過最小二乘法確定回歸方程的系數(shù)參數(shù)后账胧,我們可以使用新的觀測(cè)樣本,根據(jù)樣本中這些確定的多元自變量 X1 , X2 , … , Xk 值來(lái)預(yù)測(cè)應(yīng)變量Y值先紫。
每一個(gè) βj 參數(shù)治泥,都體現(xiàn)了在其他相關(guān)β參數(shù)不變的情況下,Y會(huì)隨Xj變化的程度遮精。
現(xiàn)在讓我們來(lái)動(dòng)手構(gòu)建一個(gè)二元回歸方程居夹,應(yīng)變量是Y,自變量是X1 和 X2:
我們使用Python的statsmodels庫(kù)提供的函數(shù)進(jìn)行模型參數(shù)求解仑鸥。
最終我們得到了線性方程的參數(shù) β0 , β1 , β2 吮播,構(gòu)建出了線性方程:
需要注意的是,這些參數(shù)都是通過對(duì)各個(gè)自變量求偏導(dǎo)(另其=0)而求得眼俊。因此意狠,現(xiàn)在Y可以表示為:
這里可以看做是 2 * X1 加上一個(gè) X ^ 2 拋物線。
然而在求解公式參數(shù)時(shí)疮胖,X1的系數(shù)是仍是 1 环戈,這里因?yàn)槊瓢澹嘣€性回歸中,元素是被分隔開來(lái)處理的院塞,這里假設(shè)其余變量保持不變時(shí)遮晚,Y隨X1變化的程度。
多元線性回歸模型在股票分析中的應(yīng)用
在股票分析中也有類似的情況拦止,在對(duì)兩只股票應(yīng)用一元線性回歸模型县遣,可能會(huì)得出很高的β 值(表示高度相關(guān))。但如果我們此時(shí)引入第三只股票(像標(biāo)普500指數(shù)ETF汹族,追蹤標(biāo)普500指數(shù))作為一個(gè)完全獨(dú)立的變量萧求,我們會(huì)發(fā)現(xiàn)前兩只股票的關(guān)聯(lián)性完全是因?yàn)樗麄儾▌?dòng)與標(biāo)普500指數(shù)保持高度同步。這是很有用的顶瞒,因?yàn)檫@說(shuō)明了標(biāo)普500可能真正地預(yù)言了這兩只股票的漲跌夸政,遠(yuǎn)比僅僅分析這兩只股票漲跌的相關(guān)性來(lái)的有效。這種方法能夠使我們更全面地衡量?jī)芍还善钡娘@著性榴徐,避免片面地推斷而混淆問題原因守问,進(jìn)而得出錯(cuò)誤的結(jié)論。詳細(xì)實(shí)現(xiàn)如下:
我們首先獲取兩只股票AT&T與費(fèi)哲金服的股價(jià)數(shù)據(jù)坑资,并應(yīng)用線性回歸模型耗帕。
隨后,我們引入標(biāo)普500ETF數(shù)據(jù)盐茎,將其作為一個(gè)新維度下的自變量引入模型進(jìn)行回歸:
在得出模型的“參數(shù)”后兴垦,下一步就是分析模型結(jié)果是否足夠可靠。一個(gè)比較容易上手的辦法是字柠,將自變量探越、預(yù)測(cè)值(應(yīng)變量)和真實(shí)值進(jìn)行可視化展現(xiàn),可以過濾一些明顯存在的問題窑业。
下圖中黃色為預(yù)測(cè)值钦幔,藍(lán)色為AT&T的真實(shí)價(jià)格
未完待續(xù)~