大師兄的應(yīng)用回歸分析學(xué)習(xí)筆記(二):一元線性回歸(一)
一汗唱、關(guān)于回歸分析
- 回歸(regression)命名起源:英國統(tǒng)計學(xué)家F.Galton(1822-1911)和他學(xué)生匾委,現(xiàn)代統(tǒng)計學(xué)的奠基者K.Pearson(1856-1936)共同研究父母身高與子女身高的遺傳問題饺饭。
1. 變量間的統(tǒng)計關(guān)系
-
函數(shù)關(guān)系:如果一個變量的變化能完全決定另一個變量的變化,即兩個變量間完全表現(xiàn)為一種確定關(guān)系泥技。
- 統(tǒng)計關(guān)系:也稱為相關(guān)關(guān)系诬辈,指的是變量間具有密切關(guān)聯(lián)而又不能由某一個或牟一些變量唯一確定另外一個變量的關(guān)系。
- 統(tǒng)計關(guān)系形成兩個重要分支袭异,即回歸分析和相關(guān)關(guān)系。
回歸分析 | 相關(guān)分析 |
---|---|
變量y稱為因變量炬藤,處在被解釋的特殊地位御铃。 | 變量y與變量x處于平等地位。 |
因變量y是隨機(jī)變量沈矿,自變量x可以是隨機(jī)變量上真,也可以是非隨機(jī)的確定變量 | 變量y與變量x全是隨機(jī)變量。 |
不僅可以揭示變量x對變量y的影響大小羹膳,還可以由回歸放成進(jìn)行預(yù)測和控制睡互。 | 主要為了刻畫兩類變量間線性相關(guān)的密切程度。 |
2. 回歸方程
當(dāng)給定x的值陵像,y的值不能確定湃缎,只能通過一定的概率分部描述,給定x時用的條件數(shù)學(xué)期望為
蠢壹。
-
x為自變量(independent variable),y為因變量(dependent variable)九巡,如果要由x預(yù)測y图贸,就要利用x,y的觀測值,即樣本觀測值
來建立一個函數(shù)。
可以考慮用一個線性函數(shù)來描述:
其中參數(shù)(parameter)
和
未知疏日,估計參數(shù)是計量經(jīng)濟(jì)學(xué)的首要任務(wù)偿洁。
估計出
和
的值后,以估計值
和
分別代替
和
沟优,得方程:
涕滋,由于因變量y與自變量x呈線性關(guān)系,故稱為y對x的線性回歸方程挠阁。
根據(jù)是否依賴于觀察或?qū)嶒灧e累的數(shù)據(jù)式:
- 經(jīng)驗回歸方程
:
為回歸常數(shù)宾肺,
為經(jīng)驗系數(shù)。
- 理論回歸方程
侵俗,設(shè)想把所有研究問題的總體中每一個體的(x,y)值都測量锨用,利用其全部結(jié)果而建立的回歸方程,實(shí)際中做不到隘谣。
為回歸常數(shù)增拥,
為回歸系數(shù)。
二寻歧、回歸分析的主要內(nèi)容及其一般模型
1. 回歸分析研究的主要內(nèi)容
- 回歸分析研究的主要對象是客觀事物變量間的統(tǒng)計關(guān)系掌栅,是建立在對客觀事物進(jìn)行大量實(shí)驗和觀察的基礎(chǔ)上,用來尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計規(guī)律性的統(tǒng)計方法码泛。
- 回歸分析方法是通過建立統(tǒng)計模型研究變量間相互關(guān)系的密切程度猾封、結(jié)構(gòu)狀態(tài)及進(jìn)行模型預(yù)測的一種有效工具。
- 如果按研究方法來劃分,回歸分析研究的范圍大致如下:
一級 | 二級 |
---|---|
線性回歸 | 一元線性回歸 多元線性回歸 多個因變量與多個自變量的回歸 |
回歸診斷 | 討論如何從數(shù)據(jù)推斷回歸模型基本假設(shè)的合理性 當(dāng)基本假設(shè)不成立時如何對數(shù)據(jù)進(jìn)行修正 判定回歸方程擬合的效果 選擇回歸函數(shù)的形式 |
回歸變量的選擇 | 自變量選擇的準(zhǔn)則 逐步回歸分析方法 |
參數(shù)估計方法的改進(jìn) | 嶺回歸 主成分回歸 偏最小二乘法 |
非線性回歸 | 一元非線性回歸 分段回歸 多元非線性回歸 |
含有定性變量的回歸 | 自變量含定性變量的情況 因變量是定性變量的情況 |
2. 回歸模型的一般形式
- 隨機(jī)變量
與相關(guān)變量
的概率模型為:
- 其中隨機(jī)變量y稱為被解釋變量(因變量资盅,內(nèi)生變量)位他。
稱為解釋變量(自變量,外生變量)枚钓。
為一般變量
的確定性關(guān)系。
為隨機(jī)誤差
- 因為有
的引入瑟押,所以將變量之間的關(guān)系描述成為一個隨機(jī)方程搀捷,隨機(jī)誤差項主要包括下列因素:
- 由于人認(rèn)識的局限或時間、費(fèi)用多望、數(shù)據(jù)質(zhì)量等的制約未引入回歸模型但又對回歸被解釋變量y有影響的因素嫩舟。
- 樣本數(shù)據(jù)的采集過程中變臉觀測值的觀測誤差。
- 理論模型設(shè)定的誤差怀偷。
- 其他隨機(jī)因素家厌。
- 概率模型式由兩部分組成(確定性函數(shù)關(guān)系和隨機(jī)誤差項),準(zhǔn)確地表達(dá)了相關(guān)關(guān)系既有聯(lián)系又不確定的特點(diǎn):
為未知參數(shù)椎工,常稱為回歸系數(shù)饭于。
- 線性回歸模型的線性是針對未知參數(shù)而言的蜀踏,回歸解釋變量的線性是非本質(zhì)的,因為解釋變量是非線性的時掰吕,彻玻可以通過變量的替換把它轉(zhuǎn)化為線性的。
- 如果
是變量
的一組觀測值殖熟,則線性回歸模型可表示為:
。
- 為了估計模型參數(shù)菱属,古典線性回歸模型通常應(yīng)滿足以下幾個基本假設(shè):
- 解釋變量
是非隨機(jī)變量钳榨,觀測值
是常數(shù)。
- 等方差及不相關(guān)的假定條件為高斯-馬爾科夫(Gauss-Markov照皆,G-M)條件:
重绷,在此條件下,可以得到關(guān)于回歸系數(shù)的最小二乘估計及誤差項方差
估計的一些重要性質(zhì)膜毁,如回歸系數(shù)的最小二乘估計是回歸系數(shù)的最小方差線性無偏估計等昭卓。
- 正態(tài)分布的假定條件為:
,在此條件下可得到關(guān)于回歸系數(shù)的最小二乘估計
的最小方差無偏估計等瘟滨,并且可以進(jìn)行回歸的顯著性檢驗及區(qū)間估計候醒。
- 通常為了便于數(shù)學(xué)上的處理,還要n>p, 即樣本量的個數(shù)要多于解釋變量的個數(shù)杂瘸。
- 在整個回歸分析中倒淫,線性回歸的統(tǒng)計模型最為重要:
- 一方面因為線性回歸的應(yīng)用最廣泛。
- 另一方面是只有在回歸模型為線性的假定下败玉,才能得到比較深入和一般的結(jié)果敌土。
- 此外,許多非線性的回歸模型可以通過適當(dāng)?shù)淖儞Q轉(zhuǎn)化為線性回歸問題處理运翼。
- 對線性回歸模型通常要研究的問題有:
- 如何根據(jù)樣本
求出
及方差
的估計返干。
- 對回歸方程及回歸系數(shù)的種種假設(shè)進(jìn)行檢驗。
- 如何根據(jù)回歸方程進(jìn)行預(yù)測和控制血淌,以及如何進(jìn)行實(shí)際問題的結(jié)構(gòu)分析矩欠。
三、建立實(shí)際問題回歸模型的過程
1. 根據(jù)研究的目的設(shè)置指標(biāo)變量
- 回歸分析模型主要是揭示事物間相關(guān)變量的數(shù)量聯(lián)系悠夯,首先要根據(jù)所研究問題的目的設(shè)置因變量y癌淮,然后在選取與y有統(tǒng)計關(guān)系的一些變量作為自變量。
- 通常因變量與自變量之間應(yīng)具有因果關(guān)系沦补。
- 對于一個具體問題乳蓄,當(dāng)研究目的確定之后,被解釋變量就容易確定下來夕膀,被解釋變量一般直接表達(dá)研究的目的虚倒。
- 確定解釋變量通常較難:
- 一是由于認(rèn)知有限匣摘,不知道被解釋變量有重要影響的因素。
- 二是為了保證模型參數(shù)估計的有效性裹刮,設(shè)置的解釋變量應(yīng)該是不相關(guān)的,但經(jīng)濟(jì)問題中很難找到影響同一結(jié)果的相互獨(dú)立的因素庞瘸。
- 三是從經(jīng)濟(jì)關(guān)系角度考慮捧弃,非常重要的變量應(yīng)該引進(jìn),但實(shí)際中并沒有這樣的統(tǒng)計數(shù)據(jù)擦囊∥ハ迹可以考慮用相近的變量代替,或者由其他幾個指標(biāo)復(fù)合成一個新的指標(biāo)瞬场。
- 回歸模型所涉及的解釋變量不是越多越好买鸽,無關(guān)變量或相關(guān)性太強(qiáng)的變量會產(chǎn)生共線性問題,降低模型精度贯被。
-
回歸變量確認(rèn)時建立回歸模型的最近本工作眼五,一般并不能一次完全確定,通常要經(jīng)過反復(fù)試算彤灶,最終找出最適合的一些變量看幼。
2. 收集、整理統(tǒng)計數(shù)據(jù)
- 樣本數(shù)據(jù)的質(zhì)量如何對回歸模型的水平有至關(guān)重要的影響幌陕。
- 常用的樣本數(shù)據(jù)分為時間序列和橫截面數(shù)據(jù)诵姜。
- 時間序列數(shù)據(jù)是按時間順序排列的統(tǒng)計數(shù)據(jù):
- 對于收集到的時間序列資料,要特別注意數(shù)據(jù)的可比性和數(shù)據(jù)的統(tǒng)計口徑問題搏熄,對于沒有可比性和統(tǒng)計口徑不一致的統(tǒng)計數(shù)據(jù)要做調(diào)整棚唆,這個過程也叫數(shù)據(jù)過程整理。
- 時間序列數(shù)據(jù)容易產(chǎn)生模型中隨機(jī)誤差項的序列相關(guān)心例。
- 橫截面數(shù)據(jù)是在同一時間截面上的統(tǒng)計數(shù)據(jù):
- 橫截面數(shù)據(jù)做樣本時宵凌,容易產(chǎn)生異方差性。
3. 確定理論回歸模型的數(shù)學(xué)形式
- 繪樣本散點(diǎn)圖是選擇數(shù)學(xué)模型形式的重要一環(huán):
- 如果n個樣本大致分布在一條直線的周圍契邀,可以考慮用線性回歸模型擬合直線摆寄,即線性回歸模型。
- 如果n個樣本大致分布在一條曲線的周圍坯门,可選擇指數(shù)形式的理論回歸模型去描述微饥。
- 經(jīng)濟(jì)回歸模型的建立通常要依據(jù)經(jīng)濟(jì)理論和數(shù)理經(jīng)濟(jì)學(xué)的結(jié)果,數(shù)理經(jīng)濟(jì)學(xué)中已經(jīng)對投資函數(shù)古戴、生產(chǎn)函數(shù)欠橘、需求函數(shù)給出了嚴(yán)格的定義,并把他們用公式表達(dá)出來现恼,在這些公式中增加隨機(jī)誤差項肃续,就可以把問題轉(zhuǎn)化為隨機(jī)數(shù)學(xué)工具處理的回歸模型黍檩。
4. 估計模型參數(shù)
- 未知參數(shù)的估計方法中最常用的是普通最小二乘法。
- 對于不滿足模型基本假設(shè)的回歸問題始锚,也可以使用嶺回歸刽酱、主成分回歸、偏最小二乘估計等瞧捌,但他們都是以普通最小二乘法為基礎(chǔ)棵里。
- 除此之外,回歸分析還有分位數(shù)參數(shù)估計姐呐、貝葉斯參數(shù)估計等方法殿怜。
5. 模型檢驗與修改
- 回歸模型一般需要進(jìn)行統(tǒng)計檢驗和模型經(jīng)濟(jì)意義的檢驗。
- 統(tǒng)計檢驗通常包括:
- 回歸方程的顯著性檢驗
- 回歸系數(shù)的顯著性檢驗
- 擬合優(yōu)度的檢驗
- 隨機(jī)誤差項的序列相關(guān)檢驗
- 異方差性檢驗
- 解釋變量的多重共線性檢驗等
6. 回歸模型的應(yīng)用
- 應(yīng)用回歸模型可以對經(jīng)濟(jì)變量之間的關(guān)系做出度量曙砂,從模型的回歸系數(shù)可發(fā)現(xiàn)經(jīng)濟(jì)變量的結(jié)構(gòu)關(guān)系头谜,給出量化依據(jù)。
- 可以根據(jù)給定被解釋變量值來控制解釋變量值鸠澈。
- 可以通過回歸模型對經(jīng)濟(jì)進(jìn)行預(yù)測柱告。
- 在回歸模型的應(yīng)用中,應(yīng)強(qiáng)調(diào)定性分析和定量分析的有機(jī)結(jié)合款侵。