高級計(jì)量經(jīng)濟(jì)學(xué) 14:二值選擇模型(基礎(chǔ))
為了個人課題的進(jìn)展弟翘,我會按照進(jìn)度選擇自己需要優(yōu)先學(xué)習(xí)的內(nèi)容??不按照正常順序的話不好意思啦!
此文內(nèi)容為《高級計(jì)量經(jīng)濟(jì)學(xué)及STATA應(yīng)用》的筆記症汹,陳強(qiáng)老師著,高等教育出版社出版。
我只將個人會用到的知識作了筆記祖娘,并對教材較難理解的部分做了進(jìn)一步闡述荚孵。為了更易于理解妹窖,我還對教材上的一些部分(包括證明和正文)做了修改。
僅供學(xué)習(xí)參考处窥,請勿轉(zhuǎn)載嘱吗,侵刪!
目錄
-
11 二值選擇模型
- 11.1 散被解釋變量的例子
-
11.2 二值選擇模型
- 11.2.1 Probit 模型和 Logit 模型
- 11.2.2 經(jīng)濟(jì)意義
- 11.2.3 擬合優(yōu)度
- 11.2.4 統(tǒng)計(jì)推斷
11.1 離散被解釋變量的例子
如果解釋變量是離散的(比如滔驾,虛擬變量)谒麦,這并不影響回歸。但有時候被解釋變量是離散的哆致,而非連續(xù)的绕德,這就讓人很頭疼了。
- 二值選擇(binary choices):考研或者不考研摊阀、出國或者不出國耻蛇、回國或者不回國……
- 多值選擇(multiple choices):走路、汽車胞此,還是坐車臣咖;出國、考研還是就業(yè)……
這類模型被稱為離散選擇模型
(discrete choice model)或定性反應(yīng)模型
(qualitative response model)漱牵。另外夺蛇,有時被解釋變量只能取非負(fù)整數(shù),比如企業(yè)在某個時間內(nèi)所獲得的專利數(shù)酣胀,這類數(shù)據(jù)被稱為計(jì)數(shù)數(shù)據(jù)
(count data)刁赦,其被解釋變量也是離散的。
考慮到離散被解釋變量的特點(diǎn)闻镶,通常不宜使用OLS進(jìn)行回歸
11.2 二值選擇模型
11.2.1 Probit 模型和 Logit 模型
假設(shè)個體只有兩種選擇甚脉,比如 和 。是否考研铆农,取決于畢業(yè)生畢業(yè)后的預(yù)期收入牺氨、個人興趣等等,假設(shè)這些解釋變量都被集成在向量 中。于是波闹,最簡單的模型為線性概率模型
(Linear Probability Model酝豪,LPM):
對 的一致估計(jì)要求 (沒有內(nèi)生性)。然而精堕,這里有幾個問題:
- 由于 孵淘,于是 或 。所以 必然不為0
- 顯然歹篓, 服從兩點(diǎn)分布瘫证,而非正態(tài)分布
- 由于 與 有關(guān),所以必然存在異方差(所以在檢驗(yàn)的時候需要使用穩(wěn)健的標(biāo)準(zhǔn)誤庄撮,見教材第 7 章)
- 盡管我們知道 非 1 即 0 背捌,但回歸的時候總不可能這么巧 就是 1 或 0 的,看
圖11.1
盡管 LPM 有上面所提到的各種缺點(diǎn)洞斯,但它的優(yōu)點(diǎn)是計(jì)算方便毡庆,而且容易分析經(jīng)濟(jì)意義。于是烙如,為了使 的預(yù)測值總是介于 之間么抗,我們對 LPM 進(jìn)行拓展:在給定 的情況下,考慮 的兩點(diǎn)分布概率為:
于是亚铁,函數(shù) 就被稱為連接函數(shù)
(link function)蝇刀,因?yàn)樗鼘⒔忉屪兞? 與被解釋變量 鏈接起來。由于 的取值要么為 0 徘溢,要么為 1 吞琐,于是 一定服從兩點(diǎn)分布。
連接函數(shù)的選擇有一定的靈活性然爆,通過選擇合適的連接函數(shù) 可以保證 站粟,并將 理解為 “ 發(fā)生的概率”,因?yàn)椋?br>
特別地曾雕,如果 是標(biāo)準(zhǔn)的正態(tài)分布累計(jì)函數(shù)(cdf)奴烙,則:
那么這個模型就被稱為Probit模型
。如果 是邏輯分布
(logistic distribution)的 cdf 翻默,即:
那么這個模型就被稱為Logit模型
缸沃。
邏輯分布的 cdf 與標(biāo)準(zhǔn)正態(tài)分布的 cdf 比較相似恰起,更接近自由度為 7 的 分布
由于邏輯分布函數(shù)有解析表達(dá)式修械,而正態(tài)分布則沒有,所以計(jì)算 Logit 模型通常比計(jì)算 Probit 模型更為方便检盼。顯然肯污,這是一個非線性模型,可以用最大似然法估計(jì)(MLE)。以 Logit 模型為例蹦渣,第 個觀測數(shù)據(jù)的概率密度為:
可以不分段地寫成:
去對數(shù)哄芜,有:
假設(shè)樣本中的個體相互獨(dú)立,那么整個樣本的 LLF (對數(shù)似然函數(shù))為:
可以用數(shù)值方法求解這個非線性最大化問題柬唯。
11.2.2 經(jīng)濟(jì)意義
需要注意的是认臊,在這個非線性模型中,估計(jì)量 并非邊際效應(yīng)(marginal effects)锄奢。以 Probit 為例失晴,可以計(jì)算:
在這里使用了微分的鏈?zhǔn)椒▌t(chain rule),并假設(shè)了 為連續(xù)變量拘央。由于 Probit 和 Logit 所使用的分布函數(shù)不同涂屁,所以其參數(shù)并不可以直接比較,而是需要分別計(jì)算二者的邊際效應(yīng)灰伟,然后進(jìn)行比較拆又。然而,對于非線性模型而言栏账,邊際效應(yīng)本身就不是常數(shù)帖族,它隨解釋變量的變化而變化。常用的邊際效應(yīng)的概念有:
- 平均邊際效應(yīng)(average marginal effect)发笔,分別計(jì)算每個樣本的邊際效應(yīng)然后平均
- 樣本均值處的邊際效應(yīng)(marginal effect at mean)盟萨,即在 處的邊際效應(yīng)
- 在某個代表值處的邊際效應(yīng)(marginal effect at a representative value),求特點(diǎn)的邊際效應(yīng)
以上三種邊際效應(yīng)的計(jì)算結(jié)果可能會有差異了讨。傳統(tǒng)上捻激,計(jì)算樣本均值處的邊際效應(yīng)比較簡單;然而前计,在非線性模型中胞谭,樣本均值處的個體行為通常不能代表個體的平均行為(average behavior of individuals differes from behavior of the average individual)。對于政策分析而言男杈,平均邊際效應(yīng)比較有意義丈屹,也是 Stata 的默認(rèn)方法。
既然 并非邊際效應(yīng)伶棒,那他有什么經(jīng)濟(jì)意義呢旺垒?對于 Logit 模型,令 肤无,那么 先蒋,由于 ,于是:
其中宛渐, 被稱為 幾率比
(odds ratio)或相對風(fēng)險
(relative risk)竞漾。如果幾率比為2眯搭,意味著 的概率是 兩倍。對第二個等式的右邊求導(dǎo)业岁,我們可以發(fā)現(xiàn) 的意義是:若 增加一個微小的量鳞仙,那么幾率比的百分比則會增加 。所以笔时,可以把 視為半彈性
棍好,即 增加一個單位引起幾率比的百分比的變化。
例如允耿, 表示 會引起幾率比增加 梳玫。注意不是幾率比本身變大 0.12,而是它增長了 12%
還有另外一個生物統(tǒng)計(jì)領(lǐng)域特別喜歡使用的意義右犹,考慮 從而 變成了 提澎,于是新幾率比與原先幾率比的比率可以寫成:
所以, 表示 引起的幾率比的變化倍數(shù)念链。
例如盼忌, 表示 會引起幾率比變成原先的 1.12 倍,即增加了 13%
事實(shí)上掂墓,如果 比較小谦纱,兩者方法是等價的( Taylor 展開)。然而君编,如果 必須變化一個單位(如性別跨嘉、婚否),則應(yīng)使用 吃嘿。另外祠乃,Probit 模型無法對系數(shù) 進(jìn)行類似的解釋,這是 Probit 模型的劣勢兑燥。
11.2.3 擬合優(yōu)度
如何衡量一個非線性的模型的擬合優(yōu)度呢亮瓷?在不存在平方和分解公式的情況下, 是無法計(jì)算的降瞳,然而 Stata 依然匯報(bào)一個準(zhǔn)R2
(Pseudo )嘱支,由 McFadden (1974) 提出,其定義為:
其中挣饥, 為原模型的 LLF 最大值除师,而 為以常數(shù)項(xiàng)為唯一解釋變量的 LLF 的最大值。由于 是離散的兩點(diǎn)分布扔枫,似然函數(shù) LF 的最大可能值為 1汛聚,于是 LLF 的最大可能值為 0,記為 茧吊。于是贞岭,必然有 ,于是 搓侄。
另外一類判斷擬合優(yōu)度的方法是計(jì)算正確預(yù)測的百分比
瞄桨,實(shí)際上我認(rèn)為目前機(jī)器學(xué)習(xí)領(lǐng)域的一系列常用的擬合優(yōu)度如 MSE、MAPE 等都可以使用讶踪。
11.2.4 統(tǒng)計(jì)推斷
本節(jié)主要是復(fù)習(xí) 高級計(jì)量12
和 高級計(jì)量13
的內(nèi)容芯侥。
總的來說,要對 Probit 和 Logit 模型進(jìn)行統(tǒng)計(jì)推斷乳讥,需要作如下假設(shè):
標(biāo)準(zhǔn)的 Probit 和 Logit 模型假設(shè)擾動項(xiàng)為同方差(這一點(diǎn)與線性模型類似):以此才可以寫出似然函數(shù) LF
假設(shè)樣本為 i.i.d. :這樣才可以使用大數(shù)定律和中心極限定理
如果滿足似然函數(shù)正確或滿足 (后面的條件更弱)柱查,則可以使用普通標(biāo)準(zhǔn)誤;否則應(yīng)該使用穩(wěn)健的標(biāo)準(zhǔn)誤
下面我們對兩種檢驗(yàn):對所有系數(shù)的聯(lián)合檢驗(yàn)和單個系數(shù)的獨(dú)立檢驗(yàn)進(jìn)行說明
(1) 所有系數(shù)的聯(lián)合顯著性
在使用 Stata 時云石,會匯報(bào)一個 LR 檢驗(yàn)統(tǒng)計(jì)量唉工,檢驗(yàn)常數(shù)以外的所有其他系數(shù)的顯著性(即所有系數(shù)的聯(lián)合顯著性)。在高級計(jì)量13
汹忠,我們已經(jīng)推導(dǎo)出對 MLE 的系數(shù)的 LR 統(tǒng)計(jì)推斷表達(dá)式:
上面的統(tǒng)計(jì)推斷表達(dá)式僅依賴于 樣本 i.i.d.
和似然函數(shù)正確
這兩個條件淋硝,前者是為了應(yīng)用大數(shù)定律和中心極限定理,后者是為了使用信息矩陣等式宽菜。
對于 Probit 和 Logit 模型谣膳,如果分布函數(shù)設(shè)定不正確,則為準(zhǔn)最大似然估計(jì)(QMLE)铅乡,那么我們要注意:
如果 成立:由于二值選擇模型的分布必然為兩點(diǎn)分布(屬于線性指數(shù)分布族)继谚,于是 MLE 估計(jì)仍然是一致的。另外阵幸,由于兩點(diǎn)分布的特殊性花履,那么在 i.i.d. 的情況下,穩(wěn)健標(biāo)準(zhǔn)誤就等于 MLE 的普通標(biāo)準(zhǔn)誤(在推導(dǎo) LR 統(tǒng)計(jì)量時需要用到有關(guān)標(biāo)準(zhǔn)誤的等式)挚赊。所以臭挽,如果認(rèn)為模型設(shè)定正確,則沒有必要使用穩(wěn)健的標(biāo)準(zhǔn)誤咬腕。
如果 欢峰,則 Probity 與 Logit 模型并不能得到對系數(shù) 的一致估計(jì)。在此時涨共,是否使用穩(wěn)健的標(biāo)準(zhǔn)誤就不是你要關(guān)心的問題——你應(yīng)該首先解決參數(shù)估計(jì)的一致性問題纽帖。
如果普通標(biāo)準(zhǔn)誤與穩(wěn)健標(biāo)準(zhǔn)誤相去甚遠(yuǎn),則大致可以斷定模型設(shè)定不正確
如果數(shù)據(jù)非 i.i.d. 举反,那么可以將樣本分為若干組(聚類)懊直,而每組組內(nèi)的個體存在組內(nèi)自相關(guān),則應(yīng)該使用聚類文件的標(biāo)準(zhǔn)誤
(2) 單個系數(shù)的顯著性
在使用 Stata 時火鼻,也會匯報(bào)每個系數(shù)的 Std. err. 室囊。如果要對單個系數(shù)的顯著性進(jìn)行推斷雕崩,則需要使用高級計(jì)量12
的 6.5.2 節(jié)中的推導(dǎo):
a. 在抽取的樣本為 i.i.d. 的假設(shè)下,我們用大數(shù)定律和中心極限定理可以推導(dǎo)出:
b. 在分布函數(shù)設(shè)定正確的假設(shè)下(于是可是使用高級計(jì)量11
的證明3)融撞,可以進(jìn)一步推導(dǎo)出:
前面已經(jīng)提到盼铁,就算分布函數(shù)設(shè)定不正確,如果 成立尝偎,那么在 i.i.d. 的情況下饶火,穩(wěn)健標(biāo)準(zhǔn)誤就等于 MLE 的普通標(biāo)準(zhǔn)誤。所以上面的等式只要 成立就可以用了致扯。
c. 如果 肤寝,則 Probit 與 Logit 模型并不能得到對系數(shù) 的一致估計(jì)。此時統(tǒng)計(jì)推斷并無意義抖僵。
欲從上面的式子單個系數(shù)進(jìn)行檢驗(yàn)鲤看,顯然需要未知的真實(shí)參數(shù) 。于是我們可以根據(jù)高級計(jì)量12
的 6.6 的方法去處理耍群,這里就不再贅述了刨摩。