引言
不論是優(yōu)化以及統(tǒng)計學(xué)學(xué)習(xí)荆永,還是在生活中,因為固有的‘平均思維’般渡,最小二乘法是最直觀的理解懒豹。假設(shè)是想要估計的值,學(xué)習(xí)過數(shù)學(xué)的同學(xué)首先想到的是找到一個
驯用,使手上數(shù)據(jù)的殘差最小脸秽。
- 一次殘差 :
=
-
- 二次殘差:
=
- 高次殘差:
=
一次殘差會因為正負(fù)而抵消掉,二次則很好地保留了每一個數(shù)據(jù)的殘差信息晨汹,而為什么不用高次豹储,可能源于奧卡姆剃須刀吧贷盲。(最小二乘法的最優(yōu)性質(zhì)討論不在本文討論范圍)
進入正題剥扣,因為上課老師總是說,線性回歸中铝穷,最小二乘法和極大似然法在正態(tài)殘差的條件下是等價的钠怯,本文的目的是想記錄下具體數(shù)學(xué)推導(dǎo)。
線性回歸的矩陣標(biāo)記法
如果數(shù)據(jù)滿足(Gauss-Markov conditions):
- E(
) = 0: 殘差之和為零
-
獨立且同方差(Var(
) =
)
剛剛提到曙聂,最小二乘法是要優(yōu)化二次殘差使其最小晦炊,因此對目標(biāo)函數(shù) 求導(dǎo)然后令倒數(shù)等于零即可得到
的(全局)最優(yōu)解。
上面的全局之所以打括號宁脊,是因為對數(shù)據(jù)断国,也就是X和y有一定要求。同學(xué)門都知道榆苞,一階導(dǎo)數(shù)需要滿足單調(diào)稳衬,才能使一階導(dǎo)數(shù)等于0所計算得出的參數(shù)為全局最小(倒數(shù)為單調(diào)遞增且過x軸)或者最大(倒數(shù)為單調(diào)遞減且過x軸)坐漏。
回到倒數(shù)求解薄疚,可以轉(zhuǎn)換成矩陣表示方法,最小二次殘差下的滿足
. 因此赊琳,如果 Rank(X) =
街夭,即等價于前述的單調(diào)條件,可以求得最優(yōu)解躏筏。
從公式可以看出板丽,最小二乘估計利用了數(shù)據(jù)的所有信息(X和y)。
另外插播一段寸士,如果為非奇異矩陣(同X不滿秩)檐什,則目標(biāo)函數(shù)存在許多局部最小值,我們成為存在多重共線性弱卡,具體本文不做討論乃正。這也牽涉到為什么比如神經(jīng)網(wǎng)絡(luò)的優(yōu)化需要用搜索目標(biāo)函數(shù)最小值的辦法,因為如果要更精確地求出最優(yōu)解需要使用到更高次求導(dǎo)婶博,給計算機程序設(shè)計帶來了許多挑戰(zhàn)瓮具。
極大似然法
極大似然法是典型的參數(shù)模型(也就是不是非參數(shù)模型),使用前需要假設(shè)數(shù)據(jù)分布凡人。同樣名党,假設(shè)殘差滿足正態(tài),期望為零挠轴,獨立且同方差的條件传睹,那么Y也服從正態(tài)分布。
(直觀解釋也就是重復(fù)實驗使用相同的X值岸晦,會得到服從正態(tài)分布的Y欧啤,且對于所有X都滿足睛藻,標(biāo)準(zhǔn)差都為)
因此,可以得到似然函數(shù)為
注意:如果方差不相同邢隧,似然函數(shù)累乘則不能化簡為上式店印。可見假設(shè)的重要性倒慧。
對對數(shù)似然函數(shù)(log-likelihood function)中的求導(dǎo)取零按摘,得到等式為,
有木有似曾相識H伊隆l畔汀!
沒錯付秕,可以看出極大似然下的估計值和
完全一致照激。
回到兩種方法的對比,里面都對數(shù)據(jù)做了正態(tài)殘差假設(shè)盹牧。對于最小二乘法俩垃,是希望給定X的情況下得到Y(jié)的期望為回歸所得值,即汰寓;而對于極大似然估計口柳,是為了使用正態(tài)分布的概率密度函數(shù)(正態(tài)殘差可以推導(dǎo)出y服從正態(tài)分布)。隱約可以感受到正態(tài)分布所帶來的強大力量有滑。(統(tǒng)計推斷更能體現(xiàn))
最后作為附錄跃闹,給出估計值的推導(dǎo)過程。(其中用到了對矩陣求倒數(shù)的公式毛好,具體請參考Wiki: Matrix_calculus望艺。下面給出使用了的三個公式,截圖自wiki肌访。注意第三列為行向量表示結(jié)果找默,第四列為列向量表示結(jié)果。下面的證明(也是習(xí)慣)使用的是列向量表示方法吼驶。