1拒课、背景
在做機器學(xué)習(xí)和線性回歸的時候,經(jīng)常會遇到不講道理的最小二乘法事示,優(yōu)化的目標(biāo)是(yi-y)^2最小早像,這個結(jié)論非常暴力,為啥不是三次方肖爵,四次方卢鹦,他的來源是什么呢?
本文參考的內(nèi)容 高斯馬爾科夫定理的證明
2劝堪、首先引用一下wiki的詞條:高斯馬爾科夫定理
在統(tǒng)計學(xué)中冀自,高斯-馬爾可夫定理(Gauss-Markov Theorem)陳述的是:在線性回歸模型中揉稚,如果誤差滿足零均值、同方差且互不相關(guān)熬粗,則回歸系數(shù)的最佳線性無偏估計(BLUE, Best Linear unbiased estimator)就是普通最小二乘法估計搀玖。
- 這里最佳的意思是指相較于其他估計量有更小方差的估計量,同時把對估計量的尋找限制在所有可能的線性無偏估計量中荐糜。
- 值得注意的是這里不需要假定誤差滿足獨立同分布(iid)或正態(tài)分布巷怜,而僅需要滿足零均值、不相關(guān)及同方差這三個稍弱的條件暴氏。
3、說明
上面的理論言簡意賅绣张,但是很多名詞的意思需要展開來理解答渔。
1、什么是線性回歸侥涵?
2沼撕、為什么要零均值、同方差芜飘、互不相關(guān)
3务豺、什么是線性估計,什么是無偏估計嗦明?
4笼沥、什么是最佳估計,標(biāo)準(zhǔn)是什么娶牌?
3.1奔浅、回歸、線性回歸
回歸就是利用測量到的數(shù)據(jù)去嘗試計算真實值得一種方法诗良,假設(shè)我們測量到了很多的數(shù)據(jù)汹桦,但是我們內(nèi)心覺得這些數(shù)據(jù)可能是有線性關(guān)系的,那么我們可以利用這些數(shù)據(jù)去計算(估計)那條真實的“直線”鉴裹。
線性回歸有一些問題值得思考:
- 真實值雖然存在舞骆,但是我們永遠不知道(上帝才知道)
- 每一次測量得到的一批數(shù)據(jù),用什么方法去估計真值径荔?
- 每一批數(shù)據(jù)估計的真值督禽,肯定存在差異,用什么方法去修正猖凛,為什么赂蠢?
- 非線性回歸其實可以通過參數(shù)變化,簡化為線性回歸
3.2辨泳、誤差滿足零均值虱岂,同方差玖院,互不相關(guān)
這個比較好理解,每一次測量第岖,肯定是存在誤差的难菌,如果這個誤差的均值是0,形象的理解就是誤差可能大一點蔑滓、也可能小一點郊酒,平均起來就是在真值附近變化,而且每次測量的行為都是獨立互不影響的键袱。我們就可以定義這個誤差的期望是0燎窘,方差是一個固定值。
我們也不知道真實值蹄咖,對誤差的這種假設(shè)其實一種理想的假設(shè)褐健。
3.3線性估計
線性估計的模型是這樣的,beta是一個模型的真實值澜汤,他的維度是k維向量蚜迅,X是我們的樣本,他是一個N*K的矩陣俊抵,y是我們樣本的結(jié)果谁不,是一個N維矩陣,epsilon是我們每次測量和真實值的誤差徽诲。
比如我現(xiàn)在測量了N個學(xué)生的身高刹帕、體重、起床時間馏段、平時作業(yè)成績轩拨。。院喜。亡蓉。等等這些參數(shù)(K個參數(shù)),我想知道這些參數(shù)和他們的期末考試成績的線性關(guān)系是什么喷舀,他們的期末成績就是y(N維向量)砍濒,我現(xiàn)在需要估計的beta就是每個參數(shù)和期末成績關(guān)系的矩陣。這個方程里面y和x是已知的硫麻。
如果N=K爸邢,那么這就是一個N元N次方程組,他只有一個解拿愧,我們用這個解就能得到一個beta杠河。但是實際情況來說我們可以測量很多學(xué)生的值,N可以比K大很多,這種情況下方程組是無解的券敌。(直觀理解唾戚,那些點并不完全在一條直線、一個平面上)
在這種情況下我需要一種算法去計算一個beta的估計:
這里的C應(yīng)該是和x有關(guān)系的待诅。但是這個C可以有很多形式叹坦,他就是一種線性估計
3.4無偏估計
無偏估計的定義大概是這樣的:
看著很不直觀,但是可以這樣理解卑雁,無偏估計的意思是我抽取一批樣本募书,然后根據(jù)這些樣本估計出來的beta,是在真實beta的任意方向等可能存在的测蹲,直接一點來說莹捡,我把很多批次的估計再來求取一個平均,會更接近于真實的beta扣甲,在做無窮多次抽取之后可以任認為這些估計的均值就是真實值道盏。
具體的例子:比如我們要估計總體均值theata,隨機抽取一批數(shù)據(jù)得到樣本的均值文捶,這個均值就是無偏的,隨著抽取的批次增加媒咳,E(E(x)) = theata粹排,也就是均值的均值會得到真實值。
有偏估計是指這個估計的過程中引入了一些系統(tǒng)的誤差涩澡,最終把很多批次的估計合計起來看顽耳,得不到真實的結(jié)果。
還有一個和無偏相關(guān)的概念——一致性:
關(guān)于無偏和一致性這篇文章講得比較好 深入淺出講解數(shù)理統(tǒng)計——(3)評價估計量的好壞
總結(jié)來說:
- 無偏代表取樣本的批次越來越多妙同,在無窮遠處可以得到真實值射富,有偏代表即使取了無窮多的數(shù)據(jù),你的估計也是不準(zhǔn)的
- 一致性代表另外一個維度的衡量標(biāo)準(zhǔn)粥帚,就是說隨著我們?nèi)〉门卧黾右群模烙嬛禃u漸收斂于某個值(大數(shù)定律),但是注意芒涡,并不是一定收斂于真實值
實際上真實世界中的測量都是有系統(tǒng)誤差的柴灯,估計出來的值是有偏的,但是如果這個偏差比較小费尽,而且是一致的赠群,那么這個估計量就是有意義的。反之旱幼,就算這個估計是無偏的查描,但是沒有一致性,那么只有在窮舉之后才能得到那個真實值,這樣的估計也是很不好的冬三。
4匀油、證明 高斯-馬爾科夫定理
再重復(fù)一下開始的假設(shè),在證明過程中长豁,參數(shù)都是矩陣形式的钧唐、設(shè)計到矩陣運算的和矩陣的性質(zhì)。
現(xiàn)在我們要估計K個系統(tǒng)中的參數(shù)匠襟,他們組成一個K維向量beta钝侠。
OLS(最小二乘法)的估計結(jié)果由上圖所示,現(xiàn)在的目標(biāo)就是要證明OLS估計是最佳的
4.1OSL估計是無偏的
證明如下酸舍,帶入y帅韧,右邊出現(xiàn)真值beta,由于epsilon是0均值的啃勉,所以O(shè)SL估計出來的beta就是真值beta
4.2什么是最佳忽舟?
估計beta的方法有很多種,我們定義最好的一種是淮阐,方差最小的叮阅,所以最小二乘法是平方而不是三次方、四次方泣特。
也就是說上式中左邊的估計方法要優(yōu)于右邊的估計方法浩姥,接下來就是證明為什么OSL最小二乘法的方差是最小的
4.3半正定矩陣
要證明4.2中的不等式成立,那就是要證明下式是半正定矩陣
半正定矩陣的定義(半正定改成大于等于0):
4.4證明是DX=0(k*k的0矩陣)
假設(shè)一個任意的估計矩陣是C状您,那么這個估計矩陣和OSL的估計矩陣的差異勒叠,設(shè)為D矩陣,由于兩個beta都是無偏估計膏孟,那么有:D矩陣性質(zhì)是DX=0眯分,這里有個條件概率E[DXbeta|X],如果X是已知的柒桑,那么DX只是一個常量弊决,這個常量必須恒等于一個k*k的0矩陣
4.5證明是半正定
利用了一下這個性質(zhì):
這樣看來如果這個矩陣是D行列式的平方是大于0的,所以得證幕垦。
D是一個KN的矩陣丢氢,N>k,D乘以D的轉(zhuǎn)置得到一個kk的矩陣先改,這個矩陣如果是個0矩陣疚察,那么D有什么性質(zhì)拍嵌?這說明D也是一個0矩陣悴灵,也反方向說明這樣的最佳線性估計枫慷,有且只有一個,那就是最小二乘法倚搬。