首先寫一下為什么會寫這個吧精算,之前在看linUCB的一篇博客的時候,看到了這么一段話:
納尼!嶺回歸還可以從貝葉斯角度來得到呢崇猫!頓時覺得自己知識面太窄诅福,暴露了自己渣渣的本質(zhì)匾委。既然知識面窄,那就廢話不多說氓润,惡補一波吧赂乐!本文涉及到的內(nèi)容可能有點多,不過只要你能從頭到尾讀下來咖气,相信你一定能夠有所收獲挨措!
本文涉及的知識點有:
頻率派和貝葉斯學(xué)派
概率和似然
拉普拉斯分布和正態(tài)分布
極大似然方法求線性回歸
貝葉斯角度看L1和L2正則化
1、頻率派和貝葉斯學(xué)派
頻率派
頻率派認為需要將推斷的參數(shù)θ視作未知的定值崩溪,而樣本X是隨機的浅役,其著眼點在樣本空間,有關(guān)的概率計算都是針對X的分布伶唯。頻率學(xué)派認為參數(shù)雖然我們不知道觉既,但是它是固定的,我們要通過隨機產(chǎn)生的樣本去估計這個參數(shù)抵怎,所以才有了最大似然估計這些方法奋救。
貝葉斯派
貝葉斯派把參數(shù)θ也視作滿足某一個分布的隨機變量,而樣本X是固定的反惕,其著眼點在參數(shù)空間尝艘,重視參數(shù)θ的分布,固定的操作模式是通過參數(shù)的先驗分布結(jié)合樣本信息得到參數(shù)的后驗分布姿染。
貝葉斯學(xué)派強調(diào)人的先驗的作用背亥,即人以往認知的作用。并且通過不斷增添新的知識悬赏,來更新以往的認知狡汉。 舉個例子來說:有一個袋子里面裝了紅球和黑球,在試驗之前闽颇,我們已知這個袋子里面是5黑5紅的概率是0.8盾戴,是10黑5紅的概率是0.2,這個概率分布稱為先驗概率兵多。之后觀察者開始新的觀測或?qū)嶒灒ㄓ蟹呕爻槿?00次尖啡,得到80次黑的橄仆,20次紅的)。經(jīng)過中間的獨立重復(fù)試驗衅斩,觀察者獲得了一些新的觀測結(jié)果盆顾,這些新的觀測將以含有不確定性的邏輯推斷的方式影響觀察者原有的認識,即觀測者一開始認為袋子里是5黑5紅的可能性更大畏梆,但是經(jīng)過了上面的事實之后您宪,修正了原有的認識,認為是10黑5紅可能性更大奠涌,此時的概率稱為后驗概率宪巨。
2、概率和似然
在我們繼續(xù)進行下去之前铣猩,我們先來弄清楚兩個概念:似然(likelihood)和概率(probability)揖铜。兩者都是對可能性的表示。概率是在給定了一定參數(shù)值后达皿,表示了一件事物發(fā)生的可能性;而似然則反其道而行之贿肩,是在給定了一系列結(jié)果后峦椰,表示了某一組參數(shù)值的可能性。那么最大似然估計的思想汰规,就是在給定了一組結(jié)果后哪一組參數(shù)的可能性最大汤功;反過來說,就是使用這樣一組參數(shù)溜哮,出現(xiàn)給定結(jié)果的可能性最大滔金。
3、拉普拉斯分布和正態(tài)分布
拉普拉斯分布
拉普拉斯分布的概率密度函數(shù)為:
其中茂嗓,u為位置參數(shù)餐茵,b>0是尺度參數(shù)。與正態(tài)分布相比述吸,正態(tài)分布是用相對于u平均值的差的平方來表示忿族,而拉普拉斯概率密度用相對于差的絕對值來表示。因此蝌矛,拉普拉斯的尾部比正態(tài)分布更加平坦道批。拉普拉斯分布的圖像如下圖所示:
正態(tài)分布
想必大家對正態(tài)分布已經(jīng)很熟悉了,因此這里我只做一個簡單的介紹入撒,正態(tài)分布又稱為高斯分布隆豹,其概率密度函數(shù)如下圖:
正態(tài)分布的圖像如下圖:
4、極大似然法求線性回歸
4.1 線性回歸回顧
4.2 從極大似然法求解線性回歸
可以看到茅逮,第一項與Θ無關(guān)而且是常數(shù)璃赡,我們不用考慮簿煌,因此想要使上面的式子最大化,我們只需要下面的式子最小化即可鉴吹,后面的操作就是導(dǎo)數(shù)為0啦姨伟。因此我們就用極大似然法求解了多元線性回歸。
5豆励、貝葉斯角度看L1和L2
兜兜轉(zhuǎn)轉(zhuǎn)這么多夺荒,終于到了我們的正題了,打起精神來良蒸,革命尚未成功技扼,各位還需努力!
前面提到了嫩痰,貝葉斯派認為我們要求解的參數(shù)是一個隨機變量剿吻,服從一個概率分布,問題求解變成了在樣本已知的情況下串纺,后驗概率最大化丽旅,即參數(shù)Θ最可能的取值,即:
因此上面的式子就變成了:
與上面的方法相比纺棺,我們要求解的式子只是多了一個P(Θ)榄笙,即參數(shù)Θ的先驗概率分布。
上面的式子可以進一步的化簡:
對于第一部分祷蝌,我們根據(jù)剛才利用極大似然求解多元線性回歸的思路:
對于第二部分茅撞,根據(jù)參數(shù)Θ的先驗概率分布的不同,我們有以下兩種情況:
5.1 先驗是正態(tài)分布
可以看到巨朦,如果參數(shù)Θ的先驗概率分布是正態(tài)分布的話米丘,我們可以得到類似于加入L2正則化的多元線性回歸的損失函數(shù)。
5.2 先驗是拉普拉斯分布
可以看到糊啡,如果參數(shù)Θ的先驗概率分布是拉普拉斯分布的話拄查,我們可以得到類似于加入L1正則化的多元線性回歸的損失函數(shù)。
6悔橄、延伸閱讀-參數(shù)的均值和方差
我們這里來求解一下當Θ的先驗概率分布是正態(tài)分布時靶累,Θ后驗概率分布的均值方差。
6.1 均值
參數(shù)的均值即使損失函數(shù)最小的Θ的值:
6.2 方差
方差即中間的一項:
這塊還沒有搞懂癣疟。挣柬。。歡迎大佬們留言睛挚!
參考文章
https://blog.csdn.net/haolexiao/article/details/70243292
https://blog.csdn.net/Cerisier/article/details/78016486