復習 - 求解線性回歸的思路 - 最大似然估計、最小二乘法

求解線性回歸的思路： $\color{red}{最大似然估計胳施、最小二乘法}$

一溯祸、最大似然估計求解

1、用最大似然估計求解線性回歸基于的假設
$\color{red}{誤差服從的假設：}$ 所有樣本的誤差ε⁽ⁱ⁾ (1 ≤ i ≤ n) 是獨立同分布的舞肆，服從均值為 0焦辅，方差為某個定值的 б² 的高斯分布。原因：中心極限定理椿胯。

由于每個樣本的預測值和實際值都存在一定的誤差筷登，我們獲得這個公式

$\color{red}{求解最大似然估計步驟：}$
1、寫出似然函數(shù)L(θ)
2哩盲、對似然函數(shù)取對數(shù)前方，并整理 ln L(θ)
3、求導數(shù)
4廉油、解方程-導數(shù)為0的點(極值) ? ln L(θ) / ? θ = 0

02 回歸算法 - 線性回歸求解 θ（最大似然估計求解）

2惠险、似然函數(shù)

$\color{red}{某種樣本取得一個參數(shù)的可能性，稱之為似然函數(shù)抒线。}$

3班巩、最大似然函數(shù)求解θ過程

y⁽ⁱ⁾= θ^TX ⁽ⁱ⁾ + ε⁽ⁱ⁾；實際值=預測值+誤差十兢；
即 ε⁽ⁱ⁾ = y⁽ⁱ⁾ - θ^TX ⁽ⁱ⁾ ①
由于誤差是服從高斯分布的趣竣，高斯分布的概率密度函數(shù)：

正態(tài)分布的概率密度函數(shù)

由于 ε⁽ⁱ⁾ 均值為0摇庙，將 ε⁽ⁱ⁾ 代入公式得②：

② 第i個觀測值對應的誤差的概率密度函數(shù)

將公式 ε⁽ⁱ⁾ = y⁽ⁱ⁾ - θ^TX ⁽ⁱ⁾ ① 代入概率密度函數(shù)②得③：

③ - 左側的含義：在給定了x和某種參數(shù)θ的情況下y的概率密度函數(shù)。

∵ 聯(lián)合概率密度函數(shù)等于似然函數(shù)遥缕，L(θ|x) = f(x|θ);
∴ 得出公式④

④聯(lián)合概率密度函數(shù)等于似然函數(shù)

現(xiàn)在似然函數(shù)已經求完了卫袒，接下來我們要求L(θ) 是最大值情況下的 θ 的值。

首先考慮公式④的求導单匣，顯然不太好求夕凝。要取 $\color{red}{對數(shù)似然：}$

對數(shù)似然

該函數(shù)是根據(jù)極大似然估計推導出來的一個目標函數(shù)，我們要使得目標函數(shù)值最大户秤，那么就要讓式子后面這部分的值最小码秉。

$\color{red}{即：}$ 所以現(xiàn)在問題轉化為求如下式子最小值時θ的值：

目標函數(shù)

然后再用 $\color{red}{梯度下降法}$ 去求解這個θ的值。
10 回歸算法 - 梯度下降在線性回歸中的應用
 12 回歸算法 - 手寫梯度下降代碼

梯度下降法

$\color{red}{梯度下降的偽代碼：}$ 把步驟寫出來即可鸡号。

梯度下降的步驟

$\color{red}{學習率(步長)的選擇：}$ 學習率都是人為設定的转砖，或者可以理解為不斷得嘗試。根據(jù)迭代速度和結果進行不斷得調整鲸伴。學習率沒有一個明確的設定范圍府蔗，一般可以選擇1左右的數(shù)字進行嘗試，如果迭代的速度還可以汞窗，且結果能夠獲得即可姓赤。

$\color{red}{梯度下降的梯度值要會算。以及其對應的更新式子要會寫仲吏。}$

更新每一個θ的步驟

第一步鏈式求導不铆，不再贅述。
解釋一下最后一步是如何轉化的：
$∵\sum_{i=1}^n θ_i x_i = ( θ_1 x_1+ θ_2 x_2+ ... + θ_n x_n)$

$∴ ?/?θ_j(\sum_{i=1}^n θ_i x_i )$
= ? $( θ_1 x_1+ θ_2 x_2+ ... + θ_j x_j + ... + θ_n x_n)$ / ?θ_j
= x_j

然后再思考以下的問題：
步驟1：初始化θ(隨機初始化裹唆，可以初始化為0)
(θ₁誓斥、θ₂、... 许帐、θ_n) = （0,0,...岖食，0）

在第1步進行計算的時候，首先應該更新的是θ₁的值：
θ₁ = θ₁ - ( h_θ(x)-y )x₁ 舞吭；
然后要更新θ₂的值：
θ₂ = θ₂ - ( h_θ(x)-y )x₂ 泡垃；

問題來了：
當θ還沒有經過更新的時候，所有(θ₁羡鸥、θ₂蔑穴、... 、θ_n) = (0,0,...惧浴，0）
但當數(shù)據(jù)更新完θ₁后存和，在要更新θ₂時，在
$θ_1 x_1+ θ_2 x_2+ ... + θ_n x_n$ 中θ₁的值是更新完之前的值0，還是θ₁更新完后的值捐腿？（完成了最后一次迭代更新后的值）

答案是： 更新完之前的值0纵朋。
也就是說，每次在計算更新θ值的時候茄袖，我們不會去關心其他θ最終更新后的值是多少操软。
只有當所有的θ都更新完成后， $θ_1 x_1+ θ_2 x_2+ ... + θ_n x_n$ 中θ₁中的θ值才會發(fā)生變化宪祥。

關于J(θ)的函數(shù)要找到極小值點聂薪，對應的就是找到最小值點時θ的取值(哪一組θ的向量可以讓損失函數(shù)最小)。

$\color{red}{SGD隨機梯度下降蝗羊。}$ 選擇多個初始值點藏澳，來對比梯度下降法收斂時，兩個極值點是否有區(qū)別耀找。
簡單舉例：當θ=3時翔悠，J(θ)=2.5；當θ=5時野芒，J(θ)=3.3凉驻；最后比較后選擇2.5是全局最優(yōu)解。

注意：梯度下降只能求出近似解复罐，而不是精確的解析解。但是這種求法速度快雄家，能無限接近于真實值效诅。

=== $\color{red}{BGD、SGD趟济、MBGD}$ ===

11 回歸算法 - BGD乱投、SGD、MBGD梯度下降

前面說的梯度下降算法是針對某一個樣本進行的顷编。實際上戚炫，我們擁有m個樣本，針對每一個樣本我們都應該有一個對應的梯度下降媳纬。

$\color{red}{批量梯度下降算法 BGD}$

所以引入可批量梯度下降算法(BGD)双肤，這是一個 $\color{red}{求解相對精確}$ ，但是計算時 $\color{red}{迭代速度相對比較慢}$ 的算法钮惠。

批量梯度下降算法 BGD

如上公式所示茅糜，批量梯度算法BGD，是對所有樣本的梯度進行了求和的操作素挽。

$\color{red}{隨機梯度下降算法 SGD}$

隨機梯度下降算法：不再考慮樣本梯度的求和了蔑赘，而是來一個新的樣本，我就更新一次θ。

隨機梯度下降算法 SGD

$\color{red}{BGD缩赛、SGD比較}$

如果有m條數(shù)據(jù)耙箍，SGD算法更新了m次。
但是在批量梯度下降算法 BGD中酥馍，對于θ我只更新了1次 (全部樣本都計算完后求和)

所以在隨機梯度下降算法中辩昆，迭代更新的速度會更快。
實際生產當中物喷，我們選擇隨機梯度下降的場景會更多卤材。
畢竟，如果我有上百萬條數(shù)據(jù)峦失，如果一次性全遍歷完后再得到θ的值扇丛，這樣太慢了。

BGD尉辑、SGD比較

$\color{red}{小批量梯度下降法 MBGD}$

小批量梯度下降法 MBGD

$\color{red}{BGD帆精、SGD、MBGD的區(qū)別}$

BGD隧魄、SGD卓练、MBGD的區(qū)別

$\color{red}{梯度下降法總結}$

二、最小二乘法求解 (最小平方法)

如果用最大似然估計的思路無法理解上述的目標函數(shù)购啄，也可理解為：每個觀測值和實際值差的平方和的最小值襟企。

每個觀測值和實際值差的平方和的最小值

$\color{red}{θ的求解過程}$

$\color{red}{最小二乘法的參數(shù)解析式：}$

最小二乘法的參數(shù)解析式

最小二乘法的使用要求矩陣是 $\color{red}{可逆的}$ ；為了防止不可逆或者過擬合的問題存在狮含，可以增加額外數(shù)據(jù)影響顽悼，導致最終的矩陣是可逆的：

其實本質上就是加入了 $\color{red}{ L2正則Ridge回歸模型}$

最小二乘法的參數(shù)解析式 + L2正則，Ridge回歸

案例

最后編輯于：2019.01.07 21:54:19

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末几迄，一起剝皮案震驚了整個濱河市蔚龙，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌映胁，老刑警劉巖木羹，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異解孙，居然都是意外死亡坑填，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門弛姜，熙熙樓的掌柜王于貴愁眉苦臉地迎上來穷遂，“玉大人，你說我怎么就攤上這事娱据◎胶冢” “怎么了盅惜？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長忌穿。經常有香客問我抒寂，道長，這世上最難降的妖魔是什么掠剑？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任屈芜，我火速辦了婚禮，結果婚禮上朴译，老公的妹妹穿的比我還像新娘井佑。我一直安慰自己，他們只是感情好眠寿，可當我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布躬翁。她就那樣靜靜地躺著，像睡著了一般盯拱。火紅的嫁衣襯著肌膚如雪盒发。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天狡逢，我揣著相機與錄音宁舰，去河邊找鬼。笑死奢浑，一個胖子當著我的面吹牛蛮艰，可吹牛的內容都是我干的。我是一名探鬼主播雀彼，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼壤蚜，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了详羡？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤嘿悬，失蹤者是張志新（化名）和其女友劉穎实柠，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體善涨，經...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡窒盐，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了钢拧。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蟹漓。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖源内，靈堂內的尸體忽然破棺而出葡粒，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內幕
正文年R本政府宣布嗽交，位于F島的核電站卿嘲，受9級特大地震影響，放射性物質發(fā)生泄漏夫壁。R本人自食惡果不足惜拾枣，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望盒让。院中可真熱鬧梅肤，春花似錦、人聲如沸邑茄。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽撩扒。三九已至似扔，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間搓谆，已是汗流浹背炒辉。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留泉手，地道東北人黔寇。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像斩萌，于是被迫代替她去往敵國和親缝裤。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,724評論 2贊 354

復習 - 求解線性回歸的思路 - 最大似然估計蜡饵、最小二乘法

復習 - 求解線性回歸的思路 - 最大似然估計、最小二乘法

一溯祸、最大似然估計求解

現(xiàn)在似然函數(shù)已經求完了卫袒，接下來我們要求L(θ) 是最大值情況下的 θ 的值。

梯度下降法

=== $\color{red}{BGD、SGD趟济、MBGD}$ ===

二、最小二乘法求解 (最小平方法)

推薦閱讀更多精彩內容

復習 - 求解線性回歸的思路 - 最大似然估計、最小二乘法

一溯祸、最大似然估計求解

現(xiàn)在似然函數(shù)已經求完了卫袒，接下來我們要求L(θ) 是最大值情況下的 θ 的值。

梯度下降法

======

二、最小二乘法求解 (最小平方法)

推薦閱讀更多精彩內容

=== $\color{red}{BGD、SGD趟济、MBGD}$ ===