線性模型:對(duì)于每個(gè)i有:
排成一個(gè)矩陣的形式:
其中?
直接解就得到:
=====
這里有幾個(gè)問(wèn)題:1睛竣,不可逆的話就只能取廣義逆
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?2晰房,如果不可逆,那么求出來(lái)的w還是無(wú)偏估計(jì)射沟,但是會(huì)有大的方差(這樣的話有時(shí)候估計(jì)出來(lái)的w就會(huì)很大殊者。)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?3,X有共線性的時(shí)候验夯,也是不可逆
=====
解決方案:考慮加入顯示正則項(xiàng):
R的選擇是兩方面決定的:1猖吴,本身參數(shù)應(yīng)該有的統(tǒng)計(jì)特征。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?2挥转,應(yīng)當(dāng)減少參數(shù)的復(fù)雜度海蔽。
=====
嶺回歸:可以有閉合解。小方差估計(jì)绑谣,但是有偏差党窜。
=====
LASSO:可以有稀疏解,但是不閉合借宵。是一個(gè)很好的變量選擇的方法幌衣。一般在d遠(yuǎn)大于n的時(shí)候很好用。這時(shí)候最多選擇出n個(gè)非零的元壤玫。
用ISTA解決LASSO:通常我們的梯度下降公式可以用下面的方法得到:
如果我們把上面的式子寫的更加一般:
那么就相當(dāng)于是把原來(lái)的要優(yōu)化的f+g函數(shù)豁护,的f在xt二次展開了,二次用一個(gè)東西近似垦细。
在LASSO中我們讓
=====
為什么LASSO更容易得到稀疏解:
看這張圖择镇。norm邊界和等高線的交點(diǎn)應(yīng)該是最優(yōu)解挡逼,在二維中尚看不清楚括改,但是在多維中,l1的邊界家坎,是很多角的嘱能,所以等高線會(huì)先碰到角上。這也就是為什么會(huì)有稀疏解虱疏。
=====
正則化路跡(lambda逐漸增大惹骂,估算的參數(shù)結(jié)果)可以檢查共線性程度(嶺回歸),如果很接近0且穩(wěn)定做瞪,或者震蕩著趨于0对粪,這樣的特征可以去掉右冻。
LASSO和嶺回歸的分別:
左邊是LASSO,可以看到雖然兩張圖著拭。隨著lambda變大纱扭,這些回歸系數(shù)都趨近0.但是趨近于0的速度不同(LASSO),所以LASSO可以用來(lái)變量選擇。
=====
兩個(gè)變種:
彈性LASSO
LASSO的缺點(diǎn)就是儡遮,有時(shí)候兩個(gè)特征都很重要乳蛾,但是因?yàn)橄嚓P(guān)性強(qiáng)烈,就被LASSO剔除了其中一個(gè)鄙币。而我們希望都能保留:
Group LASSO
有時(shí)候變量是一組一組的肃叶,一組一組地保留或者丟棄。