一齐鲤、什么是機(jī)器學(xué)習(xí)倘待?
機(jī)器學(xué)習(xí)包括:
1.監(jiān)督學(xué)習(xí)(supervised learning)
①回歸:尋找一個(gè)假設(shè)函數(shù)
最岗,根據(jù)大量的訓(xùn)練集X來(lái)預(yù)測(cè)目標(biāo)變量Y,若要預(yù)測(cè)的目標(biāo)變量是連續(xù)的,則是回歸問(wèn)題慧耍,如房?jī)r(jià)預(yù)測(cè)履因。
②分類:如果預(yù)測(cè)的目標(biāo)變量只能取一小部分離散值,則是分類問(wèn)題馒铃。
2.無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)
沒(méi)有標(biāo)記的數(shù)據(jù)蟹腾,如聚類,降維等区宇。
3.半監(jiān)督學(xué)習(xí)(Semi-supervised learning)
有標(biāo)記的數(shù)據(jù)不夠多
4.遷移學(xué)習(xí)(Transfor learning)
在已經(jīng)學(xué)習(xí)的基礎(chǔ)上去預(yù)測(cè)其他任務(wù)娃殖。
5.結(jié)構(gòu)化學(xué)習(xí)(Structed learning)
函數(shù)輸出產(chǎn)生結(jié)構(gòu)化產(chǎn)物,如文本议谷、圖片炉爆、音頻等。
二卧晓、線性回歸的Loss Function
假設(shè)現(xiàn)在是對(duì)房?jī)r(jià)預(yù)測(cè)芬首,每個(gè)樣本有兩個(gè)特征:面積和臥室數(shù)目,令:
為第i個(gè)樣本的第1個(gè)特征
為第i個(gè)樣本的第2個(gè)特征
假設(shè)函數(shù)如下
定義Loss Function為:
這個(gè)損失函數(shù)就是常見(jiàn)的最小二乘逼裆,為什么要使用這樣的損失函數(shù)郁稍?
先介紹中心極限定理:
粗略地說(shuō),中心極限定理說(shuō)明大量獨(dú)立隨機(jī)變量的和近似地服從正態(tài)分布胜宇,如果隨機(jī)變量X服從參數(shù)為和
正態(tài)分布耀怜,則其密度函數(shù)為:
其中等于期望
,
等于方差
假設(shè)房?jī)r(jià)預(yù)測(cè)模型中真實(shí)值和預(yù)測(cè)值存在以下關(guān)系:
其中是建模時(shí)未考慮到的因素(如其他因素對(duì)房?jī)r(jià)產(chǎn)生的影響)或者是隨機(jī)的噪音恢着。
進(jìn)一步假設(shè)是獨(dú)立同分布的,根據(jù)中心極限定理财破,
服從正態(tài)分布掰派,其期望
,方差
左痢,及即
~
靡羡,其密度函數(shù):
進(jìn)一步推得:
表示對(duì)于給定的
時(shí),
的分布情況抖锥,用
來(lái)代表該分布的參數(shù)亿眠,令
代表所有
的集合,再給定
磅废,則此時(shí)
的分布情況可以表示為:
可以把它看成是的函數(shù)纳像,
為其參數(shù),則可以表示成:
即為似然函數(shù)拯勉,進(jìn)一步推導(dǎo)可得:
即為
之間的概率模型竟趾。
由最大似然法可知,要尋找對(duì)的最佳猜測(cè)宫峦,我們要選擇使
盡可能大的
岔帽,為了方便計(jì)算,對(duì)
取對(duì)數(shù)得:
即意味著讓取到最小值导绷,這也就是成本函數(shù)
的由來(lái)犀勒。
可以證明,是一個(gè)凸函數(shù)(對(duì)
計(jì)算二階導(dǎo)數(shù)可以發(fā)現(xiàn)其恒大于等于0)妥曲,凸函數(shù)沒(méi)有局部最優(yōu)點(diǎn)只有一個(gè)全局最優(yōu)解贾费,所以不會(huì)陷入局部最小,就像方圓五百里只有一個(gè)最高的山峰檐盟,而不是坑坑洼洼的丘陵褂萧。
三、梯度下降
對(duì)損失函數(shù)進(jìn)行求導(dǎo):
所以隨機(jī)梯度下降的算法為:
批量梯度下降法:
三葵萎、正則化
正則化是為了防止模型過(guò)擬合导犹,一般都是在損失函數(shù)后面加上正則項(xiàng),構(gòu)成目標(biāo)函數(shù):
即為正則項(xiàng)羡忘,一般有
范數(shù)谎痢。
1.L0范數(shù):
即范數(shù)指向向量中的非0元素個(gè)數(shù),若用
范數(shù)來(lái)規(guī)范權(quán)重矩陣
卷雕,就是希望
中大部分都為0节猿,即讓權(quán)重是稀疏的。
2.L1范數(shù)
范數(shù)是
的最優(yōu)凸近似爽蝴,
范數(shù)同樣可以實(shí)現(xiàn)稀疏沐批。
一般常用而不是
,原因有下:
范數(shù)很難優(yōu)化蝎亚,
是
的最優(yōu)凸近似九孩,比
更容易求解,他們都可以實(shí)現(xiàn)稀疏发框。
3.L2范數(shù)
也被稱為嶺回歸或權(quán)重衰減躺彬。
正則化可以讓權(quán)重變得很小,接近于0梅惯,但不為0宪拥,權(quán)重越小,越不容易過(guò)擬合铣减,個(gè)人的理解是她君,假設(shè)函數(shù)中有高次項(xiàng),而高次項(xiàng)的權(quán)重越小葫哗,對(duì)函數(shù)的影響也就越小缔刹,不會(huì)造成明顯的過(guò)擬合。
與
的對(duì)比如下:
將這兩者的優(yōu)化目標(biāo)列出來(lái):
圖形:
等高線看成損失函數(shù)劣针,L1的約束條件可以表示成一個(gè)四邊形校镐,L2的約束條件可以表示成一個(gè)圓形,等高線與約束條件相交的一點(diǎn)則為最優(yōu)點(diǎn)捺典。
L1正則化的情況下鸟廓,等高線與L1-ball大多數(shù)情況下都會(huì)在“角”上相交,例如圖中交點(diǎn),這也解釋了為什么L1具有稀疏性襟己,而等高線與L2-ball一般不會(huì)在零點(diǎn)處相交引谜,只會(huì)接近0.
總結(jié):
1.會(huì)產(chǎn)生稀疏性,趨向于產(chǎn)生少量的特征稀蟋,其他特征權(quán)重都為0煌张,常用于特征選擇;
2.會(huì)選擇更多特征退客,且都接近0.
3.和都可以防止過(guò)擬合骏融。
4.如果一個(gè)模型中只有少量的特征時(shí)有用的,那就選擇
5.如果所有特征都有用且作用比較勻萌狂,選擇档玻。
此外,都只對(duì)起作用茫藏,不用于截距,因?yàn)閷?duì)應(yīng)的并不算特征误趴,對(duì)模型復(fù)雜度沒(méi)有影響。