機(jī)器學(xué)習(xí)系列1:線性回歸詳解

一齐鲤、什么是機(jī)器學(xué)習(xí)倘待?

機(jī)器學(xué)習(xí)包括:
1.監(jiān)督學(xué)習(xí)(supervised learning)

①回歸:尋找一個(gè)假設(shè)函數(shù)h(x)最岗,根據(jù)大量的訓(xùn)練集X來(lái)預(yù)測(cè)目標(biāo)變量Y,若要預(yù)測(cè)的目標(biāo)變量是連續(xù)的,則是回歸問(wèn)題慧耍,如房?jī)r(jià)預(yù)測(cè)履因。
②分類:如果預(yù)測(cè)的目標(biāo)變量只能取一小部分離散值,則是分類問(wèn)題馒铃。

2.無(wú)監(jiān)督學(xué)習(xí)(Unsupervised learning)

沒(méi)有標(biāo)記的數(shù)據(jù)蟹腾,如聚類,降維等区宇。

3.半監(jiān)督學(xué)習(xí)(Semi-supervised learning)

有標(biāo)記的數(shù)據(jù)不夠多

4.遷移學(xué)習(xí)(Transfor learning)

在已經(jīng)學(xué)習(xí)的基礎(chǔ)上去預(yù)測(cè)其他任務(wù)娃殖。

5.結(jié)構(gòu)化學(xué)習(xí)(Structed learning)

函數(shù)輸出產(chǎn)生結(jié)構(gòu)化產(chǎn)物,如文本议谷、圖片炉爆、音頻等。

二卧晓、線性回歸的Loss Function

假設(shè)現(xiàn)在是對(duì)房?jī)r(jià)預(yù)測(cè)芬首,每個(gè)樣本有兩個(gè)特征:面積和臥室數(shù)目,令:
x^i_1為第i個(gè)樣本的第1個(gè)特征
x^i_2為第i個(gè)樣本的第2個(gè)特征
假設(shè)函數(shù)如下h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x2=\sum_{i=1}^m\theta_ixi=\theta^Tx
定義Loss Function為:J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2
這個(gè)損失函數(shù)就是常見(jiàn)的最小二乘逼裆,為什么要使用這樣的損失函數(shù)郁稍?
先介紹中心極限定理:
粗略地說(shuō),中心極限定理說(shuō)明大量獨(dú)立隨機(jī)變量的和近似地服從正態(tài)分布胜宇,如果隨機(jī)變量X服從參數(shù)為\mu\sigma^2正態(tài)分布耀怜,則其密度函數(shù)為:f(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
其中\mu等于期望E[X],\sigma^2等于方差Var(x)
假設(shè)房?jī)r(jià)預(yù)測(cè)模型中真實(shí)值和預(yù)測(cè)值存在以下關(guān)系:y^i=\theta^Tx^i+\varepsilon^i
其中\varepsilon^i是建模時(shí)未考慮到的因素(如其他因素對(duì)房?jī)r(jià)產(chǎn)生的影響)或者是隨機(jī)的噪音恢着。
進(jìn)一步假設(shè)\varepsilon^i是獨(dú)立同分布的,根據(jù)中心極限定理财破,\varepsilon^i服從正態(tài)分布掰派,其期望E[X]=0,方差Var(x)=\sigma^2左痢,及即\varepsilon^i~N(0,\sigma^2)靡羡,其密度函數(shù):p(\varepsilon^i)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon^i)^2}{2\sigma^2})
進(jìn)一步推得:p(y^i|x^i;\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})
p(y^i|x^i;\theta)表示對(duì)于給定的x^i時(shí),y^i的分布情況抖锥,用\theta來(lái)代表該分布的參數(shù)亿眠,令X代表所有x^i的集合,再給定\theta磅废,則此時(shí)y的分布情況可以表示為:p(\vec{y}|X;\theta)
可以把它看成是\vec{y}的函數(shù)纳像,\theta為其參數(shù),則可以表示成:L(\theta)=L(\theta;X,\vec{y})=p(\vec{y}|X;\theta)
L(\theta)即為似然函數(shù)拯勉,進(jìn)一步推導(dǎo)可得:L(\theta)=\prod_{i=1}^mp(y^i|x^i;\theta)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})
L(\theta)即為y與x之間的概率模型竟趾。
由最大似然法可知,要尋找對(duì)\theta的最佳猜測(cè)宫峦,我們要選擇使L(\theta)盡可能大的\theta岔帽,為了方便計(jì)算,對(duì)L(\theta)取對(duì)數(shù)得:
\begin{split} l(\theta)={} &logL(\theta)=log\prod_{i=1}^mp(y^i|x^i;\theta){} \\ &=\sum_{i=1}^mlog\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}){} \\ &=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y^i-\theta^Tx^i)^2 \end{split}
即意味著讓\frac{1}{2}\sum_{i=1}^m(y^i-\theta^Tx^i)^2取到最小值导绷,這也就是成本函數(shù)J(\theta)的由來(lái)犀勒。
可以證明,J(\theta)是一個(gè)凸函數(shù)(對(duì)J(\theta)計(jì)算二階導(dǎo)數(shù)可以發(fā)現(xiàn)其恒大于等于0)妥曲,凸函數(shù)沒(méi)有局部最優(yōu)點(diǎn)只有一個(gè)全局最優(yōu)解贾费,所以不會(huì)陷入局部最小,就像方圓五百里只有一個(gè)最高的山峰檐盟,而不是坑坑洼洼的丘陵褂萧。

三、梯度下降

對(duì)損失函數(shù)進(jìn)行求導(dǎo):\begin{split} \frac{\partial{J(\theta)}}{\partial \theta_j}={} &\frac{\partial{}}{\partial \theta_j}\sum_{i=1}^m\frac{1}{2}(h_\theta(x^i)-y^i)^2{} \\ &=2\times\frac{1}{2}\sum_{i=1}^m(h_\theta(x^i)-y^i)\times \frac{\partial{}}{\partial \theta_j}(h_\theta(x^i)-y^i){} \\ &=\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i \end{split}
所以隨機(jī)梯度下降的算法為:
\begin{split} while\lgroup {}\\ {}&\theta_j:=\theta_j-\alpha\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i \quad(對(duì)所有j){}\\ \rgroup \end{split}
批量梯度下降法:
\begin{split} while\lgroup {}\\ {}&i從1到m:\lgroup {}\\ {}&\theta_j:=\theta_j-\alpha (h_\theta(x^i)-y^i)x_j^i \quad(對(duì)所有j){}\\ {}& \qquad\rgroup{}\\ \rgroup \end{split}

三葵萎、正則化

正則化是為了防止模型過(guò)擬合导犹,一般都是在損失函數(shù)后面加上正則項(xiàng),構(gòu)成目標(biāo)函數(shù):\theta^*=argmin_\theta\sum_iL(y^i,f(x_i;\theta))+\lambda\Omega(\theta)
\lambda\Omega(\theta)即為正則項(xiàng)羡忘,一般有L_0,L_1,L_2范數(shù)谎痢。

1.L0范數(shù):

\Omega(\theta)=\sum_{i=1,\theta_j \neq0}^m\theta_j^0
L_0范數(shù)指向向量中的非0元素個(gè)數(shù),若用L_0范數(shù)來(lái)規(guī)范權(quán)重矩陣\theta卷雕,就是希望\theta中大部分都為0节猿,即讓權(quán)重是稀疏的。

2.L1范數(shù)

\Omega(\theta)=\sum_{i=1}^m|\theta_j|
L_1范數(shù)是L_0的最優(yōu)凸近似爽蝴,L_1范數(shù)同樣可以實(shí)現(xiàn)稀疏沐批。
一般常用L_1而不是L_0,原因有下:
L_0范數(shù)很難優(yōu)化蝎亚,L_1L_0的最優(yōu)凸近似九孩,比L_0更容易求解,他們都可以實(shí)現(xiàn)稀疏发框。

3.L2范數(shù)

\Omega(\theta)=\sum_{i=1}^m\theta_j^2
L_2也被稱為嶺回歸或權(quán)重衰減躺彬。
L_2正則化可以讓權(quán)重變得很小,接近于0梅惯,但不為0宪拥,權(quán)重越小,越不容易過(guò)擬合铣减,個(gè)人的理解是她君,假設(shè)函數(shù)中有高次項(xiàng),而高次項(xiàng)的權(quán)重越小葫哗,對(duì)函數(shù)的影響也就越小缔刹,不會(huì)造成明顯的過(guò)擬合。
L_1L_2的對(duì)比如下:
將這兩者的優(yōu)化目標(biāo)列出來(lái):
Lasso(L1):min_\theta\frac{1}{m}||h_\theta(x)-y)||^2.s.t||\theta||_1\le C
Ridge(L2):min_\theta\frac{1}{m}||h_\theta(x)-y)||^2.s.t||\theta||_2\le C
圖形:

image

等高線看成損失函數(shù)劣针,L1的約束條件可以表示成一個(gè)四邊形校镐,L2的約束條件可以表示成一個(gè)圓形,等高線與約束條件相交的一點(diǎn)則為最優(yōu)點(diǎn)捺典。
L1正則化的情況下鸟廓,等高線與L1-ball大多數(shù)情況下都會(huì)在“角”上相交,例如圖中交點(diǎn),這也解釋了為什么L1具有稀疏性襟己,而等高線與L2-ball一般不會(huì)在零點(diǎn)處相交引谜,只會(huì)接近0.
總結(jié):
1.會(huì)產(chǎn)生稀疏性,趨向于產(chǎn)生少量的特征稀蟋,其他特征權(quán)重都為0煌张,常用于特征選擇;
2.會(huì)選擇更多特征退客,且都接近0.
3.和都可以防止過(guò)擬合骏融。
4.如果一個(gè)模型中只有少量的特征時(shí)有用的,那就選擇
5.如果所有特征都有用且作用比較勻萌狂,選擇档玻。
此外,都只對(duì)起作用茫藏,不用于截距,因?yàn)閷?duì)應(yīng)的并不算特征误趴,對(duì)模型復(fù)雜度沒(méi)有影響。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末务傲,一起剝皮案震驚了整個(gè)濱河市凉当,隨后出現(xiàn)的幾起案子枣申,更是在濱河造成了極大的恐慌,老刑警劉巖看杭,帶你破解...
    沈念sama閱讀 222,378評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件忠藤,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡楼雹,警方通過(guò)查閱死者的電腦和手機(jī)模孩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)贮缅,“玉大人榨咐,你說(shuō)我怎么就攤上這事∏垂” “怎么了块茁?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,983評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)桂肌。 經(jīng)常有香客問(wèn)我龟劲,道長(zhǎng),這世上最難降的妖魔是什么轴或? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,938評(píng)論 1 299
  • 正文 為了忘掉前任昌跌,我火速辦了婚禮,結(jié)果婚禮上照雁,老公的妹妹穿的比我還像新娘蚕愤。我一直安慰自己,他們只是感情好饺蚊,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布萍诱。 她就那樣靜靜地躺著,像睡著了一般污呼。 火紅的嫁衣襯著肌膚如雪裕坊。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,549評(píng)論 1 312
  • 那天燕酷,我揣著相機(jī)與錄音籍凝,去河邊找鬼。 笑死苗缩,一個(gè)胖子當(dāng)著我的面吹牛饵蒂,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播酱讶,決...
    沈念sama閱讀 41,063評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼退盯,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起渊迁,我...
    開(kāi)封第一講書(shū)人閱讀 39,991評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤慰照,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后琉朽,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體焚挠,經(jīng)...
    沈念sama閱讀 46,522評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評(píng)論 3 342
  • 正文 我和宋清朗相戀三年漓骚,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片榛泛。...
    茶點(diǎn)故事閱讀 40,742評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蝌蹂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出曹锨,到底是詐尸還是另有隱情孤个,我是刑警寧澤,帶...
    沈念sama閱讀 36,413評(píng)論 5 351
  • 正文 年R本政府宣布沛简,位于F島的核電站齐鲤,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏椒楣。R本人自食惡果不足惜给郊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捧灰。 院中可真熱鬧淆九,春花似錦、人聲如沸毛俏。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,572評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)煌寇。三九已至焕蹄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間阀溶,已是汗流浹背腻脏。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,671評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留银锻,地道東北人迹卢。 一個(gè)月前我還...
    沈念sama閱讀 49,159評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像徒仓,于是被迫代替她去往敵國(guó)和親腐碱。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 今天,天氣雖然有點(diǎn)陰沉沉的症见,但我還是很高興的喂走,3月8日婦女節(jié),是天下女人的節(jié)日谋作,祝所有的女人節(jié)日快樂(lè)芋肠! ...
    樂(lè)_d897閱讀 197評(píng)論 0 0
  • 一個(gè)沒(méi)控制,又被他激怒了遵蚜,對(duì)他一點(diǎn)都沒(méi)有耐心帖池,24小時(shí)的朝夕相處,24小時(shí)吭净,除了了付出就是付出睡汹,他24小時(shí)隨時(shí)隨地...
    對(duì)與錯(cuò)w閱讀 168評(píng)論 0 0
  • Android開(kāi)發(fā)的小伙伴們肯定會(huì)用到百度地圖或者高德地圖的API,都需要輸入開(kāi)發(fā)版的SHA1和發(fā)布版的SHA...
    豬爸爸Hulk閱讀 6,718評(píng)論 4 7
  • 堂吉訶德倒下了,理想主義死去了友扰。 看完音樂(lè)劇《我·堂吉訶德》彤叉,內(nèi)心有種說(shuō)不起的難受與悲傷。 細(xì)細(xì)回想起村怪,之前發(fā)生的...
    自然2H閱讀 1,031評(píng)論 0 1