監(jiān)督學(xué)習(xí)——回歸

介紹
第一部分?參數(shù)方法——類密度模型參數(shù)估計(jì)
第二部分?監(jiān)督學(xué)習(xí)——分類(基于似然的方法)
第三部分?監(jiān)督學(xué)習(xí)——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計(jì))
第四部分 監(jiān)督學(xué)習(xí)——回歸
第五部分?監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分?維度規(guī)約(特征的提取和組合)
第七部分?半?yún)?shù)方法
第八部分?非監(jiān)督學(xué)習(xí)——聚類
第九部分?非參數(shù)方法——密度估計(jì)
第十部分?非參數(shù)方法——決策樹(shù)實(shí)現(xiàn)的判別式
第十一部分?多層感知器——非參數(shù)估計(jì)器
第十二部分?局部模型
第十三部分?支持向量機(jī)與核機(jī)器
第十四部分?隱馬爾科夫模型
第十五部分?參數(shù)的貝葉斯估計(jì)
第十六部分?集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分?增強(qiáng)學(xué)習(xí)
第十八部分?機(jī)器學(xué)習(xí)實(shí)驗(yàn)
第十九部分?特征工程與數(shù)據(jù)預(yù)處理

不同于分類媚媒,輸出時(shí)離散的胎署。回歸的輸出時(shí)連續(xù)的暑刃,需要學(xué)習(xí)的是一個(gè)數(shù)值函數(shù)腹泌。這個(gè)函數(shù)是未知的粟关。假設(shè)我們從中抽取的樣本訓(xùn)練集是X=\{\mathbf{x}^t,r^t \}_{t=1}^{N}套菜,其中r^t\in \mathbf{R}是一維的數(shù)值輸出亲善。

如果不存在噪聲,任務(wù)就是插值逗柴。希望找到通過(guò)這些點(diǎn)的函數(shù) f蛹头,使得r^t=f(\mathbf{x}^t)。?

對(duì)于噪聲嚎于,添加到未知函數(shù)上,有r^t=f(\mathbf{x}^t)+\varepsilon 挟冠。引起噪聲的因素則是不可觀測(cè)量于购。

我們希望通過(guò)模型g(x)來(lái)逼近輸出r,使得訓(xùn)練集X上的經(jīng)驗(yàn)誤差(誤差平方和)E(g|X)=\frac {1}{N}\sum_{t=1}^N[r^t-g(\mathbf{x}^t)]^2最小知染。模型g(x)的選擇很重要肋僧。?


參數(shù)回歸

同上,假定輸出是輸入的確定性函數(shù)和隨機(jī)噪聲的和:r=f(x)+\varepsilon

其中f 是未知函數(shù)控淡,將用定義在參數(shù)\theta 上的估計(jì)g(x|\theta)來(lái)近似它嫌吠。如果假設(shè)\varepsilon \sim N(0,\sigma^2),則有p(r|x)\sim N(g(x|\theta),\sigma^2)掺炭,是給定輸入下輸出的概率辫诅。

訓(xùn)練集中的數(shù)據(jù)對(duì)(x^t,r^t)取自聯(lián)合概率密度p(x,r),有p(x,r)=p(r|x)p(x)涧狮。給定樣本X炕矮,對(duì)數(shù)自然為

L(\theta|X)=\log \prod_{i=1}^N p(x^t,r^t)=\log \prod_{i=1}^N p(r^t|x^t)+\log \prod_{i=1}^N p(x^t)

第二項(xiàng)不依賴估計(jì),故等同于考慮

\begin{align}L(\theta|X) &=\log \prod_{i=1}^N \frac{1}{\sqrt{2\pi }\sigma}\exp[-\frac{[r^t-g(x^t|\theta)]^2}{2\sigma^2}] \\&=-N \log(\sqrt{2\pi}\sigma) -\frac{1}{2\sigma^2}\sum_{t=1}^N [r^t-g(x^t|\theta)]^2 \\\end{align}

第一項(xiàng)獨(dú)立于參數(shù)\theta 者冤,最大化上式肤视,等同于最小化

E[\theta|X]=\frac{1}{2}\sum_{t=1}^N[r^t-g(x^t|\theta)]^2

形式上與上面所提經(jīng)驗(yàn)誤差一樣,最小化它的\theta 就是最小二乘估計(jì)涉枫⌒匣可以看出,當(dāng)誤差\varepsilon 服從正態(tài)分布時(shí)愿汰,最大化似然等同于最小化誤差平方和困后,最大似然估計(jì)等同于最小二乘估計(jì)(least squares estimate),不論g是什么形式的函數(shù)衬廷。

在常見(jiàn)的線性回歸多項(xiàng)式回歸中操灿,常使用這種方式,通過(guò)公式求得參數(shù)估計(jì)泵督。以線性回歸為例趾盐,有線性模型g(x^t|\omega_1,\omega_0)=\omega_1x^t+\omega_0

對(duì)誤差的平方和關(guān)于\omega_1,\omega_0求導(dǎo),得到

\begin{align}\sum_tr^t=&N\omega_0+\omega_1\sum_tx^t\\\sum_tr^tx^t=&\omega_0\sum_tx^t+\omega_1\sum_t(x^t)^2\end{align}

可以寫(xiě)成向量矩陣的形式A\boldsymbol{\omega}=y,得到\boldsymbol{\omega}=A^{-1}y救鲤,其中

A=\begin{equation}\left[  \begin{array}{} N & \sum_tx^t \\\sum_tx^t & \sum_t(x^t)^2  \end{array}\right]\end{equation}久窟,\boldsymbol{\omega}=\begin{equation}\left[\begin{array}{}\omega_0\\\omega_1\end{array}\right]\end{equation}y=\begin{equation}\left[\begin{array}{}\sum_tr^t\\ \sum_tr^tx^t\end{array}\right]\end{equation}

基于誤差平方和本缠,有相對(duì)平方誤差E_{RSE}=\frac {\sum_t [r^t-g(x^t|\theta)]^2}{\sum_t (r^t- \bar{r} )^2}斥扛。其更接近0時(shí),說(shuō)明得到更好的擬合丹锹。如果接近1稀颁,說(shuō)明模型不比采用平均值進(jìn)行估計(jì)更好。

多元線性回歸中楣黍,情況和一維的一樣匾灶,最大化似然等價(jià)于最小化誤差的平方和。


非參數(shù)回歸

給定訓(xùn)練集X=\{x^t,r^t\}租漂,其中r^t\in R阶女,假定r^t=g(x^t)+\varepsilon 。在參數(shù)回歸中哩治,假定g為某種多項(xiàng)式秃踩,并最小化訓(xùn)練集上的誤差平方和。當(dāng)不能假定多項(xiàng)式時(shí)业筏,使用非參數(shù)回歸憔杨,只假定相近的x 有相近的g(x)值。

與非參數(shù)密度估計(jì)一樣蒜胖,給定x芍秆,我們的方法是找出x 的鄰域。并求領(lǐng)域中r 的某種平均值翠勉,作為g(x)的估計(jì)妖啥。這種非參數(shù)回歸估計(jì)子稱為光滑子,該估計(jì)成光滑对碌。

類似于非參數(shù)密度估計(jì)荆虱,有不同的定義鄰域的方式。

移動(dòng)均值光滑

像直方圖中那樣朽们,定義一個(gè)原定和箱寬度h怀读,并求箱中 r 的平均值。得到回歸

\hat g(x)=\frac{\sum_{t=1}^N b(x,x^t)r^t}{\sum_{t=1}^Nb(x,x^t)}

其中b(x,x^t)=\begin{equation}\left\{             \begin{array}{lr}           1, & x,x^t 同箱 \\0, & else\             \end{array}\right.\end{equation}骑脱。

如質(zhì)樸估計(jì)一樣菜枷,在移動(dòng)均值光滑中,于x周圍定義一個(gè)對(duì)稱箱來(lái)避免定義原點(diǎn)叁丧。

\hat g(x)=\frac{\sum_{t=1}^N \omega(\frac{x-x^t}{h})r^t}{\sum_{t=1}^N\omega(\frac{x-x^t}{h})}啤誊,其中\omega(u)=\begin{equation}\left\{             \begin{array}{lr}           1, & |u|<1  \\0, & eles\             \end{array}\right.\end{equation}岳瞭。

核光滑

和核估計(jì)一樣,讓較遠(yuǎn)的實(shí)例點(diǎn)有較小的權(quán)重蚊锹,并得到核光滑瞳筏。

\hat g(x)=\frac{\sum_t^NK(\frac{x-x^t}{h})r^t}{\sum_t^NK(\frac{x-x^t}{h})}

通常使用高斯核K。除了固定h牡昆,可使用x 與距其 第k近的實(shí)例 之間的距離d_k(x)姚炕,使得估計(jì)能自適應(yīng) x 周圍的密度,得到k-nn光滑丢烘。

移動(dòng)線光滑

取代在點(diǎn)上取點(diǎn)鄰域內(nèi)實(shí)例的平均值來(lái)進(jìn)行估計(jì)擬合柱宦,使用輸入x鄰域內(nèi)的實(shí)例數(shù)據(jù),來(lái)擬合一條局部回歸線播瞳。再給出x的輸出掸刊。

局部加權(quán)移動(dòng)線光滑(loess),通過(guò)核加權(quán)使較遠(yuǎn)的點(diǎn)對(duì)誤差具有較小影響狐史,而不是像移動(dòng)線光滑一樣使用鄰域的硬定義痒给。


回歸樹(shù)

運(yùn)用非參數(shù)的決策樹(shù)方法说墨,同樣能實(shí)現(xiàn)回歸的目的骏全。見(jiàn)《非參數(shù)方法——決策樹(shù)》一節(jié)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末尼斧,一起剝皮案震驚了整個(gè)濱河市姜贡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌棺棵,老刑警劉巖楼咳,帶你破解...
    沈念sama閱讀 222,378評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異烛恤,居然都是意外死亡母怜,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)缚柏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)苹熏,“玉大人,你說(shuō)我怎么就攤上這事币喧」煊颍” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,983評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵杀餐,是天一觀的道長(zhǎng)干发。 經(jīng)常有香客問(wèn)我,道長(zhǎng)史翘,這世上最難降的妖魔是什么枉长? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,938評(píng)論 1 299
  • 正文 為了忘掉前任冀续,我火速辦了婚禮,結(jié)果婚禮上搀暑,老公的妹妹穿的比我還像新娘沥阳。我一直安慰自己,他們只是感情好自点,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布桐罕。 她就那樣靜靜地躺著,像睡著了一般桂敛。 火紅的嫁衣襯著肌膚如雪功炮。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,549評(píng)論 1 312
  • 那天术唬,我揣著相機(jī)與錄音薪伏,去河邊找鬼。 笑死粗仓,一個(gè)胖子當(dāng)著我的面吹牛嫁怀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播借浊,決...
    沈念sama閱讀 41,063評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼塘淑,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了蚂斤?” 一聲冷哼從身側(cè)響起存捺,我...
    開(kāi)封第一講書(shū)人閱讀 39,991評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎曙蒸,沒(méi)想到半個(gè)月后捌治,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,522評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡纽窟,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評(píng)論 3 342
  • 正文 我和宋清朗相戀三年肖油,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片臂港。...
    茶點(diǎn)故事閱讀 40,742評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡森枪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出趋艘,到底是詐尸還是另有隱情疲恢,我是刑警寧澤,帶...
    沈念sama閱讀 36,413評(píng)論 5 351
  • 正文 年R本政府宣布瓷胧,位于F島的核電站显拳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏搓萧。R本人自食惡果不足惜杂数,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評(píng)論 3 335
  • 文/蒙蒙 一宛畦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧揍移,春花似錦次和、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,572評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至罕邀,卻和暖如春畅形,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背诉探。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,671評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工日熬, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人肾胯。 一個(gè)月前我還...
    沈念sama閱讀 49,159評(píng)論 3 378
  • 正文 我出身青樓竖席,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親敬肚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子毕荐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容