回歸問題

摘要

線性回歸解決預測問題,細分為一般線性回歸拨扶、多項式回歸、廣義線性回歸的遞進關系茁肠,Logistic和Softmax回歸解決分類問題患民,Logistic回歸解決二分類,Softmax解決多分類問題垦梆。

1匹颤、線性回歸

一般在線性回歸中人們都會舉房價預測的例子,

h_\theta(x)=\theta_0 + \theta_1 x_1 + \theta_2x_2...+ \theta_n x_n=\sum_{i=0}^n(\theta_i) x_i]=\theta^T x

式子中x1表示房屋面積托猩,x2表示臥室數(shù)量印蓖,而房價與這兩個變量直接相關,所以我們假設關系如上圖所示京腥,我們的目的是找到合適的cita另伍,使得對每個輸入x,都能得到一個y,越接近實際值越好摆尝,這里我們定義接近程度的指標温艇,使之越小越好,即目標函數(shù):

J(\theta)=\frac{1}{2}\sum_{i=1}^n(h_\theta(x^{i})-y^{i})^2=\frac{1}{2}(X\theta-y)^T(X\theta-y)

此時的目的是求出\theta使得J(\theta)最小堕汞,即誤差最小勺爱,即擬合實際最好的參數(shù)。這里求cita的方法有最小二乘和梯度下降讯检,梯度下降參見: 優(yōu)化算法總結(jié)
琐鲁,最小二乘就是直接算:

\theta = (X^TX)^{-1}X^Ty

當X^T*X不可逆時,加入擾動:

\theta =(X^TX + \lambda I)^{-1}X^Ty

梯度下降算法就是不斷的更新cita使得J越來越小人灼,直到找到最優(yōu)解或者局部最優(yōu)解:

\theta = \theta - \alpha \cdot \frac{\partial J(\theta)}{\partial \theta}

當我們在設計模型時围段,為了提高準確率可能會加入其它變量,比如房屋價格的例子中除了面積和我是外投放,加入了是否為學區(qū)房奈泪、房屋年齡等變量,此時模型會變得復雜灸芳,有可能造成在訓練集上可能擬合的很好涝桅,但是在測試集上效果不好的情況,也就是過擬合烙样。
防止過擬合的方法可以在目標函數(shù)中加入正則項冯遂,更加詳細的說明參見:正則
L1正則(Lasso回歸):

argmin J(\theta)=\frac{1}{2}\sum_{i=1}^m (y_i - \omega^Tx_i)^2 + \lambda||\omega||_1

L2正則(嶺回歸):

argmin J(\theta)=\frac{1}{2}\sum_{i=1}^m (y_i - \omega^Tx_i)^2 + \lambda||\omega||_2^2

Lasso回歸可以使得特征的參數(shù)變小,甚至為0谒获,因此有特征選擇的能力蛤肌,泛化能力強,求解復雜批狱。
Ridge回歸不舍棄特征的同時縮小參數(shù)裸准,使得模型相對穩(wěn)定,求解直接求導=0即可精耐。

加入正則化的變化

這里加入正則的目的是使得參數(shù)趨越小越好狼速,參數(shù)越小越平滑琅锻,當輸入有變化時輸出的變化不會太大變化卦停,避免了一些噪聲、異常數(shù)據(jù)的影響恼蓬。同時\gamma的值越大惊完,在訓練集上得到的值error越大,在測試集上隨著\gamma的增大处硬,會更看中正則的值而弱化error的影響小槐,所以在測試error會降低,但是當\gamma增大到一定程度時,error將會增大凿跳。

2件豌、多項式回歸和廣義線性回歸

多項式回歸:

將模型特征如果變?yōu)槎啻蔚模珀P于特征x_1, x_2的模型

h_\theta(x_1, x_2)=\theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_1^2 + \theta_4x_2^2 + \theta_5x_1x_2

由映(x_1, x_2)映射得到5元特征(1, x_2, x_2, x_1^2, x_2^2, x_1x_2)控嗜,則原式可寫成:

h_\theta(x_1, x_2)=\theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_3 + \theta_4x_4 + \theta_5x_5

重新把不是線性回歸變成了線性回歸茧彤。

廣義線性回歸:

多項式回歸是對特征的推廣,廣義線性回歸是對y的推廣疆栏,比如lny = X\theta曾掂,lnyX滿足線性關系,一般化的廣義線性回歸:Y=g^{-1}(X\theta)壁顶。

3珠洗、Logistic回歸和softmax回歸

線性回歸模型的y是連續(xù)的,如果y是離散的若专,此時若再給y一個函數(shù)轉(zhuǎn)換g许蓖,使得g(y)的值在某個區(qū)間上是類別A,某個區(qū)間上是類別B富岳,則就有了分類的概念蛔糯,即得到了分類模型,在softmax回歸分類模型中窖式,我們引入的g是sigmoid函數(shù)蚁飒,大于0.5的分類為1,小于0.5的分類為0萝喘。
sigmoid函數(shù)的形式:

g^{'}(z)=\frac{1}{1+e^{-z}}淮逻,令z=\theta x,則h_\theta(x)=\frac{1}{1+e^{-\theta x}}

二元邏輯回歸的損失函數(shù)

y的取值只能是0和1阁簸,即:

P(y=1|x, \theta)=h_\theta(x)=\frac{e^x}{1+e^x} (式1)

P(y=0|x, \theta)=1-h_\theta(x)=\frac{1}{1+e^x} (式2)

二者結(jié)合得到y(tǒng)的概率分布表達式:

P(y|x, \theta) = h_\theta(x)^y (1-h_\theta(x))^{1-y}

同時我們可以看到爬早,將式子1定義為事件發(fā)生的概率p,則事件發(fā)生的幾率為log\frac{p}{1-p}启妹,整理得:
log\frac{P(y=1|x)}{P(y=0|x)}=w\cdot x筛严,即輸出y=1的對數(shù)幾率是輸入x的線性表示模型。

用極大似然參數(shù)估計

取對數(shù)似然得到:

L(\theta) = \prod_{i=1}^N(h(x)^y \cdot (1-h(x))^y)

再取反就轉(zhuǎn)化成了目標函數(shù)的優(yōu)化問題饶米,用梯度下降法或者擬牛頓法求解最小值桨啃。

softmax回歸

未完待續(xù)...

4、回歸的總結(jié)

線性回歸是f對輸出變量y的擬合檬输,邏輯回歸是對為1的樣本的概率的擬合

線性回歸與邏輯回歸的區(qū)別

擬合函數(shù)與預測函數(shù)的關系照瘾,是將擬合函數(shù)做一個邏輯回歸的轉(zhuǎn)換,轉(zhuǎn)換后是的y的值屬于(0, 1)

5丧慈、概率的角度解釋邏輯回歸

6析命、邏輯回歸與SVM的關系

7、一些小問題

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市鹃愤,隨后出現(xiàn)的幾起案子簇搅,更是在濱河造成了極大的恐慌,老刑警劉巖软吐,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件馍资,死亡現(xiàn)場離奇詭異,居然都是意外死亡关噪,警方通過查閱死者的電腦和手機鸟蟹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來使兔,“玉大人建钥,你說我怎么就攤上這事∨傲ぃ” “怎么了熊经?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長欲险。 經(jīng)常有香客問我镐依,道長,這世上最難降的妖魔是什么天试? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任槐壳,我火速辦了婚禮,結(jié)果婚禮上喜每,老公的妹妹穿的比我還像新娘务唐。我一直安慰自己,他們只是感情好带兜,可當我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布枫笛。 她就那樣靜靜地躺著,像睡著了一般刚照。 火紅的嫁衣襯著肌膚如雪刑巧。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天无畔,我揣著相機與錄音啊楚,去河邊找鬼。 笑死檩互,一個胖子當著我的面吹牛特幔,可吹牛的內(nèi)容都是我干的咨演。 我是一名探鬼主播闸昨,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了饵较?” 一聲冷哼從身側(cè)響起拍嵌,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎循诉,沒想到半個月后横辆,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡茄猫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年狈蚤,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片划纽。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡脆侮,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出勇劣,到底是詐尸還是另有隱情靖避,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布比默,位于F島的核電站幻捏,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏命咐。R本人自食惡果不足惜篡九,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望醋奠。 院中可真熱鬧瓮下,春花似錦、人聲如沸钝域。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽例证。三九已至路呜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間织咧,已是汗流浹背胀葱。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工候味, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留长窄,地道東北人浇揩。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓昔逗,卻偏偏與公主長得像躬柬,于是被迫代替她去往敵國和親骤肛。 傳聞我的和親對象是個殘疾皇子俗慈,可洞房花燭夜當晚...
    茶點故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容