理解回歸分析的世界

監(jiān)督學(xué)習(xí)中果正,如果預(yù)測的變量是離散的贸毕,我們稱其為分類(如決策樹,支持向量機(jī)等)孙技,如果預(yù)測的變量是連續(xù)的产禾,我們稱其為回歸。

回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法牵啦。運(yùn)用十分廣泛亚情,回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析蕾久;在線性回歸中势似,按照因變量的多少,可分為簡單回歸分析和多重回歸分析僧著;按照[自變量]和[因變量]之間的關(guān)系類型履因,可分為[線性回歸]分析和[非線性回歸]分析。如果在回歸分析中盹愚,只包括一個(gè)[自變量]和一個(gè)[因變量]栅迄,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析皆怕。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量毅舆,且自變量之間存在線性相關(guān)西篓,則稱為[多重線性回歸]分析。

一元線性回歸

回歸分析中憋活,如果只包括一個(gè)自變量x和一個(gè)因變量y岂津,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析悦即。

那么我們需要做的是致力于找出自變量與因變量之間的連續(xù)關(guān)系吮成。

對于一元線性回歸模型, 假設(shè)從總體中獲取了n組觀察值(X1,Y1)辜梳,(X2粱甫,Y2), …作瞄,(Xn茶宵,Yn)。將會有無數(shù)條直線來描述數(shù)據(jù)集中的線性關(guān)系宗挥,選擇最佳擬合曲線的標(biāo)準(zhǔn)可以確定為:使總的擬合誤差(即總殘差)達(dá)到最小乌庶。我們使用最小二乘法來確定最優(yōu)的直線。

最小二乘法

最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)契耿。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配安拟。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小宵喂。

對于觀察數(shù)據(jù)若放在xy直角坐標(biāo)系中糠赦,是一個(gè)散點(diǎn)圖,假設(shè)有一條直線y=a+bx是無數(shù)條通過數(shù)據(jù)集描述的直線锅棕,那么要通過最小二乘法確定最佳擬合的a0和a1拙泽,將實(shí)測值Yi與利用計(jì)算值Yj(Yj=a+bXi)差(Yi-Yj)的平方和∑(Yi-Yj)^2最小為“優(yōu)化判據(jù)”。

求解過程:
令:Di =∑(Yi-Yj)^2
把Yj=a+bXi帶入φ得到
Di =∑(Yi-a-bXi)^2
當(dāng)∑(Yi-Yj)^2最小時(shí)可用函數(shù) φ 對a裸燎、b求偏導(dǎo)數(shù)顾瞻,令這兩個(gè)偏導(dǎo)數(shù)等于零。


求偏導(dǎo)

整理后對方程組求解
整理后.jpg

最終解得
Paste_Image.png

由上述過程計(jì)算得出最佳擬合一元線性公式德绿。

簡例理解最小二乘法

有如下的簡單數(shù)據(jù)集:


Paste_Image.png

通過excel我們可以快速的得出如下的公式:


Paste_Image.png

下圖紅線的距離為Yi-Yj:
Paste_Image.png

確定y=1.9643x+1為最優(yōu)的直線的過程是通過實(shí)際的每個(gè)點(diǎn)到此條直線上對應(yīng)點(diǎn)的距離(上圖紅色)的平方和最小荷荤,即∑(Yi-Yj)^2最小。

多元線性回歸

如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量x1,x2...xi移稳,且因變量y和自變量x1,x2...xi之間是線性關(guān)系蕴纳,則稱為多元線性回歸分析。
多元線性回歸可以寫作如下方式:
Y=b0+b1x1+…+bkxk+e
其中个粱,b0為常數(shù)項(xiàng)古毛,b1,b2…bk為回歸系數(shù)b1為X1,X2…Xk固定時(shí),x1每增加一個(gè)單位對y的效應(yīng)稻薇,即x1對y的偏回歸系數(shù)嫂冻;同理b2為X1,X2…Xk固定時(shí),x2每增加一個(gè)單位對y的效應(yīng)塞椎,即桨仿,x2對y的偏回歸系數(shù),等案狠。

建立多元線性回歸模型時(shí)蹬敲,為了保證回歸模型具有優(yōu)良的解釋能力和預(yù)測效果,應(yīng)首先注意自變量的選擇莺戒,其準(zhǔn)則是:
(1)自變量對因變量必須有顯著的影響,并呈密切的線性相關(guān)急波;
(2)自變量與因變量之間的線性相關(guān)必須是真實(shí)的从铲,而不是形式上的;
(3)自變量之間應(yīng)具有一定的互斥性澄暮,即自變量之間的相關(guān)程度不應(yīng)高于自變量與因變量之因的相關(guān)程度名段;
(4)自變量應(yīng)具有完整的統(tǒng)計(jì)數(shù)據(jù),其預(yù)測值容易確定泣懊。
多元性回歸模型的參數(shù)估計(jì)伸辟,同一元線性回歸方程一樣,也是在要求誤差平方和(Σe)為最小的前提下馍刮,用最小二乘法求解參數(shù)信夫。以二線性回歸模型為例,求解回歸參數(shù)的標(biāo)準(zhǔn)方程組


解此方程可求得b0,b1,b2的數(shù)值卡啰。亦可用下列矩陣法求得


其中第二種的P(Y=1|x)=y静稻。

邏輯回歸

邏輯回歸,又名邏輯斯諦回歸(logistic regression)是經(jīng)典分類方法匈辱。是一個(gè)非常經(jīng)典的二項(xiàng)分類模型振湾,也可以擴(kuò)展為多項(xiàng)分類模型。屬于對數(shù)線性模型亡脸。

邏輯回歸就是把 線性回歸的y 變成了 y的衍生物押搪,是一種 y的廣義理解。

我們將線性回歸的公式的權(quán)值向量(系數(shù))和輸入向量(自變量)加以擴(kuò)充浅碾,記做w(歐米伽)和x大州,即w=(w1,w2...wn,b)的向量,x=(x1,x2...xn,1)的向量,即z=wx垂谢,這里我們使用z來代替原本的y以便于區(qū)分新的y摧茴。那么我們對z做一次衍生,y=f(z)埂陆。由此可知z=wx是普通的線性關(guān)系苛白,而z到y(tǒng)是一種代數(shù)關(guān)系娃豹。

對預(yù)測值的對數(shù)函數(shù),需要滿足單調(diào)可微的性質(zhì)购裙,且方便進(jìn)行二項(xiàng)分類懂版,于是選取了S形曲線Sigmoid函數(shù): f(s) = 1 / (1 + exp(-s)), s 取值范圍是整個(gè)實(shí)數(shù)域, f(x) 單調(diào)遞增,0 < f(x) < 1躏率。


Sigmoid 函數(shù)在有個(gè)很漂亮的“S”形躯畴,如下圖所示(引自維基百科):



此時(shí)將連續(xù)性的z,z的范圍在(-∞, +∞)薇芝,變成的連續(xù)性的y蓬抄,y的范圍在(0, 1)。

第一種正推思想:

通過Sigmoid 函數(shù)衍生出:

y=1/(1+exp(-z))

那么:

exp(-z)=(1/y) - 1

對兩方取ln:

-z=ln((1-y)/y)

于是得出:

z=ln(y/(1-y))

帶入公式z=wx可得:

ln(y/(1-y))=wx

此時(shí)夯到,我們找到了x與y之間的關(guān)系嚷缭。

第二種反證思想:

邏輯斯蒂回歸模型是如下的條件概率分布:


Paste_Image.png

一件事情發(fā)生的幾率為該事件發(fā)生的概率與不發(fā)生的概率的比值,如果發(fā)生的概率為p耍贾,那么幾率表示為p/1-p阅爽。該事件的對數(shù)幾率為:


Paste_Image.png

綜合上述兩種公式可得:


Paste_Image.png

邏輯回歸的思想應(yīng)用

y的范圍在(0, 1),我們可以將其想象成一種概率荐开,計(jì)算出的y可以想象成是這個(gè)分類的概率付翁,通過數(shù)據(jù)集中的x和Y(結(jié)果為0或1),求得w向量晃听,對于預(yù)測值的新的x百侧,根據(jù)已有的w計(jì)算y(概率),通過業(yè)務(wù)場景界定y的大小來判斷是否為此分類能扒。

同理移层,在多類分類問題中,對于多類分類問題赫粥,可以將其看做成二類分類問題:保留其中的一類观话,剩下的作為另一類。對于每一個(gè)類 i 訓(xùn)練一個(gè)邏輯回歸模型的分類器越平,并且預(yù)測y = i時(shí)的概率频蛔;對于一個(gè)新的輸入變量x, 分別對每一個(gè)類進(jìn)行預(yù)測,取概率最大的那個(gè)類作為分類結(jié)果秦叛。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末晦溪,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子挣跋,更是在濱河造成了極大的恐慌三圆,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異舟肉,居然都是意外死亡修噪,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門路媚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來黄琼,“玉大人,你說我怎么就攤上這事整慎≡嗫睿” “怎么了?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵裤园,是天一觀的道長撤师。 經(jīng)常有香客問我,道長拧揽,這世上最難降的妖魔是什么剃盾? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮强法,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘湾笛。我一直安慰自己饮怯,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布嚎研。 她就那樣靜靜地躺著蓖墅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪临扮。 梳的紋絲不亂的頭發(fā)上论矾,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天,我揣著相機(jī)與錄音杆勇,去河邊找鬼贪壳。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蚜退,可吹牛的內(nèi)容都是我干的闰靴。 我是一名探鬼主播,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼钻注,長吁一口氣:“原來是場噩夢啊……” “哼蚂且!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起幅恋,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤杏死,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體淑翼,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡腐巢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了窒舟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片系忙。...
    茶點(diǎn)故事閱讀 39,696評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖惠豺,靈堂內(nèi)的尸體忽然破棺而出银还,到底是詐尸還是另有隱情洁墙,我是刑警寧澤热监,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站寞钥,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏您炉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一囱晴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧论笔,春花似錦、人聲如沸最楷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至嗦随,卻和暖如春肌毅,著一層夾襖步出監(jiān)牢的瞬間呜舒,已是汗流浹背袭蝗。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工乡范, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留渠脉,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓贴彼,卻偏偏與公主長得像融涣,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容