一元線性回歸-linear regression(1)

像前言部分說的一樣,我們是通過數(shù)據(jù)所承擔(dān)的角色來區(qū)分統(tǒng)計建模循未、經(jīng)典機(jī)器學(xué)習(xí)和現(xiàn)代機(jī)器學(xué)習(xí)吃嘿。

在統(tǒng)計建模里面钳枕,數(shù)據(jù)引導(dǎo)我們?nèi)ミx擇隨機(jī)模型最仑,來形成對不同問題概率的抽象表達(dá)藐俺,例如假設(shè)、預(yù)測和預(yù)報泥彤,我們關(guān)心的是模型欲芹,模型值錢。

在經(jīng)典機(jī)器學(xué)習(xí)里吟吝,數(shù)據(jù)驅(qū)動的是對分析技術(shù)的選擇耀石,如何最佳地執(zhí)行即將任務(wù),這是數(shù)據(jù)訓(xùn)練算法爸黄。在現(xiàn)代機(jī)器學(xué)習(xí)里滞伟,數(shù)據(jù)驅(qū)動基于神經(jīng)網(wǎng)絡(luò)算法的系統(tǒng),去學(xué)習(xí)具體任務(wù)炕贵,系統(tǒng)可以自動判定數(shù)據(jù)常量規(guī)則梆奈。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)的過程中,系統(tǒng)逐漸學(xué)習(xí)到執(zhí)行任務(wù)称开,就像某人所說:“是數(shù)據(jù)在做編程亩钟。” 所以, 數(shù)據(jù)對機(jī)器學(xué)習(xí)是非常重要的,數(shù)據(jù)很值錢鳖轰。訓(xùn)練或者說算法的迭代更新需要大量的優(yōu)質(zhì)的數(shù)據(jù),這也是為什么現(xiàn)在很多的云計算公司現(xiàn)在紛紛在世界各地?fù)尳〝?shù)據(jù)中心的原因,阿里巴巴今年在東南亞就擴(kuò)建了三個數(shù)據(jù)中心,微軟計劃在中國擴(kuò)建數(shù)據(jù)中心清酥,百家號晚安瓦爾登湖有篇文章-“中國的云計算和數(shù)字經(jīng)濟(jì)”是關(guān)于這個的,感興趣的讀者可以去看看蕴侣。



所以統(tǒng)計建模,就是給了數(shù)據(jù),建立模型,再對將來進(jìn)行預(yù)測焰轻。那么如果現(xiàn)在有兩組數(shù)據(jù), x和y, 想找到x和y之間的相關(guān)的關(guān)系,最簡單的模型就是線性的模型昆雀,也就是線性回歸(linear regression 或者說 regression line)辱志。

先來看看一元的線性回歸 (Single variable linear regression analysis)

一元線性回歸是分析只有一個自變量(自變量x和因變量y)線性相關(guān)關(guān)系的方法蝠筑。一個指標(biāo)的數(shù)值往往受許多因素影響,若其中只有一個因素是主要的揩懒,起決定性作用什乙,則可用一元線性回歸進(jìn)行預(yù)測分析。

回歸這一術(shù)語最早來源于生物遺傳學(xué)已球,由弗朗西斯·高爾頓(Francis Galton)引入臣镣,這個人是個天才。3歲時會簽名智亮,4歲能寫詩退疫,5歲時能背誦并理解蘇格蘭敘事詩《馬米翁》,6歲時鸽素,已精熟荷馬史詩中的《伊利亞特》和《奧德賽》褒繁,7歲能欣賞莎士比亞名著,并按自己的方法對昆蟲馍忽、礦物標(biāo)本進(jìn)行分類棒坏。他學(xué)術(shù)研究興趣廣泛,包括人類學(xué)遭笋、地理坝冕、數(shù)學(xué)、力學(xué)瓦呼、氣象學(xué)喂窟、心理學(xué)、統(tǒng)計學(xué)等方面央串。另外磨澡,他是達(dá)爾文(提出進(jìn)化論)的表弟。感興趣的讀者可以自己再找找資料质和。

回歸的定義:回歸分析是研究某一變量(自變量)與另一個或多個變量之間的依存關(guān)系稳摄,用解釋變量的已知值或固定值來估計或預(yù)測因變量的總體平均值??,簡單的說就是饲宿,y=kx+b, 其中k是未知的系數(shù)厦酬,b是截距悯许。

最經(jīng)典的一元回歸例子是是高爾頓提出的陪汽,在已知父親身高的情況下,兒子的身高的平均變化如何重归。換句話說国夜,就是已知父親身高來預(yù)測兒子的平均身高减噪。(這個例子,高爾頓當(dāng)時的興趣不是線性回歸,而是在于尋找為什么人群的總體身高分布趨向穩(wěn)定)

--------------------------------------------------------------------------------------------------------

No.? ? ? ? ? ? ? ? ? ? ? ? ? ? 1? ? ? ? ? ? 2? ? ? ? ?3? ? ? ?4? ? ? ?5? ? ? ?6? ? ? 7? ? ? 8? ? ? 9? ? ? 10

--------------------------------------------------------------------------------------------------------

Height of fathers(x)? ? ?60? ? ? 62? ? ?64? ? 65? ? 66? ?67? ? 68? ? 70? ?72? 74

Height of sons (y)? ? ? 63.6? ? 65.5? ? 66? ? ?65.6? 66.9? 67.1? ?67.4? ?63.3? 70.1? 70

---------------------------------------------------------------------------------------------------------

這里的x是父親的身高旋廷,y是兒子的身高鸠按。我們要找y=kx+b中的k和b礼搁。目的:已知父親的身高x饶碘,利用這個線性的模型可以預(yù)測兒子的身高y。

計算斜率和截距

我們先要計算x,y的均值和方差馒吴。上面的身高的數(shù)據(jù)集里,均值E(x)=66.8, E(y)=6.55, 方差var(x)=19.0667, var(y)=5.25, 標(biāo)準(zhǔn)差s_x=4.336, ,s_y=2.29,r=0.62扎运。

我們得到回歸方程的斜率是k=r*s_y/s_x=0.3257, 截距是b=E(y)-k*E(x)=44.7933, 擬合結(jié)果見下圖左邊的是身高的例子。

第二個是交通事故的例子饮戳,x是每個州的人口豪治,y是交通事故發(fā)生的次數(shù)。用上面相同的方法來計算斜率和截距扯罐,右邊的圖是擬合的結(jié)果负拟。


 在這里,高斯嚴(yán)格證明了這樣計算的斜率和截距決定的直線可以讓擬合(fitting)的均方誤差(MSE,mean square error)的值最小歹河。這個證明我們之后會給出來掩浙。

接下來是要看看擬合的殘差,也就是通常我們說的線性回歸模型的殘差檢驗(yàn)秸歧。

我們首先要做幾個假定厨姚。

1 線性假定:X與Y之間的關(guān)系是線性的

2 獨(dú)立性假定:對于一個特定的x,它所對應(yīng)的殘差與其它x所對應(yīng)的殘差相互獨(dú)立

3 正態(tài)假定:殘差服從期望為0的一個正態(tài)分布

4 同方差假定:對于所有的x键菱,殘差的方差都是相同的

殘差檢驗(yàn)的基本步驟

1 線性關(guān)系的檢驗(yàn)? 看殘差圖:橫軸自變量谬墙,縱軸殘差

2 獨(dú)立性假定檢驗(yàn)? 跟上面一樣畫個殘差圖,如果圖上顯示的帶有曲線的味道经备,那就非獨(dú)立拭抬。

3 正態(tài)性假定檢驗(yàn)? 看QQ圖

4 同方差假定檢驗(yàn)??畫散點(diǎn)圖,如果不是水平線上侵蒙,那就是異方差

在做線性回歸分析殘差檢驗(yàn)中玖喘,兩個圖最重要,殘差圖和QQ圖蘑志。目的就是測量是否滿足線性回歸模型的假定累奈。

下面是身高例子的殘差圖和QQ圖:


接下來是回歸的顯著性檢驗(yàn)。

回歸系數(shù)顯著性檢驗(yàn)(significant test of regression coefficients)是對于線性回歸模型y=b0+b_1x_1 +…+b_px_p(i=1.….n)急但,檢驗(yàn)一個或幾個回歸系數(shù)組成的系數(shù)向量b對于響應(yīng)變量是否有顯著影響的方法澎媒。

回歸方程的檢驗(yàn)用F檢驗(yàn),回歸系數(shù)的檢驗(yàn)用t檢驗(yàn)波桩。

建立回歸方程之后戒努,回歸的效果如何呢?因變量和自變量之間是否確實(shí)存在線性關(guān)系呢?這需要我們進(jìn)行統(tǒng)計檢驗(yàn)才能加以肯定或者否定储玫。

我們定義總的里離差平方和為s_yy=U+Q=sum(y_i-E(y))^2=sum(y_i-hat(y))^2+sum(hat(y)-y_i)^2,其中第一項U是回歸平方和侍筛,是自變量的變化引起的因變量的波動,自由度是m撒穷;第二項Q是剩余平方和匣椰,是試驗(yàn)誤差和其他因素引起的,自由度是n-m-1.總的離差平方和的自由度是n-1.

如果觀測值給定了,總的離差平方和是確定的端礼,U+Q確定了禽笑,U大Q小,U小Q大蛤奥,所以兩者都可以用來衡量回歸的效果佳镜。

復(fù)相關(guān)系數(shù)也可以用來檢驗(yàn)總的回歸的效果,R=U/s_yy=(s_yy-Q)/s_yy.

要檢驗(yàn)y和x是否有線性關(guān)系凡桥,就要檢驗(yàn)假設(shè)H0:系數(shù)k=0是否成立蟀伸。如果成立,那么x,y沒有線性關(guān)系缅刽,否則有啊掏。用F統(tǒng)計量,F(xiàn)=U/m/(Q/(n-m-1)),這是兩個方差之比拷恨,服從自由度m,n-m-1的F分布脖律。在給定檢驗(yàn)水平下,P(F<=F_\alpha)=1-\alpha腕侄, 對于給定的置信度\alpha,F分布表可以查F_\alpha的值小泉。利用F檢驗(yàn)對回歸方程進(jìn)行顯著性檢驗(yàn)的方法為方差分析。

回歸系數(shù)的檢驗(yàn)t檢驗(yàn)針對的是多元線性回歸冕杠。

F檢驗(yàn)是看回歸方程中全部自變量的總體回歸效果微姊,但是總體的回歸效果不能說明每個自變量對因變量都是重要的。檢驗(yàn)每個自變量是否顯著就是要檢驗(yàn)假設(shè)分预,H0:k_i=0 (i=1....m)是否成立兢交。

統(tǒng)計量t=b_i/\sqrt(c_ii)/(\sqrt(Q/(n-m-1)), 也可以用F檢驗(yàn)。

上面我們在講的是一元的線性回歸笼痹,下面我們來講講多元的線性回歸配喳。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市凳干,隨后出現(xiàn)的幾起案子晴裹,更是在濱河造成了極大的恐慌,老刑警劉巖救赐,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涧团,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)泌绣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進(jìn)店門钮追,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人阿迈,你說我怎么就攤上這事元媚。” “怎么了仿滔?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵惠毁,是天一觀的道長犹芹。 經(jīng)常有香客問我崎页,道長,這世上最難降的妖魔是什么腰埂? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任飒焦,我火速辦了婚禮,結(jié)果婚禮上屿笼,老公的妹妹穿的比我還像新娘牺荠。我一直安慰自己,他們只是感情好驴一,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布休雌。 她就那樣靜靜地躺著,像睡著了一般肝断。 火紅的嫁衣襯著肌膚如雪杈曲。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天胸懈,我揣著相機(jī)與錄音担扑,去河邊找鬼。 笑死趣钱,一個胖子當(dāng)著我的面吹牛涌献,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播首有,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼燕垃,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了井联?” 一聲冷哼從身側(cè)響起卜壕,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎低矮,沒想到半個月后印叁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年轮蜕,在試婚紗的時候發(fā)現(xiàn)自己被綠了昨悼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,764評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡跃洛,死狀恐怖率触,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情汇竭,我是刑警寧澤葱蝗,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站细燎,受9級特大地震影響两曼,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜玻驻,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一悼凑、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧璧瞬,春花似錦户辫、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至瘟忱,卻和暖如春奥额,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背酷誓。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工披坏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人盐数。 一個月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓棒拂,卻偏偏與公主長得像,于是被迫代替她去往敵國和親玫氢。 傳聞我的和親對象是個殘疾皇子帚屉,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評論 2 354

推薦閱讀更多精彩內(nèi)容