像前言部分說的一樣,我們是通過數(shù)據(jù)所承擔(dān)的角色來區(qū)分統(tǒng)計建模循未、經(jīng)典機(jī)器學(xué)習(xí)和現(xiàn)代機(jī)器學(xué)習(xí)吃嘿。
在統(tǒng)計建模里面钳枕,數(shù)據(jù)引導(dǎo)我們?nèi)ミx擇隨機(jī)模型最仑,來形成對不同問題概率的抽象表達(dá)藐俺,例如假設(shè)、預(yù)測和預(yù)報泥彤,我們關(guān)心的是模型欲芹,模型值錢。
在經(jīng)典機(jī)器學(xué)習(xí)里吟吝,數(shù)據(jù)驅(qū)動的是對分析技術(shù)的選擇耀石,如何最佳地執(zhí)行即將任務(wù),這是數(shù)據(jù)訓(xùn)練算法爸黄。在現(xiàn)代機(jī)器學(xué)習(xí)里滞伟,數(shù)據(jù)驅(qū)動基于神經(jīng)網(wǎng)絡(luò)算法的系統(tǒng),去學(xué)習(xí)具體任務(wù)炕贵,系統(tǒng)可以自動判定數(shù)據(jù)常量規(guī)則梆奈。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)的過程中,系統(tǒng)逐漸學(xué)習(xí)到執(zhí)行任務(wù)称开,就像某人所說:“是數(shù)據(jù)在做編程亩钟。” 所以, 數(shù)據(jù)對機(jī)器學(xué)習(xí)是非常重要的,數(shù)據(jù)很值錢鳖轰。訓(xùn)練或者說算法的迭代更新需要大量的優(yōu)質(zhì)的數(shù)據(jù),這也是為什么現(xiàn)在很多的云計算公司現(xiàn)在紛紛在世界各地?fù)尳〝?shù)據(jù)中心的原因,阿里巴巴今年在東南亞就擴(kuò)建了三個數(shù)據(jù)中心,微軟計劃在中國擴(kuò)建數(shù)據(jù)中心清酥,百家號晚安瓦爾登湖有篇文章-“中國的云計算和數(shù)字經(jīng)濟(jì)”是關(guān)于這個的,感興趣的讀者可以去看看蕴侣。
所以統(tǒng)計建模,就是給了數(shù)據(jù),建立模型,再對將來進(jìn)行預(yù)測焰轻。那么如果現(xiàn)在有兩組數(shù)據(jù), x和y, 想找到x和y之間的相關(guān)的關(guān)系,最簡單的模型就是線性的模型昆雀,也就是線性回歸(linear regression 或者說 regression line)辱志。
先來看看一元的線性回歸 (Single variable linear regression analysis)
一元線性回歸是分析只有一個自變量(自變量x和因變量y)線性相關(guān)關(guān)系的方法蝠筑。一個指標(biāo)的數(shù)值往往受許多因素影響,若其中只有一個因素是主要的揩懒,起決定性作用什乙,則可用一元線性回歸進(jìn)行預(yù)測分析。
回歸這一術(shù)語最早來源于生物遺傳學(xué)已球,由弗朗西斯·高爾頓(Francis Galton)引入臣镣,這個人是個天才。3歲時會簽名智亮,4歲能寫詩退疫,5歲時能背誦并理解蘇格蘭敘事詩《馬米翁》,6歲時鸽素,已精熟荷馬史詩中的《伊利亞特》和《奧德賽》褒繁,7歲能欣賞莎士比亞名著,并按自己的方法對昆蟲馍忽、礦物標(biāo)本進(jìn)行分類棒坏。他學(xué)術(shù)研究興趣廣泛,包括人類學(xué)遭笋、地理坝冕、數(shù)學(xué)、力學(xué)瓦呼、氣象學(xué)喂窟、心理學(xué)、統(tǒng)計學(xué)等方面央串。另外磨澡,他是達(dá)爾文(提出進(jìn)化論)的表弟。感興趣的讀者可以自己再找找資料质和。
回歸的定義:回歸分析是研究某一變量(自變量)與另一個或多個變量之間的依存關(guān)系稳摄,用解釋變量的已知值或固定值來估計或預(yù)測因變量的總體平均值??,簡單的說就是饲宿,y=kx+b, 其中k是未知的系數(shù)厦酬,b是截距悯许。
最經(jīng)典的一元回歸例子是是高爾頓提出的陪汽,在已知父親身高的情況下,兒子的身高的平均變化如何重归。換句話說国夜,就是已知父親身高來預(yù)測兒子的平均身高减噪。(這個例子,高爾頓當(dāng)時的興趣不是線性回歸,而是在于尋找為什么人群的總體身高分布趨向穩(wěn)定)
--------------------------------------------------------------------------------------------------------
No.? ? ? ? ? ? ? ? ? ? ? ? ? ? 1? ? ? ? ? ? 2? ? ? ? ?3? ? ? ?4? ? ? ?5? ? ? ?6? ? ? 7? ? ? 8? ? ? 9? ? ? 10
--------------------------------------------------------------------------------------------------------
Height of fathers(x)? ? ?60? ? ? 62? ? ?64? ? 65? ? 66? ?67? ? 68? ? 70? ?72? 74
Height of sons (y)? ? ? 63.6? ? 65.5? ? 66? ? ?65.6? 66.9? 67.1? ?67.4? ?63.3? 70.1? 70
---------------------------------------------------------------------------------------------------------
這里的x是父親的身高旋廷,y是兒子的身高鸠按。我們要找y=kx+b中的k和b礼搁。目的:已知父親的身高x饶碘,利用這個線性的模型可以預(yù)測兒子的身高y。
計算斜率和截距
我們先要計算x,y的均值和方差馒吴。上面的身高的數(shù)據(jù)集里,均值E(x)66.8, E(y)=6.55, 方差var(x)=19.0667, var(y)=5.25, 標(biāo)準(zhǔn)差s_x=4.336, ,s_y=2.29,r=0.62扎运。
我們得到回歸方程的斜率是k=r*s_y/s_x=0.3257, 截距是b=E(y)-k*E(x)=44.7933, 擬合結(jié)果見下圖左邊的是身高的例子。
第二個是交通事故的例子饮戳,x是每個州的人口豪治,y是交通事故發(fā)生的次數(shù)。用上面相同的方法來計算斜率和截距扯罐,右邊的圖是擬合的結(jié)果负拟。
在這里,高斯嚴(yán)格證明了這樣計算的斜率和截距決定的直線可以讓擬合(fitting)的均方誤差(MSE,mean square error)的值最小歹河。這個證明我們之后會給出來掩浙。
接下來是要看看擬合的殘差,也就是通常我們說的線性回歸模型的殘差檢驗(yàn)秸歧。
我們首先要做幾個假定厨姚。
1 線性假定:X與Y之間的關(guān)系是線性的
2 獨(dú)立性假定:對于一個特定的x,它所對應(yīng)的殘差與其它x所對應(yīng)的殘差相互獨(dú)立
3 正態(tài)假定:殘差服從期望為0的一個正態(tài)分布
4 同方差假定:對于所有的x键菱,殘差的方差都是相同的
殘差檢驗(yàn)的基本步驟
1 線性關(guān)系的檢驗(yàn)? 看殘差圖:橫軸自變量谬墙,縱軸殘差
2 獨(dú)立性假定檢驗(yàn)? 跟上面一樣畫個殘差圖,如果圖上顯示的帶有曲線的味道经备,那就非獨(dú)立拭抬。
3 正態(tài)性假定檢驗(yàn)? 看QQ圖
4 同方差假定檢驗(yàn)??畫散點(diǎn)圖,如果不是水平線上侵蒙,那就是異方差
在做線性回歸分析殘差檢驗(yàn)中玖喘,兩個圖最重要,殘差圖和QQ圖蘑志。目的就是測量是否滿足線性回歸模型的假定累奈。
下面是身高例子的殘差圖和QQ圖:
接下來是回歸的顯著性檢驗(yàn)。
回歸系數(shù)顯著性檢驗(yàn)(significant test of regression coefficients)是對于線性回歸模型y=b0+b_1x_1 +…+b_px_p(i=1.….n)急但,檢驗(yàn)一個或幾個回歸系數(shù)組成的系數(shù)向量b對于響應(yīng)變量是否有顯著影響的方法澎媒。
回歸方程的檢驗(yàn)用F檢驗(yàn),回歸系數(shù)的檢驗(yàn)用t檢驗(yàn)波桩。
建立回歸方程之后戒努,回歸的效果如何呢?因變量和自變量之間是否確實(shí)存在線性關(guān)系呢?這需要我們進(jìn)行統(tǒng)計檢驗(yàn)才能加以肯定或者否定储玫。
我們定義總的里離差平方和為s_yy=U+Q=sum(y_i-E(y))^2=sum(y_i-hat(y))^2+sum(hat(y)-y_i)^2,其中第一項U是回歸平方和侍筛,是自變量的變化引起的因變量的波動,自由度是m撒穷;第二項Q是剩余平方和匣椰,是試驗(yàn)誤差和其他因素引起的,自由度是n-m-1.總的離差平方和的自由度是n-1.
如果觀測值給定了,總的離差平方和是確定的端礼,U+Q確定了禽笑,U大Q小,U小Q大蛤奥,所以兩者都可以用來衡量回歸的效果佳镜。
復(fù)相關(guān)系數(shù)也可以用來檢驗(yàn)總的回歸的效果,R=U/s_yy=(s_yy-Q)/s_yy.
要檢驗(yàn)y和x是否有線性關(guān)系凡桥,就要檢驗(yàn)假設(shè)H0:系數(shù)k=0是否成立蟀伸。如果成立,那么x,y沒有線性關(guān)系缅刽,否則有啊掏。用F統(tǒng)計量,F(xiàn)=U/m/(Q/(n-m-1)),這是兩個方差之比拷恨,服從自由度m,n-m-1的F分布脖律。在給定檢驗(yàn)水平下,P(F<=F_\alpha)=1-\alpha腕侄, 對于給定的置信度\alpha,F分布表可以查F_\alpha的值小泉。利用F檢驗(yàn)對回歸方程進(jìn)行顯著性檢驗(yàn)的方法為方差分析。
回歸系數(shù)的檢驗(yàn)t檢驗(yàn)針對的是多元線性回歸冕杠。
F檢驗(yàn)是看回歸方程中全部自變量的總體回歸效果微姊,但是總體的回歸效果不能說明每個自變量對因變量都是重要的。檢驗(yàn)每個自變量是否顯著就是要檢驗(yàn)假設(shè)分预,H0:k_i=0 (i=1....m)是否成立兢交。
統(tǒng)計量t=b_i/\sqrt(c_ii)/(\sqrt(Q/(n-m-1)), 也可以用F檢驗(yàn)。
上面我們在講的是一元的線性回歸笼痹,下面我們來講講多元的線性回歸配喳。