差不多2月左右,沖假的緣故休得特別多婚肆,又正好碰到統(tǒng)計(jì)上無(wú)法解決的問(wèn)題租副,于是本人也很有野心的列了一張清單,幾月的時(shí)候要看完哪些書(shū)目较性、做點(diǎn)小研究用僧、整理一些心得什么的,不過(guò)就像許多人每年的「夢(mèng)想板」赞咙,寫(xiě)爽的成分比較多…责循,趁著空檔,終于趕在開(kāi)工前夕把ptt上也常有推薦的經(jīng)典譯作攀操, Neter原著的「應(yīng)用線(xiàn)性回歸模型」掃完院仿,再加上看了一部分的「類(lèi)別資料分析導(dǎo)論」,穿插著幾本統(tǒng)計(jì)小書(shū)速和,一時(shí)恐怕是整理不完了歹垫。
我們準(zhǔn)備來(lái)談?wù)劵貧w分析(回歸分析?)的本質(zhì)以及它的歷史軼事,但無(wú)論如何颠放,一窺回歸分析的堂奧之前县钥,還是有些觀(guān)念需要先建立起來(lái)。
為何這么麻煩慈迈?把方法完整巡游一遍后若贮,回頭探討基本結(jié)構(gòu)是很有好處的,像是出國(guó)旅行痒留,人生地不熟的時(shí)候谴麦,常常只能跟著人潮與旅行團(tuán)規(guī)劃走,但熟練的旅行者伸头,會(huì)鉆進(jìn)街巷之中匾效,尋找連結(jié)著城市各處的最短途徑以及稍縱即逝的美麗風(fēng)景。
首先恤磷,故事從這里開(kāi)始:回歸是什么面哼?
統(tǒng)計(jì)回歸模型( Regression )的起源:天才可以無(wú)限制地被遺傳下去嗎野宜?
時(shí)空來(lái)到好久好久以前,英國(guó)的達(dá)爾文(對(duì)魔策,就是那個(gè)達(dá)爾文)有個(gè)謠傳智商高達(dá)200的天才表弟叫Galton 匈子, Galton是個(gè)驚人的另類(lèi)科學(xué)家,雖不是正統(tǒng)的學(xué)院學(xué)者闯袒,卻出版了數(shù)以百計(jì)的書(shū)籍與論文虎敦,領(lǐng)域之廣幾乎無(wú)所不包,被尊稱(chēng)為「 Victorian Polymath 」政敢。
Galton 身為偉大的達(dá)爾文的表弟其徙,不意外地,他對(duì)遺傳學(xué)也很有心得喷户,并首創(chuàng)了優(yōu)生學(xué)( Eugenics )用詞唾那。由于出身銀行業(yè)兼軍火商的家族, Galton 幸運(yùn)地得以任意從事他喜愛(ài)的探險(xiǎn)與科學(xué)活動(dòng)褪尝,在1880 中期到1890 年代這段時(shí)間通贞, Galton 找來(lái)了一群人做了各種人體特征的紀(jì)錄,他得到兩個(gè)心得:
第一恼五,有兩隨機(jī)變數(shù)X 昌罩、 Y ,當(dāng)其中一者的改變多少受到另一方的影響時(shí)灾馒,必然存在同時(shí)作用于此二者的因素茎用,將這種關(guān)系定義為「有相關(guān)」,反之則為獨(dú)立睬罗。
第二轨功,當(dāng)時(shí)人類(lèi)遺傳學(xué)開(kāi)始相信優(yōu)勢(shì)是可以遺傳給后代的,但是會(huì)不會(huì)持續(xù)下去則是未證實(shí)的疑問(wèn)容达,譬如身高都很高的夫妻古涧,是否會(huì)生下更高的兒女?
Galton 發(fā)現(xiàn)花盐,父母特征的確會(huì)遺傳給后代羡滑,但是并不會(huì)產(chǎn)生極端身高的族群。當(dāng)父母的身高已經(jīng)遠(yuǎn)離平均身高時(shí)算芯,生下的兒女身高并沒(méi)有持續(xù)「遠(yuǎn)離」平均柒昏,而會(huì)稍微「靠近」平均,也就是相對(duì)矮了一點(diǎn)熙揍;反之父母身高很矮的后代职祷,身高會(huì)相對(duì)其父母「靠近」平均一點(diǎn)。
當(dāng)然雙親身高都很高的后代,比起雙親身高都很矮的后代有梆,還是相對(duì)較高的是尖,不過(guò)差距并未一直增加,反而會(huì)持續(xù)減少泥耀。
Galton把這個(gè)「極端」往「平均」移動(dòng)的現(xiàn)象稱(chēng)為「 regression to the mean 」饺汹。用東方人的說(shuō)法,就是「物極必反」爆袍,至于「極物」將「反向」何方?
Galton 說(shuō)作郭,這個(gè)答案就叫「平均數(shù)」陨囊。
Galton的第一項(xiàng)發(fā)現(xiàn)「相關(guān)系數(shù)r」,后來(lái)由另一位在統(tǒng)計(jì)史上名氣鼎盛的Karl Pearson推導(dǎo)出線(xiàn)性通則夹攒,該式又名「Pearson積差相關(guān)系數(shù)」蜘醋。
晚年的Galton與Pearson及Weldon關(guān)系相當(dāng)好,不僅是研究伙伴咏尝,也資助二人創(chuàng)辦了至今影響力仍巨的生物統(tǒng)計(jì)期刊《 Biometrika 》压语,在Galton的支持下,早期的《 Biometrika 》皆以超水準(zhǔn)的規(guī)格發(fā)行编检,讓該刊知名度大開(kāi)胎食, Galton過(guò)世以后也是由Pearson親自為其整理傳記。
Pearson的介紹允懂,可參閱《卡方檢定ON THE CROSS:PEARSON, YATES AND FISHER 》厕怜。
回歸分析概念的視覺(jué)化
Galton 的回歸概念,被逐漸補(bǔ)充蕾总、擴(kuò)大粥航,變得越來(lái)越完整,現(xiàn)在回歸已是一個(gè)意義廣泛的用詞生百,更好的說(shuō)法是「回歸模型」递雀,在這個(gè)模型底下包含了許多用以解釋、判斷蚀浆、修正的諸多內(nèi)容缀程,若要產(chǎn)生一個(gè)「真正正確而有用」的模型所需的知識(shí)量,只看入門(mén)教科書(shū)絕對(duì)是不夠的市俊。
從模型整合的角度出發(fā)杠输,所有回歸都具有三個(gè)基本要件:
1. 系統(tǒng)成分( Systematic Component )
2. 隨機(jī)成分( Random Component )
3. 連結(jié)函數(shù)( Link Function )
系統(tǒng)成分是給定的回歸中,用來(lái)解釋研究現(xiàn)象的元素秕衙,隨機(jī)成分則是研究希望討論的「未知」的現(xiàn)象蠢甲。而「連結(jié)」就是描述系統(tǒng)成分與隨機(jī)成分兩者之間關(guān)系的函數(shù)。
從文字定義似乎不易理解「回歸」是什么据忘,由圖入手或許清楚得多鹦牛,以下利用某地區(qū)房屋「坪數(shù)X 」對(duì)應(yīng)「房?jī)r(jià)(單位:千萬(wàn)) Y 」的簡(jiǎn)回歸( Simple Regression )范例說(shuō)明之:
圖中的圓點(diǎn)搞糕,是抽樣的資料點(diǎn),貫穿其中的直線(xiàn)曼追,則是「回歸直線(xiàn)」窍仰,回歸直線(xiàn)的意義即是Galton 所謂的「平均」。殘差e31 礼殊、 e33 分別表示第31 驹吮、 33 個(gè)資料點(diǎn)與平均線(xiàn)的差異,其余以此類(lèi)推晶伦。其中碟狞,「坪數(shù)X 」就是系統(tǒng)成分,而「房?jī)r(jià)Y 」則是隨機(jī)成分婚陪,對(duì)一個(gè)簡(jiǎn)單直線(xiàn)回歸族沃,連結(jié)函數(shù)就是線(xiàn)性方程式。
由于「回歸到平均」的性質(zhì)泌参,觀(guān)察回歸直線(xiàn)與資料點(diǎn)的距離脆淹,即可推估該資料的一些特性,掌握這些數(shù)學(xué)特性沽一,可以幫助我們做幾件事:
1.可推估某資料點(diǎn)是否為「離群的極端值」盖溺。
2.可計(jì)算自變數(shù)X 與應(yīng)變數(shù)Y 的相關(guān)性。
3.根據(jù)上述的相關(guān)性铣缠,可描述資料集的發(fā)展趨勢(shì)咐柜。
4.拓展到擁有多個(gè)預(yù)測(cè)變數(shù)X 的「復(fù)回歸」,可分析多個(gè)自變數(shù)與應(yīng)變數(shù)的互動(dòng)攘残。
5.可大膽預(yù)測(cè)「資料集之外(括號(hào)外的部份)」的資訊拙友,對(duì)應(yīng)變數(shù)的可能影響。
例圖用的是「線(xiàn)性回歸」歼郭,然而回歸用以描述自變數(shù)與應(yīng)變數(shù)關(guān)系的函數(shù)不只有直線(xiàn)而已遗契,二次或三次以上曲線(xiàn)、指數(shù)病曾、對(duì)數(shù)牍蜂、分段都是可行的方式,這也衍生出各種回歸問(wèn)題泰涂。
回歸分析的公式化與殘差
以最普遍的直線(xiàn)回歸為例鲫竞,典型的線(xiàn)性回歸式如下:
此式稱(chēng)為「母體回歸直線(xiàn)」,是描述「真實(shí)未知情況」的完美配適逼蒙。但是因?yàn)橥暾踊妗⒄_的普查在多數(shù)情況下幾乎是不可行的,因此沒(méi)人知道「真實(shí)情況」究竟是如何,退而求其次僵井,統(tǒng)計(jì)學(xué)容忍些許錯(cuò)誤的可能性陕截,改以抽樣資料推算真實(shí)的大概樣貌。
樣本回歸直線(xiàn)因此誕生:
回歸式中的「殘差( Residual )」描述「觀(guān)察資料Yi 」與「配適結(jié)果Yi-hat 」的差異批什,殘差越小农曲,代表模型的配適越接近觀(guān)察資料,假如可證明觀(guān)察資料之于真實(shí)情況具有代表性驻债,就可利用配適結(jié)果對(duì)真實(shí)情況的良好描述進(jìn)行有用的統(tǒng)計(jì)推論乳规。
可以想像,對(duì)一個(gè)良好模型合呐,其模型殘差的期望值E( ei )應(yīng)該要等于0暮的。
殘差的實(shí)際用法,改天再討論合砂,本文僅著重于殘差與模型的關(guān)系描述青扔。
在一般的直線(xiàn)回歸中源织,殘差的假設(shè)為:
有趣的是翩伪,其中殘差的常態(tài)假設(shè)并非必要,雖然假設(shè)殘差服從常態(tài)分配對(duì)很多人而言可能是理所當(dāng)然的…谈息,一些作者直接就把它寫(xiě)成基本假設(shè)缘屹,雖沒(méi)有大問(wèn)題卻沒(méi)交代清楚,其實(shí)還是有一點(diǎn)細(xì)微差別的侠仇。
先來(lái)看看為何殘差不必要是常態(tài)分配轻姿?
根據(jù)高斯-馬可夫定理( Gauss-Markov Theorem ),以「最小平方法( Least Squares Method )」計(jì)算線(xiàn)性回歸參數(shù)b0 逻炊、 bi將有「最佳線(xiàn)性不偏估計(jì)量( BLUE 互亮, Best Linear Unbiased Estimator )」性質(zhì)的前提,要求殘差符合以下條件:
1. 殘差期望值為0 余素。
2. 殘差具有同質(zhì)變異豹休,變異數(shù)為一固定常數(shù)。
3.殘差間沒(méi)有自相關(guān)( Autocorrelation )桨吊。
4.自變數(shù)與殘差無(wú)關(guān)威根,即「正交性( Orthogonality )」。
發(fā)現(xiàn)了嗎视乐?最小平方法下的殘差其實(shí)是不需要常態(tài)假設(shè)的洛搀。關(guān)于回歸系數(shù)的最小平方估計(jì),可參閱《一場(chǎng)關(guān)于猜的魔術(shù):統(tǒng)計(jì)估計(jì)的形成》佑淀。
統(tǒng)計(jì)回歸分析與常態(tài)分配的關(guān)系
回到回歸分析的主題上留美,針對(duì)殘差假設(shè)為常態(tài)分配的意義有三:
第一,回歸是需要相對(duì)大樣本才較有意義的方法,特別是多元變數(shù)的復(fù)回歸独榴,對(duì)樣本的需求量很大僧叉,很自然會(huì)符合中央極限定理。實(shí)務(wù)上棺榔,筆者會(huì)建議300-500 個(gè)樣本或是更多時(shí)才適用瓶堕。
第二,統(tǒng)計(jì)推論常見(jiàn)的Z 症歇、 T 郎笆、 Chi-squared 、F基本上都是跟常態(tài)的機(jī)率分布性質(zhì)( Normal Distribution )有關(guān)忘晤,光是有殘差宛蚓,要是無(wú)法對(duì)殘差進(jìn)行推論也是不夠力的。
第三设塔,系數(shù)檢定用的T 分配及類(lèi)T 統(tǒng)計(jì)量都是對(duì)偏離常態(tài)不太敏感的統(tǒng)計(jì)量凄吏,因?yàn)樗鼈儽旧砭褪浅B(tài)Z 統(tǒng)計(jì)量的近似,因此近似又近似的結(jié)果就是闰蛔,除非是殘差真實(shí)分配遠(yuǎn)離常態(tài)痕钢,不然影響非常有限。在稍大的樣本條件下更是如此(理由同第一點(diǎn))序六。
那有沒(méi)有殘差不為常態(tài)的回歸模型范例任连?
有的,像Logistic回歸式就沒(méi)有殘差的假設(shè)例诀,因?yàn)椤父緵](méi)有殘差」随抠,那是因?yàn)橥茖?dǎo)中代換掉的關(guān)系,有機(jī)會(huì)再來(lái)談繁涂。
回到殘差的分配對(duì)模型的影響上拱她,記得常態(tài)分配具有「水平位移」的特性嗎?
對(duì)模型:
由此可知扔罪,當(dāng)假定殘差服從常態(tài)分配時(shí)秉沼,其實(shí)也就等于假定Y將服從常態(tài)分配,期望值E( Y )= b0 + biX +… bkX 步势,變異數(shù)與殘差相同氧猬。
應(yīng)該有人看過(guò)教科書(shū)這么說(shuō):對(duì)Y 而言,假設(shè)其為常態(tài)分配…坏瘩,理由可以從這里找到盅抚。
在回歸里,殘差變異數(shù)的估計(jì)量數(shù)是MSE ( Mean Squared Error )倔矾,因此回歸線(xiàn)的變異數(shù)也等于MSE 妄均,記得以前做專(zhuān)題還看過(guò)一個(gè)很爛的翻譯叫做「均方差」…柱锹,天啊,什么東西丰包?
假如你也被書(shū)中一下子說(shuō)殘差變異數(shù)禁熏、一下子說(shuō)模型變異數(shù)、一下子均方差搞得糊里糊涂邑彪,那么現(xiàn)在應(yīng)該松一口氣了琳要,因?yàn)槎际峭患隆?/p>
所以一般說(shuō)的直線(xiàn)回歸究竟是不是常態(tài)的方法顿仇?
某個(gè)程度上視你從什么角度切入撞牢°九基本上,回歸的分配取決于殘差的假設(shè)有巧,而XY對(duì)應(yīng)關(guān)系則決定回歸的函數(shù)形式释漆。在上述的直線(xiàn)模型中,假如只有一個(gè)自變項(xiàng)篮迎,通常稱(chēng)為簡(jiǎn)回歸或簡(jiǎn)單直線(xiàn)回歸( Simple Regression )男图,同時(shí)存在多個(gè)自變項(xiàng)的情形,稱(chēng)為復(fù)回歸或多元回歸( Multiple Regression )甜橱,兩者在許多基本性質(zhì)上可以直接推廣逊笆,不過(guò)在復(fù)回歸,容易產(chǎn)生因多元變數(shù)而起的模型問(wèn)題渗鬼,是以在統(tǒng)計(jì)教學(xué)中通常會(huì)將兩者分開(kāi)討論览露。
簡(jiǎn)回歸的式子其實(shí)就是國(guó)中學(xué)過(guò)的Y = a*X + b 荧琼,但在統(tǒng)計(jì)上描述得更實(shí)務(wù)譬胎、更精細(xì),直線(xiàn)回歸基本特性命锄,可由符號(hào)下標(biāo)看出來(lái):
第一堰乔,每一組樣本Xi1~Xik 對(duì)應(yīng)到一個(gè)應(yīng)變數(shù)Yi (函數(shù)基本定義)。
第二脐恩,截距項(xiàng)與斜率項(xiàng)在回歸配適完成之后就固定住了镐侯,因此可以任意代入想觀(guān)察的自變數(shù)組合,或者稍作修正驶冒,做資料集外的「預(yù)測(cè)」苟翻,做討論比較時(shí)也很方便…,總之這種一目了然的形式深受分析人員喜愛(ài)骗污。
接著來(lái)談?wù)劵貧w函數(shù)的形式吧崇猫。
廣義線(xiàn)性模型的變化與結(jié)構(gòu):直線(xiàn)、曲線(xiàn)與非線(xiàn)
如果從自變數(shù)「 X 」與應(yīng)變數(shù)「 Y 」的函數(shù)反應(yīng)形狀來(lái)決定回歸的「線(xiàn)性」需忿,那么我們基本上可以得到三個(gè)種類(lèi):直線(xiàn)诅炉、曲線(xiàn)與非線(xiàn)蜡歹。
但是!對(duì)于這幾種對(duì)應(yīng)關(guān)系的回歸稱(chēng)呼涕烧,似乎沒(méi)有一致的標(biāo)準(zhǔn)月而。
舉個(gè)例子來(lái)說(shuō)好了,某些作者會(huì)用「線(xiàn)性」來(lái)表示「直線(xiàn)+曲線(xiàn)」议纯,但問(wèn)題是曲線(xiàn)在沒(méi)有充分指定的情況下是非常任意的父款,也就是所有的對(duì)應(yīng)關(guān)系都是廣義的曲線(xiàn),其實(shí)直線(xiàn)本身也不過(guò)曲率= 0的曲線(xiàn)特例罷了瞻凤。
另一些作者铛漓,用「線(xiàn)性」代表「直線(xiàn)」,非線(xiàn)性代表「廣義的曲線(xiàn)」鲫构,這個(gè)分法本身就有誤導(dǎo)之嫌浓恶,畢竟線(xiàn)性不等于直線(xiàn),在書(shū)目之前來(lái)來(lái)去去很容易混為一談结笨。
至于直線(xiàn)與非直線(xiàn)的區(qū)別包晰,曾看過(guò)這樣的分法:直線(xiàn)回歸永遠(yuǎn)是「一階式」,只要是「二階」以上式子基本上就是非直線(xiàn)炕吸。但是這個(gè)有點(diǎn)可議…伐憾,等一下的例子告訴你為什么。
剛開(kāi)始很令人納悶赫模,明明就可以清清楚楚劃分成三種情形树肃,統(tǒng)計(jì)學(xué)家何苦老愛(ài)用個(gè)意義不定的「線(xiàn)性」一詞來(lái)描述回歸…?不過(guò)這是有原因的瀑罗。
到目前為止胸嘴,本文使用的范例都是「直線(xiàn)」。
不如來(lái)看看「非直線(xiàn)」的回歸能不能給我們一些線(xiàn)索:
拋物線(xiàn)回歸不難懂斩祭,是很常見(jiàn)的曲線(xiàn)劣像,但是多項(xiàng)式回歸就很復(fù)雜了,隨著次方項(xiàng)增高摧玫,結(jié)果可能是一平面耳奕、曲面或者無(wú)法圖像化,總之诬像,對(duì)應(yīng)關(guān)系根本就不是線(xiàn)型屋群。你可能會(huì)有點(diǎn)意外的是,其實(shí)坏挠,這兩個(gè)式子芍躏,「曲線(xiàn)」與「不是線(xiàn)」的回歸,都是「線(xiàn)性」回歸癞揉。
關(guān)鍵在于變數(shù)轉(zhuǎn)換纸肉!
用拋物線(xiàn)回歸的例子溺欧,只要設(shè)新變數(shù)X' = X^2 ,再換入原先的公式柏肪,不就令「二階式」變?yōu)椤敢浑A式」了嗎姐刁?有樣學(xué)樣,交互作用以及更高階項(xiàng)次也都能比照辦理烦味。
總之只要回歸式表示成「相加式」聂使,不管是怎樣的對(duì)應(yīng)關(guān)系,曲線(xiàn)或者非線(xiàn)都可以透過(guò)代入新變數(shù)轉(zhuǎn)成直線(xiàn)谬俄。
至于「相乘式」的回歸…柏靶,沒(méi)錯(cuò),還是線(xiàn)性回歸溃论。不過(guò)轉(zhuǎn)換的方式不一樣屎蜓。
我們?cè)?a href="https://molecular-service-science.com/2012/02/data-transformation/" target="_blank" rel="nofollow">《 Data Transformation的一些探討》中看過(guò)這個(gè)公式:
是的,該式加入殘差項(xiàng)就成為「相乘式」的回歸钥勋,轉(zhuǎn)換后的e' = log( e ) 炬转。
在前面提到的《 Data Transformation的一些探討》一文中,筆者沒(méi)有特意以「回歸模型」為例的原因是算灸,這個(gè)資料變?cè)焓址词乖诜悄P头治龆笈部赡墚a(chǎn)生不錯(cuò)的作用,當(dāng)然了菲驴,資料轉(zhuǎn)換在回歸中是很重要的技巧荐吵。
再換個(gè)例子,以經(jīng)濟(jì)學(xué)柯布-道格拉斯生產(chǎn)函數(shù)( Cobb-Douglas Production Function )為例并加入殘差項(xiàng)如下:
其中Q 代表產(chǎn)出赊瞬, L 代表勞動(dòng)力投入先煎, K 代表資本投入。
轉(zhuǎn)換的方式同上森逮,取對(duì)數(shù)轉(zhuǎn)換:
這正是一個(gè)標(biāo)準(zhǔn)的線(xiàn)性回歸式榨婆。
看完「曲線(xiàn)」與「非線(xiàn)」轉(zhuǎn)換成「直線(xiàn)」的過(guò)程磁携,相信你也不難理解為何眾多統(tǒng)計(jì)學(xué)家都愛(ài)用「線(xiàn)性回歸」的名稱(chēng)褒侧,因?yàn)椴还苁窃鯓拥暮瘮?shù)形式,在統(tǒng)計(jì)學(xué)家的巧手下谊迄,都有辦法合理地轉(zhuǎn)成線(xiàn)性關(guān)系闷供!
雖然變數(shù)轉(zhuǎn)換好不好用有時(shí)候見(jiàn)仁見(jiàn)智,但是理論上提供的彈性確實(shí)非常強(qiáng)大统诺。
線(xiàn)性這種極強(qiáng)的相容性歪脏,提供了一個(gè)「超級(jí)模型」所需要的基礎(chǔ),你一定在想粮呢,有沒(méi)有可能利用這種性質(zhì)把各種不同類(lèi)型的回歸模型全都包在同一個(gè)理論下來(lái)解讀呢婿失?
事實(shí)上钞艇,此模型就名為「廣義線(xiàn)性模型( GLM , Generalized Linear Model )」豪硅,廣泛包納了ANOVA 哩照、直線(xiàn)回歸、多項(xiàng)式回歸懒浮、Poisson回歸飘弧、 Logistic回歸等等模型,不光反應(yīng)變數(shù)是連續(xù)型的回歸砚著,反應(yīng)變數(shù)是類(lèi)別變數(shù)的模型也可以用它來(lái)解釋次伶。
還記得前面提過(guò)所有回歸的共同組成嗎?一個(gè)回歸模型包含了三個(gè)基本元素:
1. 系統(tǒng)成分( Systematic Component )
2. 隨機(jī)成分( Random Component )
3. 連結(jié)函數(shù)( Link Function )
這三個(gè)元素稽穆,就是廣義線(xiàn)性模型的結(jié)構(gòu)定義冠王!
廣義線(xiàn)性模型從兩個(gè)方向?qū)⒊B(tài)線(xiàn)性模型擴(kuò)充到其他模型:
第一,隨機(jī)成分假設(shè)為非常態(tài)的其他分配舌镶;
第二版确,將連結(jié)函數(shù)從直線(xiàn)方程式改為其他函數(shù)。
當(dāng)隨機(jī)成分Y 不限于常態(tài)乎折,那么以類(lèi)別變數(shù)為反應(yīng)變數(shù)的模型就能用同一套概念運(yùn)作绒疗,譬如Y 服從二項(xiàng)分配,那么Y 取値就成為非0 即1 骂澄,而非常態(tài)分配的范圍負(fù)無(wú)限大到正無(wú)限大之間吓蘑。甚至計(jì)數(shù)資料也可以應(yīng)用上來(lái),譬如Poisson 分配坟冲。
連結(jié)函數(shù)的彈性磨镶,則允許GLM 納入各種不同的對(duì)應(yīng)關(guān)系,并利用前述的資料轉(zhuǎn)換技巧健提,將曲線(xiàn)與非線(xiàn)案例變?yōu)橹本€(xiàn)函數(shù)琳猫,成為名符其實(shí)的「 廣義線(xiàn)性模型」。
廣義線(xiàn)性模型的常見(jiàn)應(yīng)用:直線(xiàn)回歸私痹、 ANOVA 與卡方檢定
對(duì)社會(huì)科學(xué)領(lǐng)域的學(xué)生來(lái)說(shuō)脐嫂,它們?nèi)齻€(gè)可能是最廣泛學(xué)習(xí)的方法了,但在我的學(xué)習(xí)印象中紊遵,也是最傻傻搞不清楚的方法账千。
ANOVA 與卡方,在大學(xué)的時(shí)候許多老師都會(huì)要求學(xué)生手動(dòng)計(jì)算暗膜,主要的方法就是開(kāi)表格匀奏,對(duì)ANOVA 開(kāi)二維表,對(duì)卡方也是開(kāi)二維表学搜,瞎的地方則是統(tǒng)計(jì)量算著算著娃善,怎么兩個(gè)方法好像都差不多论衍!
后來(lái)敎回歸,才終于導(dǎo)入模型化的概念聚磺,但是這下可慘了饲齐,因?yàn)橐呀?jīng)把卡方檢定跟ANOVA 混在一起,我實(shí)在無(wú)法理解為什么ANOVA =直線(xiàn)回歸咧最?
事后想想捂人,這個(gè)疑惑某個(gè)程度上可歸因?yàn)闆](méi)有細(xì)分「變數(shù)類(lèi)型」的關(guān)系。
統(tǒng)計(jì)的資料維度矢沿,概分四類(lèi):
1. 名目變數(shù)或類(lèi)別變數(shù)( Nominal Variable 滥搭、 Categorical Variable )
2. 順序變數(shù)( Ordinal Variable )
3. 區(qū)間變數(shù)( Interval Variable )
4. 比例變數(shù)( Proportional Variable )
其中1 、 2 合稱(chēng)「質(zhì)」變數(shù)捣鲸; 3 瑟匆、4 稱(chēng)為「量」變數(shù)。
對(duì)于具有絕對(duì)原點(diǎn)的比例資料相信多數(shù)人都不陌生栽惶,統(tǒng)計(jì)上較容易產(chǎn)生問(wèn)題的是前面三種愁溜,譬如順序變數(shù),喜好分?jǐn)?shù)從1~3 外厂, 1 為最喜歡冕象, 3 為最不喜歡,看起來(lái)好像可以直接做加減運(yùn)算汁蝶,不過(guò)這樣會(huì)有個(gè)隱藏的問(wèn)題渐扮,因?yàn)槟悴粫缘梅謹(jǐn)?shù)1 與分?jǐn)?shù)2 的差距是不是等于分?jǐn)?shù)2 到分?jǐn)?shù)3 的差距。
假如不是這樣的話(huà)掖棉,那么運(yùn)算結(jié)果就失真了墓律。若是單位「等距」,順序變數(shù)就會(huì)變成「區(qū)間變數(shù)」幔亥。詳細(xì)內(nèi)容可參考 UCLA Academic Technology Services的網(wǎng)站耻讽,此處有相關(guān)說(shuō)明。
在二維卡方檢定當(dāng)中帕棉,行列代表的兩個(gè)變數(shù)都是「類(lèi)別變數(shù)」针肥,內(nèi)容是運(yùn)用各類(lèi)別的次數(shù),檢定機(jī)率的「獨(dú)立性」與比例的「同質(zhì)性」笤昨,但對(duì)ANOVA 而言祖驱,比較的是各組的「平均數(shù)」差異,也就是說(shuō)「組別是類(lèi)別變數(shù)」瞒窒,但平均數(shù)卻是「連續(xù)變數(shù)」。
而直線(xiàn)回歸乡洼,稍早之前已經(jīng)解釋過(guò)崇裁,應(yīng)變數(shù)Y 受到殘差的影響匕坯,服從「常態(tài)分配」, Y 是理所當(dāng)然的「連續(xù)變數(shù)」拔稳,至于X 的變數(shù)類(lèi)型…葛峻,前面沒(méi)提,因?yàn)轭?lèi)別變數(shù)或順序變數(shù)都適用巴比,比例變數(shù)更是不在話(huà)下术奖,可說(shuō)「沒(méi)什么限制」。
數(shù)學(xué)里轻绞,無(wú)限制的狀況是很難得的采记,理由可以從前面「水平位移」與「轉(zhuǎn)直線(xiàn)」的過(guò)程找到一點(diǎn)線(xiàn)索。
因?yàn)閷?duì)回歸線(xiàn)而言政勃, X 不影響回歸的分配誰(shuí)屬唧龄,由于有了轉(zhuǎn)直線(xiàn)的方法, X 對(duì)Y 的真實(shí)函數(shù)對(duì)應(yīng)也不太重要了奸远,因此X 只要不與殘差有相關(guān)既棺,能符合高斯-馬可夫定理,除此之外則是很自由的懒叛。
如此說(shuō)來(lái)丸冕,直線(xiàn)回歸與ANOVA 的關(guān)系就清楚多了,對(duì)僅有1 個(gè)預(yù)測(cè)變數(shù)X 薛窥,且是「屬質(zhì)」變數(shù)的直線(xiàn)回歸晨仑,根本就是ANOVA 。
從這層關(guān)系來(lái)看拆檬,回歸分析的檢定報(bào)表使用ANOVA Table 實(shí)在是再合理不過(guò)了洪己。
順道一提, X為「屬質(zhì)」變數(shù)的回歸竟贯,將會(huì)用到「虛擬變數(shù)( Dummy Variable )」的變數(shù)轉(zhuǎn)換答捕,質(zhì)對(duì)量的分析,不論用ANOVA計(jì)算或者跑Dummy回歸屑那,結(jié)果會(huì)一模一樣拱镐,對(duì)于GLM將ANOVA納入廣義線(xiàn)性的家族之中,現(xiàn)在你應(yīng)該一點(diǎn)都不意外了持际。
另外要提醒沃琅,在其他的回歸當(dāng)中,是有以「類(lèi)別變數(shù)」為應(yīng)變數(shù)Y 的模型蜘欲,所以這里特別指出「直線(xiàn)回歸」益眉。
最后就以一張簡(jiǎn)化的圖示,來(lái)說(shuō)明三者的差異,但是下圖的對(duì)應(yīng)式并不保證XY 具有因果關(guān)系郭脂,這又是另一個(gè)大主題了年碘,我們改天再深入討論。
這么長(zhǎng)你都看得完展鸡?更多文章等你挑戰(zhàn):
* 統(tǒng)計(jì)R語(yǔ)言實(shí)作筆記系列– 資料尺度與變數(shù)類(lèi)型
* 統(tǒng)計(jì)R語(yǔ)言實(shí)作筆記系列– 2D視覺(jué)化進(jìn)階GGPLOT()的基本架構(gòu)(一)