對(duì)于自己的數(shù)據(jù),選擇正確的回歸方法非常重要憔涉,今天我們就學(xué)習(xí)一下主流的回歸分析。
今天主要講解主流回歸的區(qū)分方式析苫,文末有思維邏輯圖可以參照兜叨。
在講之前,跟大家一起回顧一下衩侥,回歸分析和相關(guān)性分析的區(qū)別国旷。
1.回歸分析
大家在接觸的時(shí)候都知道我們是為了研究某幾個(gè)自變量,對(duì)一個(gè)因變量造成的影響情況茫死。
這一些原因是否真的會(huì)導(dǎo)致這個(gè)結(jié)果跪但?還有,這些原因出現(xiàn)時(shí)峦萎,會(huì)造成結(jié)果出現(xiàn)的機(jī)率是多少屡久。
比如說(shuō)我們吃的越多長(zhǎng)得越胖,那么進(jìn)食量就是原因爱榔,體重就是結(jié)果被环。
那么我們?yōu)榱搜芯窟M(jìn)食量對(duì)體重的影響情況,我們就會(huì)選擇回歸分析详幽。
只要是涉及到誰(shuí)對(duì)誰(shuí)的影響情況筛欢,我們通通選擇的都是回歸分析。
2.相關(guān)性分析
在統(tǒng)計(jì)學(xué)里面相關(guān)性分析是指的是兩個(gè)變量之間互為關(guān)聯(lián)唇聘,方向一致或者是方向不一致版姑,在統(tǒng)計(jì)學(xué)里面被稱(chēng)為相關(guān)性。
相關(guān)性分析是一定沒(méi)有前因后果的迟郎,是不存在原因發(fā)生在前面漠酿,從而導(dǎo)致的后面的后果的這種情況。
我們可以明確的確定其中一個(gè)變量是起因而另外一個(gè)變量是結(jié)果的時(shí)候谎亩,選擇回歸分析炒嘲。
我們?cè)谏罾锩婵梢灾v解誰(shuí)和誰(shuí)之間有相關(guān)關(guān)系宇姚,但是在統(tǒng)計(jì)學(xué)里面,我們一定要嚴(yán)謹(jǐn)?shù)拿枋龀蛇M(jìn)食量對(duì)體重有影響關(guān)系夫凸,因?yàn)樵诮y(tǒng)計(jì)學(xué)里面影響關(guān)系浑劳,也就是我們所說(shuō)的這個(gè)回歸分析和相關(guān)性分析是不同的。
在統(tǒng)計(jì)分析的時(shí)候夭拌,我們到底是選擇這個(gè)回歸分析呢魔熏,還是選擇相關(guān)性分析?
比如吸煙和肺癌鸽扁,我們想知道的是吸煙會(huì)不會(huì)導(dǎo)致肺癌發(fā)生蒜绽,也就是說(shuō)吸煙會(huì)不會(huì)影響肺癌的發(fā)生,這時(shí)候我們選擇回歸分析桶现。
總之躲雅,相關(guān)性分析就是關(guān)聯(lián)關(guān)系不存在原因和結(jié)果,你好我好你差我差是一個(gè)狀態(tài)骡和;而回歸分析有明確的前因后果相赁。
回歸分析的種類(lèi):
回歸分析有很多,我們常用到的慰于,按因變量的類(lèi)型分為三類(lèi):
1.線性回歸分析
2.Logistic回歸分析
3.生存回歸分析
下面一一說(shuō)明钮科,后面有附圖:
一、線性回歸
因變量是連續(xù)數(shù)值型變量婆赠,不論自變量是哪種绵脯,都選擇線性回歸。
比如說(shuō)像體重休里,可以取到40公斤桨嫁,41公斤,42公斤份帐,甚至還可以到44.14 ,41.2等等楣导,像這種在坐標(biāo)軸上任意位置可以取到數(shù)值废境,就被稱(chēng)作為連續(xù)數(shù)值型的變量。
我們的體重筒繁、年齡噩凹、生化指標(biāo)等等,這樣一些數(shù)值都是被稱(chēng)作為連續(xù)數(shù)值型的變量毡咏,就應(yīng)該選擇線性回歸分析驮宴。
敲黑板:
如果自變量里面有無(wú)序分類(lèi)變量的時(shí)候,在做線性回歸的時(shí)候呕缭,一定要做正確的虛擬化處理堵泽,這個(gè)是關(guān)鍵修己。
線性回歸分三類(lèi):
1.一元線性回歸
因變量只有一個(gè),自變量有一個(gè)迎罗,就是用一元線性回歸睬愤。
2.多元線性回歸
因變量只有一個(gè),自變量有多個(gè)纹安,就用多元線性回歸尤辱。
注意多個(gè)自變量之間的共線性問(wèn)題:
什么是共線性?
共線性厢岂,即同線性或同線型光督。統(tǒng)計(jì)學(xué)中,共線性即多重共線性塔粒。
多重共線性(Multicollinearity)是指線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確结借。
就是某一個(gè)矩陣?yán)锩嬗袃闪凶兞恐丿B了,就會(huì)導(dǎo)致回歸分析的結(jié)果出現(xiàn)很大的錯(cuò)誤窗怒,spss軟件里面普通的這個(gè)OLS(最小二乘估計(jì))是失效的映跟。
比如,自變量里面有一個(gè)alt和ast扬虚,如果自變量還有一個(gè)是alt和ast的比值努隙,三個(gè)自變量里面有一個(gè)自變量完全是通過(guò)另外兩個(gè)自變量計(jì)算出來(lái)的,這就存在極強(qiáng)的共線性辜昵。
還有一種共線性的情況荸镊,就像這個(gè)alt和ast是反映同一個(gè)內(nèi)容的,那么這個(gè)alt和ast本身之間就可就可能存在一個(gè)比較強(qiáng)的共線性堪置。
當(dāng)這個(gè)共線性達(dá)到一定的嚴(yán)重程度的時(shí)候躬存,那么我們?cè)趕pss里面,用這個(gè)OLS算出的結(jié)果一定錯(cuò)誤舀锨。有可能p值無(wú)窮大……等等岭洲,就是那種完全沒(méi)法解釋的情況。
用什么方法合適呢坎匿?有三種方法:
①嶺回歸盾剩,spss可以實(shí)現(xiàn)。
②主成分回歸替蔬,spss可以實(shí)現(xiàn)告私。
③偏最小二乘法,可以用PLS實(shí)現(xiàn)承桥。
3.路徑分析
因變量有多個(gè)驻粟,就要用路徑分析,用軟件AMOS結(jié)構(gòu)方程軟件做分析凶异。
例如:一個(gè)或者幾個(gè)因素是否會(huì)影響患者的焦慮情況蜀撑,這個(gè)抑郁情況挤巡,疼痛情況等。
原因有幾個(gè)不管屯掖,只要造成的結(jié)果有多個(gè)玄柏,Spss軟件是處理不了的,因?yàn)閟pss軟件只允許選入一個(gè)因變量贴铜,所以因變量有多個(gè)的時(shí)候粪摘,需要改用MOD結(jié)構(gòu)方程軟件進(jìn)行路徑分析。
二绍坝、Logistic回歸分析
1.二元Logistic回歸分析
因變量是二分類(lèi)變量徘意,不管自變量是何類(lèi)型,都屬于此類(lèi)回歸分析轩褐。
例如椎咧,復(fù)發(fā)vs未復(fù)發(fā),陰性vs陽(yáng)性把介,生存vs死亡……
2.多元Logistic回歸分析
因變量是無(wú)序多分類(lèi)變量勤讽,什么是無(wú)序多分類(lèi)呢?
簡(jiǎn)單來(lái)說(shuō)拗踢,就是因變量大于等于三個(gè)脚牍,而且相互之間是沒(méi)有順序的。
比如巢墅,血型诸狭,職業(yè)等。
一般來(lái)說(shuō)不要有五類(lèi)以上君纫,如果變量很多驯遇,做回歸分析的時(shí)候,算出來(lái)的表格會(huì)有很多張蓄髓,而且很繁瑣叉庐。
版面很珍貴的期刊沒(méi)有那么多版面,一般因變量都選擇三類(lèi)会喝。
3.有序Logistic回歸分析
因(結(jié)局)變量是有序的陡叠,無(wú)論自變量是連續(xù)還是分類(lèi),就要選擇有序logistic回歸好乐。
例如:疾病的嚴(yán)重程度,輕中重瓦宜;及格蔚万,良好,優(yōu)秀……
敲黑板:
有序因變量有一個(gè)平行線檢驗(yàn)平行性临庇,看起來(lái)有序的變量沒(méi)有通過(guò)檢驗(yàn)的時(shí)候反璃,不能選擇有序logistic回歸昵慌,就得選擇多元logistic回歸。
總結(jié):首先判斷因變量是有序的淮蜈,選擇有序logistic回歸斋攀,如果后面的平行線檢驗(yàn)沒(méi)有通過(guò),就改用無(wú)序logistic回歸梧田,也就是多元logistic回歸淳蔼。
三、COX生存回歸分析
是二分類(lèi)logistic回歸的一個(gè)演化裁眯。
因?yàn)樯娣治鼍褪茄芯看婊钏劳鲳睦妫蛘邚?fù)發(fā)未復(fù)發(fā),在二元logistic回歸的基礎(chǔ)上穿稳,納入了一個(gè)時(shí)間數(shù)據(jù)存皂。
比如,如果因變量是存活和死亡兩類(lèi)逢艘,那么應(yīng)該選擇二元logistic回歸旦袋,但是數(shù)據(jù)里面除了有患者存活和死亡的狀態(tài)之外,還記錄了對(duì)于這個(gè)死亡患者的這個(gè)存活時(shí)間它改,這時(shí)就選擇COX生存回歸分析疤孕。
以上就是我對(duì)回歸分析的框架學(xué)習(xí),后續(xù)再深入研究每個(gè)知識(shí)點(diǎn)搔课。
特別要注意的一點(diǎn)是胰柑,回歸分析前要做單因素分析篩查:
在進(jìn)行回歸分析的時(shí)候,為了減少自變量之間的混雜干擾爬泥,不建議把多個(gè)自變量同時(shí)納入到回歸分析里面柬讨。
在納入之前,首先要對(duì)自變量進(jìn)行一個(gè)這個(gè)單因素的篩查袍啡,沒(méi)有關(guān)系的就直接舍棄踩官。
線性回歸的單因素篩查方法和logistic回歸的篩查方法,都是不一樣的境输。
后期再研究蔗牡。