我們在做統(tǒng)計分析時脸侥,常常都習(xí)慣了這樣的分析套路:先進(jìn)行統(tǒng)計描述,然后做單因素分析扇住,最后再進(jìn)行多因素分析春缕。在閱讀文獻(xiàn)時,我們也會發(fā)現(xiàn)艘蹋,不管是一般的統(tǒng)計描述還是單因素分析锄贼,往往能夠支持研究人員作出結(jié)論的,還是要看最終的多因素分析結(jié)果女阀。
在前期推送的內(nèi)容中我們也講過宅荤,多因素分析的目的是通過控制其它多個混雜因素的影響,找出具有獨立作用的影響因素浸策,并估計其效應(yīng)大小冯键。
既然這樣的話,做單因素分析還有什么用呢庸汗,直接做多因素分析不就好啦惫确?
多因素分析的地位固然重要,但是單因素分析也必不可少蚯舱,單因素分析可以為多因素分析提供很多有效的信息改化,將單因素和多因素分析的結(jié)果進(jìn)行比較,也能發(fā)現(xiàn)很多問題枉昏。如果單因素和多因素分析的結(jié)果一致的話陈肛,結(jié)論就比較穩(wěn)定且容易解釋,但是我們常常會遇到單因素和多因素分析的結(jié)果不一致凶掰,甚至是出現(xiàn)相互矛盾的尷尬情況燥爷,此時又該怎么辦蜈亩,該如何去解釋呢?
今天我們就來一起聊一聊單因素分析和多因素分析之間的愛恨情仇前翎。
首先我們根據(jù)單因素分析和多因素分析的結(jié)果對比稚配,將可能出現(xiàn)的情況做一個四格表,如表1所示港华,分為A道川、B、C立宜、D一共4種情況冒萄,下面我們分別對這四種情況進(jìn)行討論。
情況A
單因素分析和多因素分析的結(jié)果都顯示無統(tǒng)計學(xué)顯著性橙数,****兩者結(jié)果一致尊流,均為陰性結(jié)果
在這種情況下,結(jié)果還是相對比較好解釋的灯帮,一般基本上可以認(rèn)為該因素對于結(jié)局事件來說崖技,不是一個有意義的影響因素。
但是事情也并非這么簡單钟哥,如果該因素作為一個混雜因素迎献,在多因素分析中只是用來起到調(diào)整混雜作用的目的,那么雖然它在單因素和多因素分析中都是陰性結(jié)果腻贰,可能也不會太引起研究人員的重視吁恍;但是如果該因素是研究中所重點關(guān)注的一個因素,例如暴露/處理因素播演,此時單因素和多因素分析都得出陰性結(jié)果的話冀瓦,就會讓人感覺比較沮喪,不過也更值得我們好好去思考一下陰性結(jié)果背后的意義宾巍。
到底是該暴露/處理因素對結(jié)局事件真的沒有影響咕幻,還是說因為其他原因而導(dǎo)致它的實際效應(yīng)沒有被顯示出來?到底是研究設(shè)計的問題顶霞,還是指標(biāo)定義的問題,亦或是統(tǒng)計方法的問題呢锣吼?都需要我們認(rèn)真去查找一下原因选浑,可以參考前期推送的有關(guān)介紹“陰性結(jié)果”的系列文章,或許可以幫助你尋找一下產(chǎn)生陰性結(jié)果的原因玄叠,開拓一下分析思路古徒。
情況B
單因素分析結(jié)果顯示無統(tǒng)計學(xué)顯著性,****但多因素分析結(jié)果顯示有統(tǒng)計學(xué)顯著性
這種情況可能并不常見读恃,主要是因為在單因素分析中沒有統(tǒng)計學(xué)顯著性的因素隧膘,按照一般的做法就不會再將此變量納入到多因素分析中了代态,但其實上述做法小咖并不推薦,它是存在一定缺陷的疹吃。
我們在前期介紹《如何理解回歸模型中的“調(diào)整”和“獨立作用”》的內(nèi)容中講到蹦疑,在單因素分析中,由于自變量之間存在一定的相互關(guān)聯(lián)萨驶,自變量對因變量的影響反映的不僅僅單純是它本身的作用歉摧,而是包含了該變量自身作用以及其他變量的混雜作用之后,呈現(xiàn)出來的一個綜合的結(jié)果腔呜。而在多因素分析中叁温,通過構(gòu)建回歸模型,調(diào)整了其他混雜因素的影響核畴,從而才使該因素對因變量的真實效應(yīng)顯示出來膝但。
因此不難理解,當(dāng)某因素在單因素分析結(jié)果中無統(tǒng)計學(xué)顯著性谤草,而多因素分析結(jié)果有統(tǒng)計學(xué)顯著性時锰镀,此時可能的原因是,該因素與其他混雜因素之間可能存在一定的關(guān)聯(lián)咖刃,在單因素分析時泳炉,該因素的真實效應(yīng)被其他混雜因素的作用所掩蓋,通過多因素分析消除其他因素的影響后嚎杨,才發(fā)現(xiàn)原來該因素對于結(jié)局事件來說是具有獨立作用的花鹅。
舉一個例子,例如某因素A是一個危險因素枫浙,而因素B是一個保護(hù)因素刨肃,由于具有因素A的個體,大部分人同時也具有因素B箩帚,因此在單因素分析中真友,因素A的作用并沒有顯現(xiàn)出來,這是因為因素A的危險作用被因素B的保護(hù)作用所掩蓋了紧帕,無法體現(xiàn)因素A的實際效應(yīng)盔然。而通過多因素分析,將因素B的保護(hù)作用進(jìn)行調(diào)整是嗜,從而暴露出因素A真實的危險作用愈案。
情況C
單因素分析結(jié)果顯示有統(tǒng)計學(xué)顯著性,****但多因素分析結(jié)果顯示無統(tǒng)計學(xué)顯著性
想必大家都會經(jīng)常遇見到這種情況鹅搪,單因素分析時該因素有統(tǒng)計學(xué)顯著性站绪,然后就很興奮地把它扔進(jìn)多因素分析中,結(jié)果多因素分析結(jié)果卻顯示沒有統(tǒng)計學(xué)顯著性丽柿,感覺前功盡棄恢准,很讓人頭痛魂挂,不知道是出了什么問題,到底該怎么辦了馁筐。
我們?nèi)匀灰郧捌谕扑偷摹秱鹘y(tǒng)單因素分析和單因素回歸分析》一文中所引用的研究為例涂召,如表2和表3所示。
表2. 研究對象基線特征
表3. 單因素和多因素Cox回歸結(jié)果
文章中傳統(tǒng)的單因素分析結(jié)果顯示眯漩,Non-HDL-C平均水平在發(fā)生心血管疾病組要高于對照組芹扭,兩組水平分別為124mg/dL和114mg/dL,差異有統(tǒng)計學(xué)顯著性(P<0.01)赦抖;
然后作者進(jìn)行了單因素回歸分析舱卡,其結(jié)果顯示Non-HDL-C對于心血管疾病的發(fā)生是一個危險因素,HR=1.45队萤,95%CI為1.11-1.88(P<0.01)轮锥;
最后作者又進(jìn)行了多因素回歸分析,結(jié)果顯示Non-HDL-C對于心血管疾病發(fā)生的影響消失了要尔,沒有統(tǒng)計學(xué)顯著性舍杜,HR=1.77,95%CI為0.98-3.15(P:No Significance)赵辕。為什么會出現(xiàn)這樣的情況呢既绩?
如果你對情況B產(chǎn)生的原因已經(jīng)理解,那么情況C也是同樣的道理还惠。在單因素分析中饲握,自變量與因變量之間可能出現(xiàn)一定的假關(guān)聯(lián)或者是間接的關(guān)聯(lián),例如某因素A對結(jié)局事件并無影響蚕键,而因素B對于結(jié)局事件是一個影響因素救欧,但是由于因素A只是單純的和因素B有強烈的相關(guān)性,兩者存在共線性的現(xiàn)象锣光,那么在單因素分析中笆怠,就可能出現(xiàn)因素A也存在顯著差異的結(jié)果,從而導(dǎo)致因素A被誤認(rèn)為是一個影響因素而納入到多因素分析中誊爹。
而在多因素分析中通過調(diào)整因素B的影響蹬刷,因素A與因變量的“假關(guān)聯(lián)”就消失了,此時可以認(rèn)為因素A實際上對于結(jié)局事件并非是一個影響因素替废。就如同上述研究中的Non-HDL-C這個指標(biāo)箍铭,在單因素分析中,它與心血管疾病的關(guān)聯(lián)受到其它因素的影響椎镣,可能只是一種“假關(guān)聯(lián)”,這種“假關(guān)聯(lián)”在多因素分析中就很容易被調(diào)整而消失兽赁。
(注:針對Non-HDL-C這個指標(biāo)状答,本文只從統(tǒng)計結(jié)果的角度將該研究作為例子進(jìn)行講解冷守,不對Non-HDL-C作專業(yè)上的解釋,具體意義需結(jié)合臨床)
情況D
單因素分析和多因素分析的結(jié)果都顯示統(tǒng)計學(xué)顯著性惊科,兩者結(jié)果一致拍摇,均為陽性結(jié)果
這種情況應(yīng)該是大家最愿意看到的情況吧,往往單因素和多因素分析都出現(xiàn)陽性結(jié)果馆截,以此結(jié)果作出的結(jié)論還算是比較穩(wěn)定可靠充活,可以放心地寫文章投稿了,但前提是單因素和多因素分析的陽性結(jié)果的方向是一致的蜡娶,比如單因素分析顯示病例組某因素的水平顯著高于對照組混卵,多因素分析也顯示該因素為危險因素,兩者的結(jié)果都傾向于該因素對結(jié)局事件具有危險作用窖张。
不過偶爾也會遇見這樣的情況幕随,雖然單因素和多因素分析都得出陽性結(jié)果,但是有時單因素分析顯示為危險因素宿接,而多因素分析顯示為保護(hù)因素赘淮,或者單因素分析顯示為保護(hù)因素,而多因素分析顯示為危險因素睦霎,兩者的結(jié)果是相互矛盾的梢卸。
出現(xiàn)這樣的情況,其實和上述的情況B和C是同樣的道理副女,這是在統(tǒng)計分析中經(jīng)常出現(xiàn)的一個陷阱蛤高,統(tǒng)計學(xué)上稱之為“辛普森悖論”(Simpson’s Paradox),是由英國統(tǒng)計學(xué)家E.H.Simpson于1951年提出肮塞。簡單理解就是襟齿,在某個條件下的兩組數(shù)據(jù),分別討論時都會滿足某種性質(zhì)枕赵,可是一旦將兩組數(shù)據(jù)合并考慮猜欺,卻可能導(dǎo)致相反的結(jié)論。
我們今天討論的單因素分析和多因素分析的結(jié)果出現(xiàn)不一致的情況拷窜,就是一個典型的“辛普森悖論”的例子开皿。在單因素分析中,由于沒有考慮到其他因素的影響篮昧,在一定情況下就會發(fā)生“辛普森悖論”赋荆,然而在多因素分析中,通過調(diào)整控制其他因素的影響懊昨,就可以解開“辛普森悖論”之謎窄潭,這也是一個很有意思的現(xiàn)象。有興趣的小伙伴可以先查閱一下有關(guān)“辛普森悖論”的資料酵颁,我們將在以后的內(nèi)容中向大家進(jìn)行介紹嫉你。
參考文獻(xiàn)
1. Atherosclerosis. 2011 Sep;218(1):163-7