1桐猬、關(guān)于樣本含量的問(wèn)題
logistic回歸分析中麦撵,到底樣本量多大才算夠,這一直是個(gè)令許多人困惑的問(wèn)題溃肪。盡管有的人從理論角度提出了logistic回歸分析中的樣本含量估計(jì)免胃,但從使用角度來(lái)看多數(shù)并不現(xiàn)實(shí)。直到現(xiàn)在惫撰,這一問(wèn)題尚無(wú)廣為接受的答案羔沙。根據(jù)國(guó)外一些大牛的看法,如果樣本量小于100厨钻,logistic回歸的最大似然估計(jì)可能有一定的風(fēng)險(xiǎn)撬碟,如果大于500則顯得比較充足。當(dāng)然莉撇,樣本大小還依賴于變量個(gè)數(shù)呢蛤、數(shù)據(jù)結(jié)構(gòu)等條件。
一般認(rèn)為棍郎,每一個(gè)自變量至少要10例結(jié)局保證估計(jì)的可靠性其障。注意:這里是結(jié)局例數(shù),而不是整個(gè)樣本例數(shù)涂佃。(如果你有7個(gè)自變量励翼,那至少需要70例研究結(jié)局,否則哪怕你有1000例辜荠,而結(jié)局的例數(shù)只有10例汽抚,依然顯得不足。)
2伯病、關(guān)于混雜因素的理解
混雜因素一般可以通過(guò)三個(gè)方面確定:一是該因素(吸煙)對(duì)結(jié)局(心絞痛)有影響造烁;二是該因素(吸煙)在分析因素(基因)中的分布不均衡;三是從專(zhuān)業(yè)角度來(lái)判斷午笛,即該因素不能是分析因素與結(jié)局中間的一個(gè)環(huán)節(jié)惭蟋。也就是說(shuō),不能是分析因素引起該因素药磺,通過(guò)該因素再引起結(jié)局告组。
3、關(guān)于交互作用的理解
交互作用有的書(shū)中也叫效應(yīng)修飾癌佩,是指在該因素的不同水平(不同取值)木缝,分析因素與結(jié)局的的關(guān)聯(lián)大小有所不同便锨。在某一水平上(如取值為0)可能分析因素對(duì)結(jié)局的效應(yīng)大,而在另一個(gè)水平上(如取值為1)可能效應(yīng)小我碟。
4鸿秆、關(guān)于自變量的形式
理論上,Logistic回歸中的自變量可以是任何形式怎囚,定量資料和定性資料均可卿叽。但我覺(jué)得在數(shù)據(jù)分析時(shí)更傾向于自變量以分類(lèi)的形式進(jìn)入模型,因?yàn)檫@樣更方便解釋恳守。
例如體重考婴,如果直接進(jìn)行分析,結(jié)果提示的是每增加1Kg發(fā)生某病的危險(xiǎn)催烘。而現(xiàn)實(shí)中多數(shù)疾病可能對(duì)體重增加1Kg不敏感沥阱,或者我們醫(yī)務(wù)人員不關(guān)心增加1Kg所發(fā)生的變化,而關(guān)注的是胖子是不是比瘦子有更高的發(fā)病風(fēng)險(xiǎn)伊群。So考杉,很多情況下將連續(xù)自變量轉(zhuǎn)化為分類(lèi)變量可能會(huì)有更合理的結(jié)果解釋。
5舰始、關(guān)于標(biāo)準(zhǔn)誤過(guò)大的問(wèn)題
我有過(guò)這樣的經(jīng)歷崇棠,logistic回歸分析結(jié)果中某個(gè)自變量的OR值特別大(如>999.999)或特別小(<0.001)丸卷,可信區(qū)間也特別寬(如<0.001~>999.999)枕稀。明顯覺(jué)得有問(wèn)題,但始終摸不著頭腦谜嫉,后來(lái)萎坷,發(fā)現(xiàn)可能是數(shù)據(jù)出了問(wèn)題。
對(duì)于此類(lèi)問(wèn)題沐兰,可能有以下原因:
- 該變量某一類(lèi)的例數(shù)特別少哆档,如性別,男性有100人住闯,女性有2人瓜浸,可能會(huì)出現(xiàn)這種情形。
- 空單元格(zero cell count)寞秃,如性別與疾病的關(guān)系斟叼,所有男性都發(fā)生了疾病或都沒(méi)有發(fā)生疾病偶惠,這時(shí)候可能會(huì)出現(xiàn)OR值無(wú)窮大或?yàn)?的情形春寿。
- 完全分離(complete separation),對(duì)于某自變量忽孽,如果該自變量取值大于某一值時(shí)結(jié)局發(fā)生绑改,當(dāng)小于該值時(shí)結(jié)局都不發(fā)生谢床,就會(huì)出現(xiàn)完全分離現(xiàn)象。如年齡20厘线、30识腿、40、50四個(gè)年齡段造壮,如果40歲以上的人全部發(fā)生疾病渡讼,40歲以下的人全部不發(fā)病,就就產(chǎn)生了完全分離現(xiàn)象耳璧,也會(huì)出現(xiàn)一個(gè)大得不可理喻的標(biāo)準(zhǔn)誤成箫。
- 多重共線性問(wèn)題,多重共線性會(huì)產(chǎn)生大的標(biāo)準(zhǔn)誤旨枯。
6蹬昌、幾個(gè)錯(cuò)誤的做法
關(guān)于logistic回歸分析,某些“大排矢簦”如是說(shuō):“把因變量和自變量往軟件里一放皂贩,一運(yùn)行就出來(lái)結(jié)果了”,那么簡(jiǎn)單昆汹,我只能呵呵了明刷!
(1)多分類(lèi)變量不看其與logitP的關(guān)系直接進(jìn)入模型
有時(shí)候你會(huì)發(fā)現(xiàn)某些多分類(lèi)自變量應(yīng)該有意義但怎么也得不到有統(tǒng)計(jì)學(xué)意義的結(jié)果,那你最好看一下這些自變量與logitP是神馬關(guān)系满粗,是直線關(guān)系嗎遮精?如果不是,請(qǐng)?jiān)O(shè)置虛擬變量(SPSS叫做啞變量)后再進(jìn)入模型败潦。
(2)變量賦值相反
有時(shí)候本冲,你會(huì)發(fā)現(xiàn)你的結(jié)果恰好與別人的相反。于是乎你不得不陷入深深的苦惱中劫扒,當(dāng)揪頭發(fā)檬洞、拍腦袋都無(wú)濟(jì)于事是,看看是不是因變量賦值問(wèn)題沟饥。如患蔡碚(賦值1)和不患病(賦值0)弄成了患蚕涂酢(賦值0)和不患补懔稀(賦值1)。
注意:SPSS擬合模型時(shí)默認(rèn)取值水平高的為陽(yáng)性結(jié)果幼驶,而SAS與其相反艾杏。
(3)參數(shù)估計(jì)無(wú)統(tǒng)計(jì)學(xué)意義
有時(shí)候會(huì)發(fā)現(xiàn)所有自變量參數(shù)估計(jì)均無(wú)統(tǒng)計(jì)學(xué)意義,是不是很讓你沮喪盅藻?(不管你沮不沮喪购桑,反正我都看在眼里)如果你認(rèn)為從專(zhuān)業(yè)角度不大可能所有自變量都無(wú)統(tǒng)計(jì)學(xué)意義畅铭,那你可以看下是不是標(biāo)準(zhǔn)誤太大導(dǎo)致的Wald卡方檢驗(yàn)失效,如果是勃蜘,不妨換用似然比檢驗(yàn)重新分析硕噩。如果不是,那你默哀缭贡,如果你知道原因請(qǐng)告訴我炉擅!
(4)只看參數(shù)檢驗(yàn)結(jié)果
看到參數(shù)結(jié)果就認(rèn)為分析結(jié)束了,這就是典型的只管工作完成阳惹,不理會(huì)工作質(zhì)量坑资。很少有人喜歡看擬合優(yōu)度的結(jié)果,盡管擬合優(yōu)度確實(shí)有用穆端,尤其是在模型比較時(shí)袱贮。擬合優(yōu)度通俗來(lái)講就是看你求得的模型與實(shí)際數(shù)據(jù)的符合程度。logistic回歸中有很多指標(biāo)可用于擬合優(yōu)度的評(píng)價(jià)体啰,如Pearson卡方攒巍、Deviance、AIC荒勇、似然比統(tǒng)計(jì)量等柒莉。只要你不是非得追究它們的來(lái)歷,這些指標(biāo)的用法還是比較簡(jiǎn)單的沽翔,通常用于模型的比較兢孝。