Logistic回歸分析時(shí)幾個(gè)需要注意的問(wèn)題

1桐猬、關(guān)于樣本含量的問(wèn)題

logistic回歸分析中麦撵,到底樣本量多大才算夠,這一直是個(gè)令許多人困惑的問(wèn)題溃肪。盡管有的人從理論角度提出了logistic回歸分析中的樣本含量估計(jì)免胃,但從使用角度來(lái)看多數(shù)并不現(xiàn)實(shí)。直到現(xiàn)在惫撰,這一問(wèn)題尚無(wú)廣為接受的答案羔沙。根據(jù)國(guó)外一些大牛的看法,如果樣本量小于100厨钻,logistic回歸的最大似然估計(jì)可能有一定的風(fēng)險(xiǎn)撬碟,如果大于500則顯得比較充足。當(dāng)然莉撇,樣本大小還依賴于變量個(gè)數(shù)呢蛤、數(shù)據(jù)結(jié)構(gòu)等條件。

一般認(rèn)為棍郎,每一個(gè)自變量至少要10例結(jié)局保證估計(jì)的可靠性其障。注意:這里是結(jié)局例數(shù),而不是整個(gè)樣本例數(shù)涂佃。(如果你有7個(gè)自變量励翼,那至少需要70例研究結(jié)局,否則哪怕你有1000例辜荠,而結(jié)局的例數(shù)只有10例汽抚,依然顯得不足。)

2伯病、關(guān)于混雜因素的理解

混雜因素一般可以通過(guò)三個(gè)方面確定:一是該因素(吸煙)對(duì)結(jié)局(心絞痛)有影響造烁;二是該因素(吸煙)在分析因素(基因)中的分布不均衡;三是從專(zhuān)業(yè)角度來(lái)判斷午笛,即該因素不能是分析因素與結(jié)局中間的一個(gè)環(huán)節(jié)惭蟋。也就是說(shuō),不能是分析因素引起該因素药磺,通過(guò)該因素再引起結(jié)局告组。

3、關(guān)于交互作用的理解

交互作用有的書(shū)中也叫效應(yīng)修飾癌佩,是指在該因素的不同水平(不同取值)木缝,分析因素與結(jié)局的的關(guān)聯(lián)大小有所不同便锨。在某一水平上(如取值為0)可能分析因素對(duì)結(jié)局的效應(yīng)大,而在另一個(gè)水平上(如取值為1)可能效應(yīng)小我碟。

4鸿秆、關(guān)于自變量的形式

理論上,Logistic回歸中的自變量可以是任何形式怎囚,定量資料和定性資料均可卿叽。但我覺(jué)得在數(shù)據(jù)分析時(shí)更傾向于自變量以分類(lèi)的形式進(jìn)入模型,因?yàn)檫@樣更方便解釋恳守。

例如體重考婴,如果直接進(jìn)行分析,結(jié)果提示的是每增加1Kg發(fā)生某病的危險(xiǎn)催烘。而現(xiàn)實(shí)中多數(shù)疾病可能對(duì)體重增加1Kg不敏感沥阱,或者我們醫(yī)務(wù)人員不關(guān)心增加1Kg所發(fā)生的變化,而關(guān)注的是胖子是不是比瘦子有更高的發(fā)病風(fēng)險(xiǎn)伊群。So考杉,很多情況下將連續(xù)自變量轉(zhuǎn)化為分類(lèi)變量可能會(huì)有更合理的結(jié)果解釋。

5舰始、關(guān)于標(biāo)準(zhǔn)誤過(guò)大的問(wèn)題

我有過(guò)這樣的經(jīng)歷崇棠,logistic回歸分析結(jié)果中某個(gè)自變量的OR值特別大(如>999.999)或特別小(<0.001)丸卷,可信區(qū)間也特別寬(如<0.001~>999.999)枕稀。明顯覺(jué)得有問(wèn)題,但始終摸不著頭腦谜嫉,后來(lái)萎坷,發(fā)現(xiàn)可能是數(shù)據(jù)出了問(wèn)題。

對(duì)于此類(lèi)問(wèn)題沐兰,可能有以下原因:

  • 該變量某一類(lèi)的例數(shù)特別少哆档,如性別,男性有100人住闯,女性有2人瓜浸,可能會(huì)出現(xiàn)這種情形。
  • 空單元格(zero cell count)寞秃,如性別與疾病的關(guān)系斟叼,所有男性都發(fā)生了疾病或都沒(méi)有發(fā)生疾病偶惠,這時(shí)候可能會(huì)出現(xiàn)OR值無(wú)窮大或?yàn)?的情形春寿。
  • 完全分離(complete separation),對(duì)于某自變量忽孽,如果該自變量取值大于某一值時(shí)結(jié)局發(fā)生绑改,當(dāng)小于該值時(shí)結(jié)局都不發(fā)生谢床,就會(huì)出現(xiàn)完全分離現(xiàn)象。如年齡20厘线、30识腿、40、50四個(gè)年齡段造壮,如果40歲以上的人全部發(fā)生疾病渡讼,40歲以下的人全部不發(fā)病,就就產(chǎn)生了完全分離現(xiàn)象耳璧,也會(huì)出現(xiàn)一個(gè)大得不可理喻的標(biāo)準(zhǔn)誤成箫。
  • 多重共線性問(wèn)題,多重共線性會(huì)產(chǎn)生大的標(biāo)準(zhǔn)誤旨枯。

6蹬昌、幾個(gè)錯(cuò)誤的做法

關(guān)于logistic回歸分析,某些“大排矢簦”如是說(shuō):“把因變量和自變量往軟件里一放皂贩,一運(yùn)行就出來(lái)結(jié)果了”,那么簡(jiǎn)單昆汹,我只能呵呵了明刷!

(1)多分類(lèi)變量不看其與logitP的關(guān)系直接進(jìn)入模型

有時(shí)候你會(huì)發(fā)現(xiàn)某些多分類(lèi)自變量應(yīng)該有意義但怎么也得不到有統(tǒng)計(jì)學(xué)意義的結(jié)果,那你最好看一下這些自變量與logitP是神馬關(guān)系满粗,是直線關(guān)系嗎遮精?如果不是,請(qǐng)?jiān)O(shè)置虛擬變量(SPSS叫做啞變量)后再進(jìn)入模型败潦。

(2)變量賦值相反

有時(shí)候本冲,你會(huì)發(fā)現(xiàn)你的結(jié)果恰好與別人的相反。于是乎你不得不陷入深深的苦惱中劫扒,當(dāng)揪頭發(fā)檬洞、拍腦袋都無(wú)濟(jì)于事是,看看是不是因變量賦值問(wèn)題沟饥。如患蔡碚(賦值1)和不患病(賦值0)弄成了患蚕涂酢(賦值0)和不患补懔稀(賦值1)。

注意:SPSS擬合模型時(shí)默認(rèn)取值水平高的為陽(yáng)性結(jié)果幼驶,而SAS與其相反艾杏。

(3)參數(shù)估計(jì)無(wú)統(tǒng)計(jì)學(xué)意義

有時(shí)候會(huì)發(fā)現(xiàn)所有自變量參數(shù)估計(jì)均無(wú)統(tǒng)計(jì)學(xué)意義,是不是很讓你沮喪盅藻?(不管你沮不沮喪购桑,反正我都看在眼里)如果你認(rèn)為從專(zhuān)業(yè)角度不大可能所有自變量都無(wú)統(tǒng)計(jì)學(xué)意義畅铭,那你可以看下是不是標(biāo)準(zhǔn)誤太大導(dǎo)致的Wald卡方檢驗(yàn)失效,如果是勃蜘,不妨換用似然比檢驗(yàn)重新分析硕噩。如果不是,那你默哀缭贡,如果你知道原因請(qǐng)告訴我炉擅!

(4)只看參數(shù)檢驗(yàn)結(jié)果

看到參數(shù)結(jié)果就認(rèn)為分析結(jié)束了,這就是典型的只管工作完成阳惹,不理會(huì)工作質(zhì)量坑资。很少有人喜歡看擬合優(yōu)度的結(jié)果,盡管擬合優(yōu)度確實(shí)有用穆端,尤其是在模型比較時(shí)袱贮。擬合優(yōu)度通俗來(lái)講就是看你求得的模型與實(shí)際數(shù)據(jù)的符合程度。logistic回歸中有很多指標(biāo)可用于擬合優(yōu)度的評(píng)價(jià)体啰,如Pearson卡方攒巍、Deviance、AIC荒勇、似然比統(tǒng)計(jì)量等柒莉。只要你不是非得追究它們的來(lái)歷,這些指標(biāo)的用法還是比較簡(jiǎn)單的沽翔,通常用于模型的比較兢孝。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市仅偎,隨后出現(xiàn)的幾起案子跨蟹,更是在濱河造成了極大的恐慌,老刑警劉巖橘沥,帶你破解...
    沈念sama閱讀 218,451評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件窗轩,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡座咆,警方通過(guò)查閱死者的電腦和手機(jī)痢艺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)介陶,“玉大人堤舒,你說(shuō)我怎么就攤上這事〔肝兀” “怎么了舌缤?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,782評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我友驮,道長(zhǎng)漂羊,這世上最難降的妖魔是什么驾锰? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,709評(píng)論 1 294
  • 正文 為了忘掉前任卸留,我火速辦了婚禮,結(jié)果婚禮上椭豫,老公的妹妹穿的比我還像新娘耻瑟。我一直安慰自己,他們只是感情好赏酥,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布喳整。 她就那樣靜靜地躺著,像睡著了一般裸扶。 火紅的嫁衣襯著肌膚如雪框都。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,578評(píng)論 1 305
  • 那天呵晨,我揣著相機(jī)與錄音魏保,去河邊找鬼。 笑死摸屠,一個(gè)胖子當(dāng)著我的面吹牛谓罗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播季二,決...
    沈念sama閱讀 40,320評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼檩咱,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了胯舷?” 一聲冷哼從身側(cè)響起刻蚯,我...
    開(kāi)封第一講書(shū)人閱讀 39,241評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎桑嘶,沒(méi)想到半個(gè)月后芦倒,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,686評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡不翩,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評(píng)論 3 336
  • 正文 我和宋清朗相戀三年兵扬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片口蝠。...
    茶點(diǎn)故事閱讀 39,992評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡器钟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出妙蔗,到底是詐尸還是另有隱情傲霸,我是刑警寧澤,帶...
    沈念sama閱讀 35,715評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站昙啄,受9級(jí)特大地震影響穆役,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜梳凛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評(píng)論 3 330
  • 文/蒙蒙 一耿币、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧韧拒,春花似錦淹接、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,912評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至楷掉,卻和暖如春厢蒜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背烹植。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,040評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工斑鸦, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人刊橘。 一個(gè)月前我還...
    沈念sama閱讀 48,173評(píng)論 3 370
  • 正文 我出身青樓鄙才,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親促绵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子攒庵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 機(jī)器學(xué)習(xí)是做NLP和計(jì)算機(jī)視覺(jué)這類(lèi)應(yīng)用算法的基礎(chǔ),雖然現(xiàn)在深度學(xué)習(xí)模型大行其道败晴,但是懂一些傳統(tǒng)算法的原理和它們之間...
    在河之簡(jiǎn)閱讀 20,507評(píng)論 4 65
  • 面試的是BAT某家機(jī)器學(xué)習(xí)崗 1.可以用于任務(wù)分配的算法 貪心浓冒,動(dòng)態(tài)規(guī)劃,分支限界法尖坤,拍賣(mài)算法以及一些人工智能算法...
    HeartGo閱讀 3,365評(píng)論 7 34
  • 回歸分析可以說(shuō)是統(tǒng)計(jì)學(xué)中內(nèi)容最豐富稳懒、應(yīng)用最廣泛的分支。這一點(diǎn)幾乎不帶夸張慢味。包括最簡(jiǎn)單的 t 檢驗(yàn)场梆、方差分析也都可以...
    wyrover閱讀 5,437評(píng)論 2 20
  • 注:題中所指的『機(jī)器學(xué)習(xí)』不包括『深度學(xué)習(xí)』。本篇文章以理論推導(dǎo)為主纯路,不涉及代碼實(shí)現(xiàn)或油。 前些日子定下了未來(lái)三年左右...
    我偏笑_NSNirvana閱讀 39,980評(píng)論 12 145
  • 命中有時(shí)終須有,命中無(wú)時(shí)莫強(qiáng)求
    花花世界有你有我閱讀 160評(píng)論 0 0