回歸分析

對(duì)于自己的數(shù)據(jù),選擇正確的回歸方法非常重要憔涉,今天我們就學(xué)習(xí)一下主流的回歸分析。

今天主要講解主流回歸的區(qū)分方式析苫,文末有思維邏輯圖可以參照兜叨。

在講之前,跟大家一起回顧一下衩侥,回歸分析和相關(guān)性分析的區(qū)別国旷。

1.回歸分析

大家在接觸的時(shí)候都知道我們是為了研究某幾個(gè)自變量,對(duì)一個(gè)因變量造成的影響情況茫死。

這一些原因是否真的會(huì)導(dǎo)致這個(gè)結(jié)果跪但?還有,這些原因出現(xiàn)時(shí)峦萎,會(huì)造成結(jié)果出現(xiàn)的機(jī)率是多少屡久。

比如說(shuō)我們吃的越多長(zhǎng)得越胖,那么進(jìn)食量就是原因爱榔,體重就是結(jié)果被环。

那么我們?yōu)榱搜芯窟M(jìn)食量對(duì)體重的影響情況,我們就會(huì)選擇回歸分析详幽。

只要是涉及到誰(shuí)對(duì)誰(shuí)的影響情況筛欢,我們通通選擇的都是回歸分析。

2.相關(guān)性分析

在統(tǒng)計(jì)學(xué)里面相關(guān)性分析是指的是兩個(gè)變量之間互為關(guān)聯(lián)唇聘,方向一致或者是方向不一致版姑,在統(tǒng)計(jì)學(xué)里面被稱(chēng)為相關(guān)性。

相關(guān)性分析是一定沒(méi)有前因后果的迟郎,是不存在原因發(fā)生在前面漠酿,從而導(dǎo)致的后面的后果的這種情況。

我們可以明確的確定其中一個(gè)變量是起因而另外一個(gè)變量是結(jié)果的時(shí)候谎亩,選擇回歸分析炒嘲。

我們?cè)谏罾锩婵梢灾v解誰(shuí)和誰(shuí)之間有相關(guān)關(guān)系宇姚,但是在統(tǒng)計(jì)學(xué)里面,我們一定要嚴(yán)謹(jǐn)?shù)拿枋龀蛇M(jìn)食量對(duì)體重有影響關(guān)系夫凸,因?yàn)樵诮y(tǒng)計(jì)學(xué)里面影響關(guān)系浑劳,也就是我們所說(shuō)的這個(gè)回歸分析和相關(guān)性分析是不同的。

在統(tǒng)計(jì)分析的時(shí)候夭拌,我們到底是選擇這個(gè)回歸分析呢魔熏,還是選擇相關(guān)性分析?

比如吸煙和肺癌鸽扁,我們想知道的是吸煙會(huì)不會(huì)導(dǎo)致肺癌發(fā)生蒜绽,也就是說(shuō)吸煙會(huì)不會(huì)影響肺癌的發(fā)生,這時(shí)候我們選擇回歸分析桶现。

總之躲雅,相關(guān)性分析就是關(guān)聯(lián)關(guān)系不存在原因和結(jié)果,你好我好你差我差是一個(gè)狀態(tài)骡和;而回歸分析有明確的前因后果相赁。

回歸分析的種類(lèi):

回歸分析有很多,我們常用到的慰于,按因變量的類(lèi)型分為三類(lèi):

1.線性回歸分析

2.Logistic回歸分析

3.生存回歸分析

下面一一說(shuō)明钮科,后面有附圖:

一、線性回歸

因變量是連續(xù)數(shù)值型變量婆赠,不論自變量是哪種绵脯,都選擇線性回歸。

比如說(shuō)像體重休里,可以取到40公斤桨嫁,41公斤,42公斤份帐,甚至還可以到44.14 ,41.2等等楣导,像這種在坐標(biāo)軸上任意位置可以取到數(shù)值废境,就被稱(chēng)作為連續(xù)數(shù)值型的變量。

我們的體重筒繁、年齡噩凹、生化指標(biāo)等等,這樣一些數(shù)值都是被稱(chēng)作為連續(xù)數(shù)值型的變量毡咏,就應(yīng)該選擇線性回歸分析驮宴。

敲黑板:

如果自變量里面有無(wú)序分類(lèi)變量的時(shí)候,在做線性回歸的時(shí)候呕缭,一定要做正確的虛擬化處理堵泽,這個(gè)是關(guān)鍵修己。

線性回歸分三類(lèi):

1.一元線性回歸

因變量只有一個(gè),自變量有一個(gè)迎罗,就是用一元線性回歸睬愤。

2.多元線性回歸

因變量只有一個(gè),自變量有多個(gè)纹安,就用多元線性回歸尤辱。

注意多個(gè)自變量之間的共線性問(wèn)題:

什么是共線性?

共線性厢岂,即同線性或同線型光督。統(tǒng)計(jì)學(xué)中,共線性即多重共線性塔粒。

多重共線性(Multicollinearity)是指線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確结借。

就是某一個(gè)矩陣?yán)锩嬗袃闪凶兞恐丿B了,就會(huì)導(dǎo)致回歸分析的結(jié)果出現(xiàn)很大的錯(cuò)誤窗怒,spss軟件里面普通的這個(gè)OLS(最小二乘估計(jì))是失效的映跟。

比如,自變量里面有一個(gè)alt和ast扬虚,如果自變量還有一個(gè)是alt和ast的比值努隙,三個(gè)自變量里面有一個(gè)自變量完全是通過(guò)另外兩個(gè)自變量計(jì)算出來(lái)的,這就存在極強(qiáng)的共線性辜昵。

還有一種共線性的情況荸镊,就像這個(gè)alt和ast是反映同一個(gè)內(nèi)容的,那么這個(gè)alt和ast本身之間就可就可能存在一個(gè)比較強(qiáng)的共線性堪置。

當(dāng)這個(gè)共線性達(dá)到一定的嚴(yán)重程度的時(shí)候躬存,那么我們?cè)趕pss里面,用這個(gè)OLS算出的結(jié)果一定錯(cuò)誤舀锨。有可能p值無(wú)窮大……等等岭洲,就是那種完全沒(méi)法解釋的情況。

用什么方法合適呢坎匿?有三種方法:

①嶺回歸盾剩,spss可以實(shí)現(xiàn)。

②主成分回歸替蔬,spss可以實(shí)現(xiàn)告私。

③偏最小二乘法,可以用PLS實(shí)現(xiàn)承桥。

3.路徑分析

因變量有多個(gè)驻粟,就要用路徑分析,用軟件AMOS結(jié)構(gòu)方程軟件做分析凶异。

例如:一個(gè)或者幾個(gè)因素是否會(huì)影響患者的焦慮情況蜀撑,這個(gè)抑郁情況挤巡,疼痛情況等。

原因有幾個(gè)不管屯掖,只要造成的結(jié)果有多個(gè)玄柏,Spss軟件是處理不了的,因?yàn)閟pss軟件只允許選入一個(gè)因變量贴铜,所以因變量有多個(gè)的時(shí)候粪摘,需要改用MOD結(jié)構(gòu)方程軟件進(jìn)行路徑分析。

二绍坝、Logistic回歸分析

1.二元Logistic回歸分析

因變量是二分類(lèi)變量徘意,不管自變量是何類(lèi)型,都屬于此類(lèi)回歸分析轩褐。

例如椎咧,復(fù)發(fā)vs未復(fù)發(fā),陰性vs陽(yáng)性把介,生存vs死亡……

2.多元Logistic回歸分析

因變量是無(wú)序多分類(lèi)變量勤讽,什么是無(wú)序多分類(lèi)呢?

簡(jiǎn)單來(lái)說(shuō)拗踢,就是因變量大于等于三個(gè)脚牍,而且相互之間是沒(méi)有順序的。

比如巢墅,血型诸狭,職業(yè)等。

一般來(lái)說(shuō)不要有五類(lèi)以上君纫,如果變量很多驯遇,做回歸分析的時(shí)候,算出來(lái)的表格會(huì)有很多張蓄髓,而且很繁瑣叉庐。

版面很珍貴的期刊沒(méi)有那么多版面,一般因變量都選擇三類(lèi)会喝。

3.有序Logistic回歸分析

因(結(jié)局)變量是有序的陡叠,無(wú)論自變量是連續(xù)還是分類(lèi),就要選擇有序logistic回歸好乐。

例如:疾病的嚴(yán)重程度,輕中重瓦宜;及格蔚万,良好,優(yōu)秀……

敲黑板:

有序因變量有一個(gè)平行線檢驗(yàn)平行性临庇,看起來(lái)有序的變量沒(méi)有通過(guò)檢驗(yàn)的時(shí)候反璃,不能選擇有序logistic回歸昵慌,就得選擇多元logistic回歸。

總結(jié):首先判斷因變量是有序的淮蜈,選擇有序logistic回歸斋攀,如果后面的平行線檢驗(yàn)沒(méi)有通過(guò),就改用無(wú)序logistic回歸梧田,也就是多元logistic回歸淳蔼。

三、COX生存回歸分析

是二分類(lèi)logistic回歸的一個(gè)演化裁眯。

因?yàn)樯娣治鼍褪茄芯看婊钏劳鲳睦妫蛘邚?fù)發(fā)未復(fù)發(fā),在二元logistic回歸的基礎(chǔ)上穿稳,納入了一個(gè)時(shí)間數(shù)據(jù)存皂。

比如,如果因變量是存活和死亡兩類(lèi)逢艘,那么應(yīng)該選擇二元logistic回歸旦袋,但是數(shù)據(jù)里面除了有患者存活和死亡的狀態(tài)之外,還記錄了對(duì)于這個(gè)死亡患者的這個(gè)存活時(shí)間它改,這時(shí)就選擇COX生存回歸分析疤孕。

以上就是我對(duì)回歸分析的框架學(xué)習(xí),后續(xù)再深入研究每個(gè)知識(shí)點(diǎn)搔课。

特別要注意的一點(diǎn)是胰柑,回歸分析前要做單因素分析篩查:

在進(jìn)行回歸分析的時(shí)候,為了減少自變量之間的混雜干擾爬泥,不建議把多個(gè)自變量同時(shí)納入到回歸分析里面柬讨。

在納入之前,首先要對(duì)自變量進(jìn)行一個(gè)這個(gè)單因素的篩查袍啡,沒(méi)有關(guān)系的就直接舍棄踩官。

線性回歸的單因素篩查方法和logistic回歸的篩查方法,都是不一樣的境输。

后期再研究蔗牡。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市嗅剖,隨后出現(xiàn)的幾起案子辩越,更是在濱河造成了極大的恐慌,老刑警劉巖信粮,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件黔攒,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)督惰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)不傅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人赏胚,你說(shuō)我怎么就攤上這事访娶。” “怎么了觉阅?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵崖疤,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我留拾,道長(zhǎng)戳晌,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任痴柔,我火速辦了婚禮沦偎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘咳蔚。我一直安慰自己豪嚎,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布谈火。 她就那樣靜靜地躺著侈询,像睡著了一般。 火紅的嫁衣襯著肌膚如雪糯耍。 梳的紋絲不亂的頭發(fā)上扔字,一...
    開(kāi)封第一講書(shū)人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音温技,去河邊找鬼革为。 笑死,一個(gè)胖子當(dāng)著我的面吹牛舵鳞,可吹牛的內(nèi)容都是我干的震檩。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼蜓堕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼抛虏!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起套才,我...
    開(kāi)封第一講書(shū)人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤迂猴,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后背伴,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體沸毁,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡儡率,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了以清。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡崎逃,死狀恐怖掷倔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情个绍,我是刑警寧澤勒葱,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站巴柿,受9級(jí)特大地震影響凛虽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜广恢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一凯旋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧钉迷,春花似錦至非、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至舰蟆,卻和暖如春趣惠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背身害。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工味悄, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人题造。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓傍菇,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親界赔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子丢习,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 回歸,最初是遺傳學(xué)中的一個(gè)名詞淮悼,是由生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓首先提出來(lái)的咐低。他在研究人類(lèi)的身高時(shí),發(fā)現(xiàn)高個(gè)子回歸于人...
    黃成甲閱讀 46,060評(píng)論 0 61
  • 回歸分析 - 刺猬的溫馴 - 博客園 http://www.cnblogs.com/chenying99/p/4...
    葡萄喃喃囈語(yǔ)閱讀 1,650評(píng)論 1 7
  • 回歸分析 回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴(lài)的定量關(guān)系的一種統(tǒng)計(jì)...
    冬_84fe閱讀 886評(píng)論 0 4
  • 回歸分析是一種預(yù)測(cè)性的建模技術(shù)钉汗,它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)器)之間的關(guān)系。這種技術(shù)通常用于預(yù)測(cè)分析鲤屡,時(shí)...
    wyrover閱讀 12,293評(píng)論 0 13
  • 今天感恩節(jié)哎损痰,感謝一直在我身邊的親朋好友。感恩相遇酒来!感恩不離不棄卢未。 中午開(kāi)了第一次的黨會(huì),身份的轉(zhuǎn)變要...
    迷月閃星情閱讀 10,569評(píng)論 0 11