SAS編程-Efficacy:如何利用Logistic回歸模型預(yù)測(cè)事件發(fā)生概率渺尘?

項(xiàng)目中一張Table需要基于Logistic回歸模型,輸出某事件發(fā)生的概率靠娱。該模型中沧烈,因變量為二分類資料掠兄,表示事件發(fā)生與否像云;自變量為定量資料。Table中需要輸出蚂夕,當(dāng)自變量為特定值時(shí)迅诬,事件發(fā)生的概率以及對(duì)應(yīng)的可信區(qū)間。

這篇文章簡(jiǎn)單介紹回歸模型婿牍,然后分享Logistic回歸模型預(yù)測(cè)概率的SAS程序?qū)崿F(xiàn)侈贷。

1. 回歸模型簡(jiǎn)介

我們常說(shuō)的自變量(X)與因變量(Y)的關(guān)系是,自變量影響因變量等脂,或者說(shuō)因變量依賴于自變量俏蛮。而回歸模型的作用,就是使得自變量X與因變量Y間的關(guān)系得到量化上遥、準(zhǔn)確的描述搏屑。

常見(jiàn)的回歸模型有線性回歸Logistic回歸以及Cox回歸粉楚。對(duì)于這3類回歸辣恋,自變量X可以是數(shù)值變量、分類變量以及等級(jí)變量模软;而對(duì)于因變量Y伟骨,線性回歸是數(shù)值變量,Logistic回歸是分類變量燃异,Cox回歸是二分類+時(shí)間變量携狭。

這3類回歸中,線性回歸是基礎(chǔ)回俐。Logistic回歸與Cox回歸是線性回歸的擴(kuò)展逛腿,即通過(guò)特定的變換(logit變換壹瘟、Cox變換),轉(zhuǎn)化為線性回歸進(jìn)行分析鳄逾。

具體的模型介紹稻轨,可以參考相關(guān)的數(shù)理統(tǒng)計(jì)教材。

2. Logistic回歸模型

前面提到Loggistic回歸的因變量是分類變量雕凹,包含3類:二分類變量殴俱、無(wú)序多分類變量、有序多分類變量枚抵。在日常分析中线欲,因變量Y為二分類變量的情況居多,我們這次事件發(fā)生結(jié)果就是二分類變量汽摹。

二分類資料可以計(jì)算出“發(fā)病率”p李丰、“未發(fā)病率”1-p。對(duì)于線性回歸模型來(lái)說(shuō)逼泣,因變量服從正態(tài)分布趴泌。而對(duì)于二分類資料,率的取值在0-1之間拉庶,不服從正態(tài)分布嗜憔,不能直接應(yīng)用線性回歸模型。這時(shí)氏仗,對(duì)率進(jìn)行l(wèi)ogit變換:

loigt P = ln[P/(1-P)]

變換后吉捶,logitP的范圍為 (-∞, +∞),服從正態(tài)分布皆尔,可以構(gòu)建線性回歸模型呐舔。Logistic回歸模型定義為:

Logistic回歸模型

由于loigt P = ln[P/(1-P)],上式也可以等價(jià)寫成:

Logistic回歸模型

這就是“發(fā)病率”P與自變量X的關(guān)系慷蠕。根據(jù)現(xiàn)有數(shù)據(jù)可以估計(jì)出回歸系數(shù)珊拼,建立回歸方程。然后砌们,將具體的自變量值代入方程杆麸,就可以獲得其對(duì)應(yīng)的事件發(fā)生概率的預(yù)測(cè)值。

3. 二項(xiàng)Logistic回歸模型的SAS實(shí)現(xiàn)

在實(shí)際應(yīng)用中浪感,對(duì)于模型我們并不需要掌握得很深昔头,只需知道如何應(yīng)用就行。

下面進(jìn)行SAS程序演示影兽,選擇SASHelp.class數(shù)據(jù)集作為演示數(shù)據(jù)集揭斧。不考慮實(shí)際意義,以二分類變量Sex作為因變量,Sex = “M”作為結(jié)果事件讹开,數(shù)值變量Height作為自變量盅视。

那么在各個(gè)Height取值下,發(fā)生Sex = “M”這個(gè)事件的預(yù)測(cè)發(fā)生概率以及對(duì)應(yīng)的可信區(qū)間旦万,實(shí)現(xiàn)程序如下:

proc logistic data = sashelp.class noprint;
  model sex(event="M") = height;
  output out = result predicted = pred lower = lcl upper = ucl;
run;

輸出結(jié)果如下:

Result

以上預(yù)測(cè)的概率值闹击,是原始數(shù)據(jù)集中的各個(gè)Height值發(fā)生目標(biāo)事件的預(yù)測(cè)概率。那么如何獲取特定Height值對(duì)應(yīng)的預(yù)測(cè)概率呢成艘?例如赏半,Height=59、69淆两、79断箫。

因?yàn)閿?shù)據(jù)集中自變量的既有值不一定涵蓋,想要分析的既定值秋冰。比如仲义,當(dāng)前數(shù)據(jù)集中就沒(méi)有Height=79的數(shù)據(jù)。這就需要自己先構(gòu)建自變量特定取值的記錄剑勾,與原始數(shù)據(jù)集拼接埃撵,然后構(gòu)建模型進(jìn)行預(yù)測(cè)

具體代碼如下:

data tmp_pred;
  do height = 59, 69, 79;
    output;
  end;
run;

data class;
  set sashelp.class(in = a) tmp_pred(in = b);
  if a then tmp_pred = 0;
  if b then tmp_pred = 1;
run;

proc logistic data = class noprint;
  model sex(event="M") = height;
  output out = result predicted = pred lower = lcl upper = ucl;
run;

模型結(jié)果如下:

Result

這樣就獲取了特定的Heigth值(59甥材、69盯另、79)的預(yù)測(cè)概率,我們可以看到原始數(shù)據(jù)集中也有Height=59洲赵、69的記錄,新增記錄與原始記錄中的預(yù)測(cè)概率是相同的商蕴。

最后叠萍,整理輸出結(jié)果時(shí),只需篩選tmp_pred = 1的記錄整理到Table中绪商,即獲取特定自變量值得預(yù)測(cè)值苛谷。這樣就完成了自變量的既定取值對(duì)應(yīng)的事件發(fā)生率的概率預(yù)測(cè)。

以上演示代碼只涉及一個(gè)亞組的分析格郁,若涉及多個(gè)亞組,需要使用by語(yǔ)句,例如by trt01pn paramcd;扇谣。演示模型中攀隔,自變量只納入了一個(gè)數(shù)值變量,如果需要納入數(shù)值變量决采,直接在模型中添加自沧。如果納入的自變量為分類變量,該變量需要在class語(yǔ)句中進(jìn)行申明树瞭。

對(duì)模型的進(jìn)一步理解拇厢,可以參考SAS官方文檔中的這個(gè)例子爱谁,SAS Help Center: Example 74.2 Logistic Modeling with Categorical Predictors

總結(jié)

這篇文章簡(jiǎn)單介紹了回歸模型的分類孝偎、二項(xiàng)Logistic回歸模型的構(gòu)建访敌,演示了利用Logistic回歸模型預(yù)測(cè)事件發(fā)生率的SAS程序?qū)崿F(xiàn)。

這里有一點(diǎn)說(shuō)明衣盾,在臨床試驗(yàn)SAS編程工作中捐顷,對(duì)于程序員來(lái)講,模型都是有統(tǒng)計(jì)師確定好的雨效,程序員只需要將結(jié)果輸出展現(xiàn)迅涮。如果對(duì)于構(gòu)建模型感興趣,可以參閱相關(guān)統(tǒng)計(jì)教材徽龟。

感謝閱讀叮姑, 歡迎關(guān)注!
若有疑問(wèn)据悔,歡迎評(píng)論交流传透!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市极颓,隨后出現(xiàn)的幾起案子朱盐,更是在濱河造成了極大的恐慌,老刑警劉巖菠隆,帶你破解...
    沈念sama閱讀 221,576評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件兵琳,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡骇径,警方通過(guò)查閱死者的電腦和手機(jī)躯肌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)破衔,“玉大人清女,你說(shuō)我怎么就攤上這事∥福” “怎么了嫡丙?”我有些...
    開封第一講書人閱讀 168,017評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)读第。 經(jīng)常有香客問(wèn)我曙博,道長(zhǎng),這世上最難降的妖魔是什么卦方? 我笑而不...
    開封第一講書人閱讀 59,626評(píng)論 1 296
  • 正文 為了忘掉前任羊瘩,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘尘吗。我一直安慰自己逝她,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評(píng)論 6 397
  • 文/花漫 我一把揭開白布睬捶。 她就那樣靜靜地躺著黔宛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪擒贸。 梳的紋絲不亂的頭發(fā)上臀晃,一...
    開封第一講書人閱讀 52,255評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音介劫,去河邊找鬼徽惋。 笑死,一個(gè)胖子當(dāng)著我的面吹牛座韵,可吹牛的內(nèi)容都是我干的险绘。 我是一名探鬼主播,決...
    沈念sama閱讀 40,825評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼誉碴,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼宦棺!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起黔帕,我...
    開封第一講書人閱讀 39,729評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤代咸,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后成黄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體呐芥,經(jīng)...
    沈念sama閱讀 46,271評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評(píng)論 3 340
  • 正文 我和宋清朗相戀三年慨默,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了贩耐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,498評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡厦取,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出管搪,到底是詐尸還是另有隱情虾攻,我是刑警寧澤,帶...
    沈念sama閱讀 36,183評(píng)論 5 350
  • 正文 年R本政府宣布更鲁,位于F島的核電站霎箍,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏澡为。R本人自食惡果不足惜漂坏,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧顶别,春花似錦谷徙、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至剩失,卻和暖如春屈尼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背拴孤。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工脾歧, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人演熟。 一個(gè)月前我還...
    沈念sama閱讀 48,906評(píng)論 3 376
  • 正文 我出身青樓鞭执,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親绽媒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蚕冬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 導(dǎo) 語(yǔ) 在日常學(xué)習(xí)或工作中經(jīng)常會(huì)使用線性回歸模型對(duì)某一事物進(jìn)行預(yù)測(cè),例如預(yù)測(cè)房?jī)r(jià)是辕、身高囤热、GDP、學(xué)生成績(jī)等获三,發(fā)現(xiàn)這...
    吃一口小肉丸閱讀 23,975評(píng)論 5 22
  • Logistic回歸的誕生 一般的線性回歸模型也是可以分類的旁蔼,雖然y值是連續(xù)的,但結(jié)合分段函數(shù)來(lái)實(shí)現(xiàn)疙教,比如:y>=...
    松下問(wèn)童子zwy閱讀 458評(píng)論 0 0
  • 回歸棺聊,最初是遺傳學(xué)中的一個(gè)名詞,是由生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓首先提出來(lái)的贞谓。他在研究人類的身高時(shí)限佩,發(fā)現(xiàn)高個(gè)子回歸于人...
    黃成甲閱讀 46,060評(píng)論 0 61
  • 多類邏輯回歸 (Multinomial Logistic Regression) 基本概念解釋與數(shù)學(xué)背景知識(shí) 回歸...
    博爾赫斯吧閱讀 29,877評(píng)論 0 5
  • 1.logistic 回歸簡(jiǎn)介 是針對(duì)變量為分類變量二進(jìn)行回歸分析的一種統(tǒng)計(jì)方法,屬于概率行非線性回歸裸弦。 在線性回...
    Joypang閱讀 11,059評(píng)論 0 1