前言——主要內(nèi)容
這篇筆記的主要內(nèi)容是StatQuest視頻教程的第29與30尤揣,第29的內(nèi)容是比值比(Odds)與比值比的log轉(zhuǎn)換(LogOdds)颂碘。第30的內(nèi)容是oddo ratio。
ratio與rate的區(qū)別
原視頻中有幾個術(shù)語比較容易混淆,下面是幾個英文的注釋。
ratio:譯為“相對比”,通常簡稱為“比”抵窒,是指一個數(shù)字與另外一個數(shù)字的比值,它可以是兩個有關(guān)的同類指標(biāo)之比叠骑,也可以是不同性質(zhì)的指標(biāo)之比李皇,常以倍數(shù)或百分數(shù)來表示,如下所示:
這里的甲、乙指標(biāo)值可以是絕對數(shù)掉房、相對數(shù)或平均數(shù)等茧跋。我們看下面的一個表:
某地區(qū)某年居民鉤蟲感染人數(shù) | ||
---|---|---|
年齡組/歲 | 檢查人數(shù) | 感染人數(shù) |
0-14 | 453 | 48 |
15-49 | 824 | 78 |
50及以上 | 206 | 18 |
合計 | 1483 | 144 |
這個表示中,0-14歲組與15-49歲組鉤蟲感染人數(shù)相對比為48/78X100%=61.54%卓囚,0-14歲組與15-49歲組鉤蟲感染率的相對比為10.60%/9.47%=1.12(倍)瘾杭。
rate:對應(yīng)的中文翻譯是“率”,率是一個具有時間概率的比哪亿,用于說明在某一時期內(nèi)某個現(xiàn)象發(fā)生的頻率或旨度粥烁。某事件在某時間的發(fā)生率為表示為:
率常以百分率(%)、千分率蝇棉、萬分率(1/萬)讨阻、十萬分率(1/10萬)等表示,在用率的指標(biāo)時篡殷,應(yīng)說明觀察時時期的時間單位钝吮。常用的率有生存率、發(fā)病率贴唇。例如2000年初搀绣,在某地區(qū)調(diào)查了1000名60歲以上的老人飞袋,經(jīng)檢查發(fā)現(xiàn)戳气,有80人患糖尿病。在2001年初隨訪這1000名60歲以上的老人巧鸭,并進行體驗瓶您,發(fā)生其中有95名老人患有糖尿病,那么糖尿病的發(fā)病率為:
也就是說纲仍,這個地區(qū)60歲以上的老人在2000年的糖尿病發(fā)病率為1.63%呀袱。
——上述內(nèi)容引用自《醫(yī)學(xué)統(tǒng)計學(xué)及SAS應(yīng)用》(王炳順.2014)
odds與odds ratio翻譯的區(qū)別
odds與odds ratio這兩個詞容易弄混,后來找了一本書(顏虹. 醫(yī)學(xué)統(tǒng)計學(xué).第2版[M]. 人民衛(wèi)生出版社, 2010.)郑叠,根據(jù)書里的翻譯如下:
odds:翻譯為優(yōu)勢比
或比數(shù)
或比值
夜赵,在不同的情況下,可以譯成不同的名稱乡革,例如在比賽時寇僧,可以譯為“勝算”,在賭博時沸版,也可以譯為“勝率”嘁傀,在疾病方面,也可以譯為“風(fēng)險”视粮。為了方便理解與描述细办,后文中我會在括號中注明。
odds ratio:翻譯為比數(shù)比
或比值比
蕾殴。
后文會詳細講這兩個術(shù)語的區(qū)別笑撞,為了避免搞混淆岛啸,此篇筆記都會使用中英文來描述比數(shù)和比數(shù)比。
odds
關(guān)于比數(shù)(odds)茴肥,我們先舉一個例子值戳。
你或許這么說過,“我支持的球隊踢贏的概率可能是1:4”炉爆。這里暗含的意思就是有5場比賽堕虹,其中我的支持的球隊會贏1場(下圖藍點所示),會輸4場(下圖紅點所示)芬首,如下所示:
那么此時我們使用比數(shù)(odds)來表示1:4
赴捞,我們也可以說是1/4
,如下所示:
計算一下郁稍,就是0.25赦政。也就是說我支持的球隊贏的勝算是0.25(注:odds在這里譯為了勝算,因為我覺得在球賽這種場合使用比數(shù)比較不太合適耀怜,這里可以理解為“勝算”)恢着。
再把這個案例修改一下,如果我支持的球隊贏得比賽的勝算(odds)是5:3财破,那么實際上暗示會有8場比賽掰派,在這8場比賽中,我支持的球隊會贏5場(藍點所示)左痢,如下所示:
因此球隊贏的勝算(odds)就是5/3
靡羡,如下所示:
計算結(jié)果就是1.7。我們可以說我支持的球隊贏的勝算(odds)是1.7俊性。
需要注意的是略步,比數(shù)(odds,這里又切換到了統(tǒng)計學(xué)術(shù)語)與概率(probability)不同定页,比數(shù)(odds)指的是某些發(fā)生的事情與不發(fā)生的事情的比值趟薄,那么在這個案例中,比數(shù)(odds)的計算就是贏的事件數(shù)目(藍色點)除以輸?shù)氖录?shù)目(紅色點)如下所示:
而概率(probability)則指的發(fā)生的事情數(shù)目(藍色點)除以所有的事件數(shù)目(贏的(藍色點)和輸?shù)模t色點))典徊,如下所示:
因此杭煎,在前文中介紹的案例里,贏的比數(shù)就是5比3宫峦,也就是1.7岔帽,如下所示:
而贏的概率則是5/8,也就是0.625导绷,如下所示:
此時我們就理解了比數(shù)(odds)與概率(probability)的區(qū)別犀勒。
此時我們看一下如何從概率(probability)中計算比值比(odds)。在上個案例中,我們看到了贾费,贏的比數(shù)(odds)為1.7钦购,概率為0.625,我們還可以計算一下輸入的概率褂萧,也就是3/8=0.375押桃。其實也就是1-贏的概率=1-5/8=3/8=0.375
,如下所示:
此時我們用贏的概率除以輸?shù)母怕实加蹋缦滤荆?/p>
計算后唱凯,如下所示:
上述講了兩種計算比數(shù)(odds)的方式,一種是根據(jù)事件數(shù)目計算谎痢,一種是根據(jù)概率計算磕昼。但經(jīng)常使用的是則是第二種,如下所示:
log odds
再回到最初的案例节猿,也就是我支持的球隊在5場比賽中票从,可能贏1場的那個案例,它的比數(shù)(odds)計算如下所示:
如果我支持的球隊表現(xiàn)更差滨嘱,勝算(odds峰鄙,就是比數(shù),我是為了方便描述比賽)為1:8太雨,那么就是下面的情況:
如果我支持的球隊表現(xiàn)再差吟榴,假設(shè)勝算(odds)為1:16,那么就是下面的情況:
或者還差呢躺彬,比如1:32煤墙,這基本上就接近0了梅惯,如下所示:
我們再假設(shè)一下宪拥,我支持的球隊很好,有可能踢個4:3铣减,或1.3她君,也就是下面的樣子:
如果還好,比如8:3(或2.7)葫哗,如下所示:
如果非常好缔刹,例如32:3(或者說是10.7),如下所示:
在這個案例中劣针,我們知道校镐,最初球隊的勝算(odds,比數(shù))是1捺典,然后上下波動鸟廓,差的時候,是從很小的值(基本上接近于0了)到1,如果很好的時候引谜,則是從1到很大牍陌。此時,我們把這個比數(shù)(odds)放到一個數(shù)軸上表示员咽,如下所示:
紅色的箭頭表示的就是球隊比較差的時候毒涧,輸?shù)膭偎悖╫dds,比數(shù))贝室,如下所示:
藍色的則相反契讲,表示的是球隊贏的勝算(odds,比數(shù))滑频,如下所示:
但是怀泊,這個數(shù)軸不太直觀,因為紅色與藍色不對稱误趴,比較起來不方便霹琼,如下所示:
例如,如果勝算(odds)是1比6的話凉当,也就是說1/6=0.17枣申,它就在下面的這個位置:
如果勝算(odds,比數(shù))是6比1的話看杭,也就是6/1=6,它就在很遠處模孩,如下所示:
但是這些比數(shù)(odds)的程度都比較類似(一個是1比6块茁,一個是6比1)佩耳,但是區(qū)別很大答恶,如下所示:
為了方便觀察包竹,我們可以把比數(shù)(odds)進行一個log轉(zhuǎn)換來解決這個問題饵蒂,轉(zhuǎn)換后的數(shù)軸如下所示:
例如渊迁,如果比數(shù)是1:6箱叁,那么經(jīng)過log轉(zhuǎn)換(log(1/6)=log(0.17)=-1.79
)則是下面這個樣子:
如果比數(shù)(odds)是6比1孤个,經(jīng)過log轉(zhuǎn)換椒楣,則是下面的這個樣子:
我們通過使用log轉(zhuǎn)換,這兩個相似的值就很對稱了,如下所示:
注:在學(xué)習(xí)統(tǒng)計學(xué)的時候,有時候我們可能看到一個指標(biāo)永品,覺得很奇怪炕桨,但是只要深入其中最根本的原理部分,就會發(fā)現(xiàn),這有一定的合理性寂殉。
odds深入
在我們剛涉及比數(shù)(odds)時秽浇,是按事件數(shù)目計算的斑举,接著我們又按概率進行了計算沸柔,這兩種方法在本質(zhì)上是相同的,如下所示:
最后我們又涉及了比數(shù)(odds)的log轉(zhuǎn)換掸读,此時我們需要注意的是更胖,概率的比值(ratio of probabilities)的log轉(zhuǎn)換稱為logit函數(shù)(logit function)梳毙,它是logistic回歸(logistic regression)的基礎(chǔ)婴程,如下所示:
此時我們明白了比數(shù)(odds)和比數(shù)的log轉(zhuǎn)換押逼,那么它有什么用處呢灾搏,看下面的一個案例。在下面的這個案例里,如果隨機選擇一對加起來的值為100的兩個數(shù)字仰冠,然后利用這對數(shù)字計算log(odds),并且繪制出直方圖蛛株,這個直方圖就比較類似于正態(tài)分布了,如下所示:
添加上正態(tài)分布曲線育拨,就是下面的這個樣子:
使用log(odds)在解決某些統(tǒng)計學(xué)問題方面很有用谨履,尤其是在我們計算贏/輸概率方面,或者是yes/no熬丧,或者是true/false這些情況時(我覺得這與二項分布有些類似笋粟,以后補一下)。
最后析蝴,我們需要注意的是比數(shù)(odds)雖然是一個比率(ratio)害捕,但它與比數(shù)比(odds ratio)是不同的,至于有哪些不同闷畸,后文會提到尝盼。
odds ratio
當(dāng)我們說比數(shù)(odds)的時候,我們僅指兩個事件發(fā)生的比(ratio)
的比值
佑菩,還以前面的案例為例說明盾沫,例如比數(shù)(odds)我們指的是我支持的球隊獲勝的比(ratio)
除以我支持的球隊失敗的比例,如下所示:
我們用圖型表示就是下面的這個樣子殿漠,藍色圓形表示贏赴精,如下所示:
紅色圓形表示輸,如下所示:
那么我支持的球隊贏的比數(shù)(odds)
就是藍色的圓形除以紅色的圓形绞幌,如下所示:
此時蕾哟,我們計算一下圓形的數(shù)目,就可以計算出比數(shù)(odds)
,如下所示:
此時需要注意的是谭确,即使比數(shù)(odds)
是一個比(ratio)
帘营,它也不是人們所謂的比數(shù)比(odds ratio)
,如下所示:
當(dāng)人們說比數(shù)比(odds ratio)
的時候琼富,事實上他們是在說比數(shù)的比(ratio of odds)
(這幾個術(shù)語很拗口仪吧,為了避免混淆庄新,我都會在括號時注明英文)鞠眉,分子與分母都是一個比數(shù)(odds),如下所示:
計算可得0.17择诈,如下所示:
就像我們計算某件事情的比數(shù)(odds)時械蹋,如果分母比分子大很多,那么比數(shù)比(odds ratio)就位于0到1這個區(qū)間上羞芍,如下所示:
相反哗戈,如果分子很大,分母很小荷科,那么比數(shù)比(odds ratio)就位于1到極大這個區(qū)間上唯咬,如下所示:
與比數(shù)(odds)類似,我們也可以把比數(shù)比(odds ratio)進行l(wèi)og轉(zhuǎn)換畏浆,讓它們看起來比較對稱胆胰,如下所示:
例如,比數(shù)比(odds ratio)為(2/4)/(3/1)
刻获,進行l(wèi)og轉(zhuǎn)換蜀涨,即log(odds ratio)=-1.79
,比數(shù)比(odds ratio)為(3/1)/(2/4)
蝎毡,進行l(wèi)og轉(zhuǎn)換厚柳,即log(odds ratio)=1.79
,如下所示:
此時我們就得到了轉(zhuǎn)換后的比數(shù)比(odds ratio)沐兵,如下所示:
odds ratio案例
此時别垮,我們看一個案例,Has cancer
表示得癌癥的情況扎谎,Yes是得碳想,No是不得,Has the mutated gene
表示含有突變基因的情況簿透,Yes是含有突變基因移袍,No是不含突變基因,如下所示:
方框中的數(shù)據(jù)是356個(356=23+117+6+210)老充,其中葡盗,我們從是否得癌癥的角度來看,29個人得癌癥(29=23+3),327人不得癌癥(327=117+210)觅够,我們從是否含有突變基因的角度來看胶背,含有突變基因的人數(shù)是140(140=23+117),不含突變基因的人數(shù)是216(216=6+210)喘先。
此時钳吟,我們可以使用比數(shù)比(odds ratio)來研究突變基因與癌癥之間的關(guān)系,如果一個人含有突變基因窘拯,那么它得病癥的風(fēng)險(odds红且,比數(shù))有多高?如下所示:
如果一個人含有突變基因涤姊,那么他得癌癥的的風(fēng)險(odds)為23/117
暇番,如果一個人不含突變基因,那么他得癌癥的風(fēng)險就是6/210
思喊,此時我們把23/117
放在分子上壁酬,把6/210
放在分母上,如下所示:
它們整體上被稱為比數(shù)比(odds ratio)恨课,如下所示:
經(jīng)計算舆乔,可得比數(shù)比(odds ratio)為6.88,這個數(shù)字告訴我們剂公,含有突變基因的人得癌癥的風(fēng)險要比不含突變基因的人風(fēng)險高出6.88倍希俩,如下所示:
把6.88進行l(wèi)og轉(zhuǎn)換,就得到了1.93诬留,這個轉(zhuǎn)換的意義類似于線性回歸中的斜纪,它表示的是兩個事件(在這個案例中是突變基因與癌癥的關(guān)系)的關(guān)聯(lián)程度,它們的值反映了事件的效應(yīng)程度(effect size)文兑,如下所示:
當(dāng)這個值很大的時候盒刚,表示突變基因是癌癥的一個很好的指標(biāo),如果這個值比較小绿贞,那么突變基因就不是癌癥的一個很好指標(biāo)因块,如下所示:
此時還有一個問題,還是與線性回歸中的一樣籍铁,我們要知道涡上,這個值是否有統(tǒng)計學(xué)上的意義,一共有3種方式來計算比數(shù)比(odds ratio)拒名,如下所示:
- Fisher's 精確檢驗
- Chi-Square檢驗
- The Wald檢驗(有人喜歡用這種方法來計算p值與置信區(qū)間)
至于哪種方法好吩愧,目前還沒有一個統(tǒng)計的認識,如下所示:
Fisher精確檢驗
我們先用Fisher精確檢驗來計算增显。
第一步雁佳,我們先把這幾個數(shù)字當(dāng)作是某個袋子中的不同顏色的巧克力豆(注:原視頻說把這些豆子是M&M豆,后來查了一下,這是美國的一個巧克力豆品牌糖权,簡稱為MM豆堵腹,它有各種顏色),得癌癥的用紅色表示星澳,不得的用藍色表示疚顷,如下所示:
第二步,在得癌癥的人中禁偎,數(shù)字是29腿堤,也就是29=26+3,如下所示:
第三步:不得癌癥的人的數(shù)字是327届垫,也就是327=117+210释液,如下所示:
第四步:計算我們抓到23個紅豆和117個藍豆的p值,如下所示:
經(jīng)計算装处,這個p值為0.00001,如下所示:
Chi-square檢驗
我們再用Chi-square來檢驗一下p值浸船,它的原理就是通過比較理論值與真實值之間的差異來計算p值的妄迁。
第一步,我們先假設(shè)突變基因與癌癥沒有關(guān)系李命,如下所示:
第二步:計算整體中得癌癥的概率登淘,在這個數(shù)據(jù)集中,得癌癥的人是29個封字,即29=23+6黔州,那么它除以總的人數(shù)356(356=23+117+6+210)就是得癌癥的概率,如下所示:
第三步:計算不同組中得得癌癥的理論人數(shù)阔籽,以含有這個突變基因的組為例(這個組的人數(shù)是140流妻,即140=23+117),那么這個組中得癌癥的理論人數(shù)應(yīng)該為140 x 0.08 = 11.2笆制,如下所示:
按照同樣的方法绅这,把所有組的理論得癌癥人數(shù)都計算出來,如下所示:
第四步:比較理論值與觀察值在辆,如下所示:
至于有2個p值证薇,這主要是因為卡方檢驗通常是不連續(xù)數(shù)據(jù),但樣本量足夠大的話匆篓,可以視為連續(xù)數(shù)據(jù)浑度。因此在進行卡方檢驗時,可以使用連續(xù)性校正鸦概,也可以不使用箩张。
Wald檢驗
這種檢驗常常用于計算logistic回歸中的比數(shù)比(odds ratios)的顯示性與置信區(qū)間,如下所示:
Wald檢驗會充分利用log(odds ratios)
,它通常是服從正態(tài)分布的伏钠,如下所示:
這個直方圖是由10000個隨機的log(odds ratio)
生成的横漏,它告訴我們?nèi)绻蛔兓蚺c癌癥沒有關(guān)系的話,可能的p值大小熟掂,如下所示:
如果要在自己的計算機上繪制這個直方圖缎浇,那么隨機選擇的人的數(shù)目就是300到400。在這個案例中我們計算的步驟如下(Wald檢驗不懂赴肚,我只能照著字面翻譯):
第一素跺,我們選擇的是325(數(shù)字位于300到400之間);
第二誉券,針對每個樣本選擇一個0到1之間的隨機數(shù)指厌,例如0.01,0.73踊跟,0.95踩验;
第三,小于0.08的那些隨機數(shù)就是得樣本得癌癥的概率商玫,例如箕憾,17除以325就是0.05,小于0.08拳昌;
第四袭异,為每個樣本再挑選1個位于0到1之間的隨機數(shù)字;
第五炬藤,小于0.05的那些隨機數(shù)字就是含有突變基因的人數(shù)御铃。
至少,我們會得到一個矩陣沈矿,這個矩陣中的值和基因與癌癥之間的關(guān)系無關(guān)上真,下面主是這個矩陣,如下所示:
??细睡,計算log(odds ratio)
谷羞,做10000萬次,然后繪制出直方圖溜徙,如下所示:
這個直方圖的正態(tài)分布曲線如下所示:
在x=0處湃缎,log(odds ratio)=0,它表示不同組之間的比數(shù)(odds)沒有差異蠢壹,這個正態(tài)分布的標(biāo)準差為0.43嗓违,如下所示:
通常使用觀測值來估計標(biāo)準差,如下所示:
計算過程如下所示:
最終結(jié)果是0.47图贸,如下所示:
我們可以發(fā)現(xiàn)蹂季,這個0.47與0.43還是比較接近的冕广。
Wald檢驗所做的就是觀測值的log(odds ratio)
距離0有多少個標(biāo)準差,如下所示:
由于Wald檢驗通常使用估計的標(biāo)準差(這里就是0.47)偿洁,那么我們使用一個中心為0撒汉,標(biāo)準差為0.47的正態(tài)分布區(qū)曲線來替換原來的直方圖,如下所示:
此時計算一下觀測值的log(odds ratio)
涕滋,如下所示:
計算可得log(odds ratio)=1.93
睬辐,它位于曲線的右側(cè)部分,如下所示:
此時我們計算一個這個值距離0有幾個標(biāo)準差宾肺,我們只用它除以標(biāo)準差即可溯饵,如下所示:
經(jīng)計算可得,觀測值的log(odds ratio)
距離0有4.11個標(biāo)準差锨用,如下所示:
按照我們平時的計算規(guī)則丰刊,通常偏離2個標(biāo)準差的p值會小于0.05,那么此時我們就可以知道log(odds ratio)
在統(tǒng)計學(xué)上的顯著的增拥,如下所示:
不過啄巧,為了得到一個精確的雙尾檢驗的p值,我們可以求出大于1.93以及小于-的.93的曲線下面積跪者,如下所示:
不過上述是傳統(tǒng)的棵帽,利用標(biāo)準正態(tài)曲線計算的方式,如下所示:
利用這種方法就意味著渣玲,大于4.11以及小于-4.11的曲線下面積的點都加在了一起,其中4.11是log(odds ratio)
離均值標(biāo)準差的數(shù)目弟晚,如下所示:
最終我們計算的結(jié)果就是忘衍,突變基因與癌癥之間沒有關(guān)系的p值是0.00005,如下所示:
三種方法總結(jié)
前面我們使用了3種方法來計算p值卿城,當(dāng)我們生成10000個隨機的log(odds ratios)
時枚钓,我們分別使用這3種方法來檢驗,如果檢驗符合預(yù)期瑟押,那么有5%的可能性p值是小于0.05的搀捷,如下所示:
從這三種方法的計算結(jié)果來看,它們在限制p值方面都表現(xiàn)得很好多望,因此你所做的就是找出你自己專業(yè)領(lǐng)域中最常用的方法嫩舟。就作者個人的看法,如果都能通過所有的檢驗怀偷,那么他會選擇一個在邊界上的p值家厌。
總結(jié)
比數(shù)比(odds ratio)就是比數(shù)(odds)的比,如下所示:
log(odds ratio)
就是odds ratio
進行l(wèi)og轉(zhuǎn)換椎工,如下所示:
比數(shù)比(odds ratio)會告訴我們兩件事情之間的聯(lián)系饭于,例如有某種突變基因的人是否會增加其得癌癥的風(fēng)險(odds)蜀踏,如下所示:
有三種方法來計算兩個事件之間的p值,分別為Fisher精確檢驗掰吕,Chi-Square檢驗果覆,Wald檢驗,在前面的案例中殖熟,這3個檢驗得到的p值如下所示: