PH525x series - Simpson’s Paradox

  • batch effect(批次效應(yīng))

在高通量研究中邦蜜,常常被忽略的一個(gè)問(wèn)題就是批次效應(yīng)甲脏,簡(jiǎn)單的說(shuō)拓诸,批次效應(yīng)就是由實(shí)驗(yàn)條件碱鳞、試劑批次和實(shí)驗(yàn)人員等等因素的不同桑李,而造成試驗(yàn)出現(xiàn)誤差并混淆(confounding)試驗(yàn)結(jié)果。

  • Simpson’s Paradox(辛普森悖論)

辛普森悖論是概率和統(tǒng)計(jì)學(xué)中的一種現(xiàn)象窿给,即幾組不同的數(shù)據(jù)中均存在一種趨勢(shì)贵白,但當(dāng)這些數(shù)據(jù)組合在一起后,這種趨勢(shì)消失或反轉(zhuǎn)崩泡。而其中的原因通常是跟因素混淆有關(guān)禁荒,舉例說(shuō)明:

library(dagdata)
data(admissions)
head(admissions)
##admissions數(shù)據(jù)是6個(gè)不同的專業(yè)的錄取記錄
#  Major Number Percent Gender  total
#1     A    825      62      1 511.50
#2     B    560      63      1 352.80
#3     C    325      37      1 120.25
#4     D    417      33      1 137.61
#5     E    191      28      1  53.48
#6     F    373       6      1  22.38
##通過(guò)chi-square檢測(cè)性別與錄取率之間的關(guān)系
index <- admissions$Gender==1
men <- admissions[index,]
women <- admissions[!index,]
menYes <- sum(men$Number*men$Percent/100)
menNo <- sum(men$Number*(1-men$Percent/100))
womenYes <- sum(women$Number*women$Percent/100)
womenNo <- sum(women$Number*(1-women$Percent/100))
tab <- matrix(c(menYes,womenYes,menNo,womenNo),2,2)
print(chisq.test(tab)$p.val)
## [1] 9.139492e-22

p值小于0.05,即原假設(shè)應(yīng)被拒絕(性別和錄取比例是互相獨(dú)立的)允华。但是如果我們依據(jù)專業(yè)對(duì)數(shù)據(jù)進(jìn)行分組圈浇,這種相關(guān)性就會(huì)消失,原因在于“男性“與”難度較低的那些專業(yè)“這兩個(gè)因素發(fā)生了混淆:

y=cbind(admissions[1:6,5],admissions[7:12,5])
y=sweep(y,2,colSums(y),"/")*100
x=rowMeans(cbind(admissions[1:6,3],admissions[7:12,3]))
library(rafalib)
mypar()
matplot(x,y,xlab="percent that gets in the major",ylab="percent that applies to major",col=c("blue","red"),cex=1.5)
legend("topleft",c("Male","Female"),col=c("blue","red"),pch=c("1","2"),box.lty=0)
202001141347.png

從圖中可以看出靴寂,男性其實(shí)是更傾向于被簡(jiǎn)單一些的專業(yè)錄取的磷蜀。但是,當(dāng)我們使用專業(yè)這一因素對(duì)數(shù)據(jù)進(jìn)行分層分析的話百炬,批次效應(yīng)就會(huì)消失:

y=cbind(admissions[1:6,3],admissions[7:12,3])
matplot(1:6,y,xaxt="n",xlab="major",ylab="percent",col=c("blue","red"),cex=1.5)
axis(1,1:6,LETTERS[1:6])
legend("topright",c("Male","Female"),col=c("blue","red"),pch=c("1","2"),
box.lty=0)
202001141343.png

閱讀原文請(qǐng)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末褐隆,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子剖踊,更是在濱河造成了極大的恐慌庶弃,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件德澈,死亡現(xiàn)場(chǎng)離奇詭異歇攻,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)梆造,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門缴守,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人镇辉,你說(shuō)我怎么就攤上這事屡穗。” “怎么了忽肛?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵村砂,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我屹逛,道長(zhǎng)础废,這世上最難降的妖魔是什么汛骂? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮色迂,結(jié)果婚禮上香缺,老公的妹妹穿的比我還像新娘。我一直安慰自己歇僧,他們只是感情好图张,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著诈悍,像睡著了一般祸轮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上侥钳,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天适袜,我揣著相機(jī)與錄音,去河邊找鬼舷夺。 笑死苦酱,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的给猾。 我是一名探鬼主播疫萤,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼敢伸!你這毒婦竟也來(lái)了扯饶?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤池颈,失蹤者是張志新(化名)和其女友劉穎尾序,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體躯砰,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡每币,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了琢歇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片脯爪。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖矿微,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情尚揣,我是刑警寧澤涌矢,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站快骗,受9級(jí)特大地震影響娜庇,放射性物質(zhì)發(fā)生泄漏塔次。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一名秀、第九天 我趴在偏房一處隱蔽的房頂上張望励负。 院中可真熱鬧,春花似錦匕得、人聲如沸继榆。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)略吨。三九已至,卻和暖如春考阱,著一層夾襖步出監(jiān)牢的瞬間翠忠,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工乞榨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秽之,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓吃既,卻偏偏與公主長(zhǎng)得像考榨,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子态秧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • title: DALS025-批次效應(yīng)01-什么是批次效應(yīng)date: 2019-08-25 12:0:00type...
    backup備份閱讀 1,877評(píng)論 0 7
  • 怕影響心情董虱,捱過(guò)了中秋,今天申鱼,才帶我的小狗去看病愤诱,雖然小東西已經(jīng)病入膏肓,沒(méi)有了看的意義捐友,不過(guò)是花錢買心寬...
    非鬼亦非仙閱讀 524評(píng)論 1 0
  • 放下《瓦爾登湖》躺床上休息淫半,輾轉(zhuǎn)反側(cè),將睡又眠匣砖,將醒又寐科吭,這已成了習(xí)慣,總會(huì)反復(fù)幾次躺下起來(lái)做點(diǎn)什么才能正常入眠猴鲫,...
    越兒笑傾城閱讀 386評(píng)論 0 4
  • 001 我想讀書(shū)对人,但不知道應(yīng)該讀些啥? 由內(nèi)而外拂共,問(wèn)自己最想解決什么問(wèn)題牺弄。想增強(qiáng)專業(yè)技能,從專業(yè)入門書(shū)籍開(kāi)始挑選宜狐,...
    何阿予閱讀 139評(píng)論 0 2