在本期中,我將說明孟德爾隨機化的基礎(chǔ)概念與研究框架返劲,并解釋如何使用孟德爾隨機化去解決常規(guī)流行病學(xué)問題赛不。
2.1什么是孟德爾隨機化疗垛?
孟德爾隨機化是在非實驗數(shù)據(jù)中使用遺傳變異來估計暴露和結(jié)句之間的因果關(guān)系。在這里宾肺,我們使用“暴露”一詞來指代假定的因果風(fēng)險因素溯饵,有時也稱為中間表型,它可以是生物標志物(Biomarker)锨用、人體測量指標(Physical
measurement)或任何其他可能影響結(jié)果的風(fēng)險因素(Risk
factor)丰刊。通常情況下,結(jié)局是疾病增拥,但并不局限于疾病啄巧。非實驗數(shù)據(jù)涵蓋了所有觀察性研究,包括橫斷面和縱向掌栅,隊列研究和病例對照研究究秩仆。
2.1.1動機流行病學(xué)研究的基本目標是估計暴露對結(jié)局的影響
通常由于混淆,暴露與結(jié)果之間的觀察聯(lián)系有所不同猾封,它們之間的相關(guān)性不能作為解釋因果關(guān)系的可靠證據(jù)澄耍。例如,經(jīng)常喝紅酒的人心臟病的發(fā)病率較低晌缘,但社會經(jīng)濟狀況是葡萄酒消費和改善冠狀動脈健康的共同預(yù)測指標齐莲,因此可能是社會經(jīng)濟狀況而非葡萄酒消費是心臟病風(fēng)險的基礎(chǔ)。與此同時枚钓,反向因果關(guān)系也可能產(chǎn)生觀察聯(lián)系铅搓,例如經(jīng)常服用頭痛藥的人比沒有服用頭痛藥的人頭痛的可能性更大,但服用頭痛藥不大可能是頭痛發(fā)生率增加的原因搀捷。孟德爾隨機化的想法是找到與暴露有關(guān)的遺傳變異(或多個變異)星掰,但與影響結(jié)果的任何其他風(fēng)險因素?zé)o關(guān)多望,并且與結(jié)果不直接相關(guān)。這意味著遺傳變異與結(jié)果之間的任何關(guān)聯(lián)都必須通過變異與暴露之間的關(guān)聯(lián)來進行氢烘,因此暗示了暴露對結(jié)果的因果關(guān)系怀偷,這樣的遺傳變異將滿足工具變量(IV)的假設(shè)。
2.1.2工具變量
孟德爾隨機化的定義是“使用遺傳變異進行工具變量分析”播玖。在孟德爾隨機中椎工,遺傳變異被用作工具變量評估暴露對結(jié)局的因果效應(yīng),遺傳變異滿足工具變量的基本條件總結(jié)為:
(1) 遺傳變異與暴露有關(guān)蜀踏。
(2) 該遺傳變異與暴露-結(jié)果關(guān)聯(lián)的任何混雜因素均不相關(guān)维蒙。
(3) 該遺傳變異不會影響結(jié)果,除非可能通過與暴露的關(guān)聯(lián)來實現(xiàn)果覆。
盡管孟德爾隨機化分析通常涉及單個遺傳變異颅痊,但可以將多個變異用作單獨的IV或組合為單個IV。關(guān)于IV假設(shè)的更多細節(jié)局待,這是孟德爾隨機研究有效性的關(guān)鍵斑响,我將會在后續(xù)的內(nèi)容中進行講解。
2.1.3混雜和內(nèi)生性
在觀察性研究中钳榨,暴露與結(jié)果之間可能存在相關(guān)性的原因之一是混雜因素的影響舰罚,即暴露的內(nèi)生性⊙Τ埽混雜被定義為暴露水平不同的群體之間存在固有差異营罢,通常認為它是由人口中特定變量的分布(稱為混雜因素)導(dǎo)致的≌炎浚混雜因素是變量愤钾,是導(dǎo)致暴露和結(jié)果的共同原因。當進行多元回歸分析時候醒,由于存在未知或無法衡量的混雜因素或測量的混雜因素的不精確性能颁,暴露和結(jié)果之間通常是因果效應(yīng)的有偏估計。在分析中未經(jīng)矯正的混雜稱為“殘留混雜”倒淫,而內(nèi)生性意味著回歸模型中的回歸變量和誤差項之間存在相關(guān)性伙菊。雖然在流行病學(xué)中很少使用“外生的”和“內(nèi)生的”這兩個詞,但是這些術(shù)語具有嚴格的定義敌土,可用于理解混雜镜硕。內(nèi)生性的字面意思是“來自內(nèi)部”,內(nèi)源性的反面是外源性的返干;回歸模型的外部變量“來自外部”兴枯。術(shù)語“內(nèi)生性”包括混雜,但也包括傳統(tǒng)上認為與混雜分離的現(xiàn)象矩欠,例如測量誤差和反向因果關(guān)系财剖。如果模型中的暴露是回歸模型中的內(nèi)源性變量悠夯,則因暴露對結(jié)局的因果效應(yīng)將會有偏差。
IV可以理解為與內(nèi)源性暴露相關(guān)的外生變量躺坟,用于估計在保持所有其他因素相同的情況下改變暴露的因果效應(yīng)沦补。孟德爾隨機化也被稱為“孟德爾解混雜”,因為它旨在給出因果關(guān)系的估計咪橙,而不會因混雜因素而產(chǎn)生偏差夕膀。危險因素之間的相關(guān)性使得在觀察性研究中無法觀察一個變量的增加,而使所有其他變量保持相等美侦,因為一個因素的變化將始終伴隨著其他因素的變化产舞。盡管我們可以測量單個混雜因素并在分析中對其進行調(diào)整,但我們永遠無法確定是否已精確識別或測量了所有混雜因素音榜,從而導(dǎo)致殘留混雜庞瘸。另外捧弃,如果我們調(diào)整一個變量赠叼,該變量位于感興趣的暴露和結(jié)果之間的真正因果關(guān)系路徑上(一個中介),則這表示過度調(diào)整并削弱了因果效應(yīng)的估計值违霞。通過找到滿足IV假設(shè)的遺傳變異嘴办,我們可以估計暴露與結(jié)果之間的無混雜因素的關(guān)聯(lián)。
2.1.4隨機對照試驗的類比
孟德爾隨機化類似于隨機對照試驗(RCT)买鸽,而被認為是提供醫(yī)學(xué)證據(jù)“黃金標準”的RCT涧郊,涉及將一組個體以隨機方式分為兩個或多個亞組,這些亞組分別接受不同的治療眼五。與所有其他分配給子組相比妆艘,隨機化更為可取,因為所有可能的混雜因素(已知和未知)平均在子組之間保持平衡看幼。在孟德爾隨機化中批旺,我們使用遺傳變異來形成與RCT中相似的亞組,如圖所示诵姜。
從前述的IV假設(shè)來看汽煮,這些亞組在暴露因素中存在明顯差異,但除了因果關(guān)系“下游”的那些因素外棚唆,沒有其他任何因素有差異暇赤,故這些亞組之間結(jié)局的差異將表明暴露對結(jié)局的因果關(guān)系。一個人的遺傳變異是從其父母那里繼承的宵凌,因此不會隨機分配鞋囊。例如,如果一個人的父母都不攜帶特定的基因突變瞎惫,則該人將無法攜帶該突變溜腐。但是坯门,在現(xiàn)實的條件下,可以將人口中遺傳變異的分布視為可能是重要混雜因素的環(huán)境和社會因素的隨機分布逗扒,要使變體隨機分布的必要假設(shè)是隨機交配古戴,并且缺乏與目標變體相關(guān)的選擇效應(yīng)。盡管這些假設(shè)會有所不同矩肩,但研究表明现恼,大多數(shù)遺傳變異在整個人群中的分布相當均勻,至少在西歐的情況下如此黍檩。我們可以通過進行哈迪-溫伯格平衡檢驗來評估是否有可能偏離遺傳變異的隨機交配假設(shè)叉袍,以判斷種群中雜合子和純合子的頻率是否符合期望。盡管分配中沒有真正的隨機性刽酱,但仍將其該種分配成為準隨機化喳逛。大多數(shù)自然實驗都依賴于準隨機化,而不是實驗單元的嚴格隨機化棵里。最近的一項觀察性研究表明润文,線性回歸在所有96個非遺傳變量之間構(gòu)成的4560個關(guān)聯(lián)中,有45%的p值小于0.01殿怜。這為以下假設(shè)提供了合理性:用作工具變量的遺傳變異將獨立于許多潛在的混雜因素典蝌,因此在許多情況下,分配給遺傳亞組可被視為類似于RCT中的隨機分配头谜。但是骏掀,孟德爾隨機化從另一個方面與隨機試驗不同。孟德爾隨機化的目的不是估計遺傳效應(yīng)的大小柱告,而是估計暴露對結(jié)果的因果效應(yīng)截驮,所以與遺傳變異相關(guān)的結(jié)局的平均變化幅度可能與干預(yù)措施導(dǎo)致的變化幅度不同。另外际度,即使遺傳變異與結(jié)果之間的關(guān)聯(lián)程度很小葵袭,暴露的人群歸因風(fēng)險也不一定很低,因為暴露可能會以比遺傳變異解釋更大的變化程度甲脏。例如眶熬,他汀類藥物對低密度脂蛋白膽固醇水平的影響比低密度脂蛋白膽固醇水平與HMGCR基因變異的關(guān)聯(lián)要大幾倍,因此對后續(xù)結(jié)果的影響更大块请。
2.2為什么要使用孟德爾隨機化娜氏?
盡管使用孟德爾隨機化的主要原因是為了避免殘留混雜問題,但在特定情況下使用孟德爾隨機化還有其他原因:病例對照數(shù)據(jù)和難以衡量的暴露水平墩新。
2.2.1反向因果關(guān)系和病例對照研究
當暴露與結(jié)果之間的關(guān)聯(lián)不是由于暴露導(dǎo)致結(jié)果變化贸弥,而是由于結(jié)果導(dǎo)致暴露變化時,則發(fā)生反向因果關(guān)系海渊。如果暴露是對臨床前疾病的響應(yīng)而增加的绵疲,則可能發(fā)生這種情況哲鸳,比如在冠心病可在臨床表現(xiàn)之前因動脈粥樣硬化而暴露。由于個體的基因型是在受孕時確定的盔憨,因此無法更改徙菠,因此不會存在因果關(guān)系與基因型相關(guān)聯(lián)的反向因果關(guān)系,這也是孟德爾隨機化的優(yōu)勢郁岩。在某些情況下婿奔,也就是在已經(jīng)經(jīng)歷過結(jié)果事件的個人中,許多感興趣的風(fēng)險無法可靠地衡量问慎,因為該事件可能會使衡量結(jié)果失真萍摊。在這種情況下,可以將遺傳變異用作暴露的代理如叼,并且可以追溯評估與結(jié)果的遺傳關(guān)聯(lián)冰木。由于可以在患病的個體中測量個體的基因型,因此可以在病例對照的情況下使用孟德爾隨機化獲得因果推論笼恰。
2.2.2昂貴或難以衡量的暴露
當感興趣的曝光量昂貴或難以測量時踊沸,孟德爾隨機化可能是一種有用的技術(shù)。例如挖腰,用于生物標記物(例如水溶性維生素)的金標準測定可能花費太多雕沿,以至于無法用于大樣本,或者測量需要隔夜禁食的空腹血糖可能是不切實際的猴仑。如果遺傳變異與暴露相關(guān)(可以在子樣本或單獨的數(shù)據(jù)集中進行驗證)并且是有效的暴露IV,則可以通過遺傳變異與遺傳之間的關(guān)聯(lián)來推斷暴露與結(jié)果之間的因果關(guān)系肥哎。即使沒有測量暴露量也可以得出結(jié)果辽俗。此外,工具變量估計值不會因暴露中的經(jīng)典測量誤差(包括個體內(nèi)部差異)而衰減篡诽。這與觀察性研究相反崖飘,在觀察性研究中,暴露中的測量誤差通常會導(dǎo)致回歸系數(shù)朝著零值的方向衰減(稱為回歸稀釋偏差)杈女。另一個例子是朱浴,危險因素不僅難以度量,而且難以定義达椰。例如翰蠢,IL6R基因區(qū)域的一個變異與血清白介素6濃度(以及下游炎癥標記物的水平,包括C反應(yīng)蛋白和纖維蛋白原)有關(guān)啰劲,被證明與冠心擦翰住(CHD)風(fēng)險有關(guān)。但是蝇裤,從對遺傳變異功能的了解中廷支,我們認為所評估的因果作用不是通過升高的血清白介素6濃度來實現(xiàn)的频鉴,而是通過白介素6受體途徑中信號傳導(dǎo)的改變來實現(xiàn)的,而這是一種隨時間變化的細胞表型恋拍,因此對個體的代表性測量值并不容易確定垛孔。但是,由于可以測量遺傳變異施敢,因此可以通過孟德爾隨機評估來評估白介素6受體相關(guān)途徑對冠心病風(fēng)險的因果作用似炎。