作者:Resther
審稿:童蒙
編輯:angelica
什么是TWAS
對GWAS(genome-wide association study, 全基因組關(guān)聯(lián)分析)大家應(yīng)該比較熟悉,是分析遺傳變異(genotype, 如SNP)與表型(phenotype)之間的關(guān)聯(lián)魔市。如果某個SNP總是和某種疾病同時出現(xiàn)轩端,那么可以推測這個SNP極有可能與此疾病有關(guān),也就是這個SNP和這個phenotype協(xié)同變化赃份,有相關(guān)性饿这。但基于GWAS的結(jié)果抛丽,僅能給出候選的染色體區(qū)域噪珊,無法確切定位致病的候選基因晌缘。為了進一步縮小候選基因的范圍,研究者提出了很多方法痢站,全轉(zhuǎn)錄組關(guān)聯(lián)分析TWAS (transcriptome-wide association)是其中一種磷箕。TWAS是把轉(zhuǎn)錄調(diào)控(expression)作為遺傳變異(genotype)和表型(phenotype)之間的中介,將單個遺傳變異與表型的關(guān)聯(lián)轉(zhuǎn)換成基因/轉(zhuǎn)錄本與表型的關(guān)聯(lián)阵难。
TWAS的研究思路
第一步岳枷,基于reference panel來建模,構(gòu)建SNP和基因表達量之間的關(guān)系呜叫。reference panel中的樣本同時擁有基因分型和表達量的結(jié)果空繁,根據(jù)距離確定基因?qū)?yīng)的SNP位點,比如選擇基因上下游500kb或者1Mb范圍內(nèi)的SNP位點朱庆,擬合這些SNP位點和基因表達量之間的關(guān)系盛泡。
第二步,用第一步建模的結(jié)果來預(yù)測另外一個隊列的基因表達量椎工,這個隊列中的樣本量只有GWAS結(jié)果,稱之為gwas cohort, 這一步可以看做是對gwas cohort中的基因表達量進行填充维蒙。
第三步掰吕,用填充之后的基因表達量來分析基因和性狀之間的關(guān)聯(lián)。
從上述研究思路中可以看到颅痊,TWAS的性能主要受到兩方面影響:(1)從SNP預(yù)測基因表達的準(zhǔn)確性殖熟;(2)基因表達和表型的關(guān)聯(lián)分析。
TWAS的分析方法PrediXcan
2015年斑响,Eric R Gamazon等人為了建立起受遺傳調(diào)控的基因表達與性狀之間的關(guān)系菱属,提出了一種方法PrediXcan。
整個工作流程分為兩步:(1)估算SNP調(diào)控的基因表達水平舰罚;(2)建立基因表達水平與性狀之間的關(guān)聯(lián)纽门。
第一步中,作者利用GTEx Project营罢、GEUVADIS 和 DGN數(shù)據(jù)庫中基因型數(shù)據(jù)和基因表達數(shù)據(jù)做訓(xùn)練集赏陵,用彈性神經(jīng)網(wǎng)絡(luò)進行機器學(xué)習(xí)訓(xùn)練,并將訓(xùn)練好的權(quán)重參數(shù)儲存在PredictDB數(shù)據(jù)庫中饲漾。然后利用該模型估算GWAS數(shù)據(jù)中的基因型數(shù)據(jù)SNP對應(yīng)的表達量蝙搔。得到表達數(shù)據(jù)之后,再用logistic regression建立起基因表達與性狀之間的關(guān)系考传。
升級版的分析方法MR-JTI
2020年10月吃型,Eric R Gamazon課題組提出MR-JTI(Mendelian randomization & joint-tissue imputation) 方法,對TWAS分析做了兩個優(yōu)化:
第一僚楞,JTI方法可以提高表達量預(yù)測模型的精度勤晚,從而增加關(guān)聯(lián)分析的檢驗效能;
第二镜硕,MR方法可以解決基因多效性 (horizontal pleiotropy) 及潛在混雜因素帶來的假陽性問題运翼。
方法的流程圖如下:
首先來看第一步優(yōu)化,JTI方法兴枯。
之前的TWAS分析方法血淌,在預(yù)測表達量模型的訓(xùn)練中,未充分利用GTEx數(shù)據(jù)組織間廣泛存在的生物學(xué)相似性财剖。這里悠夯,研究者通過整合多個相似的組織 (Joint-tissue imputation, JTI) 來提升模型的預(yù)測精度。研究者同樣使用彈性神經(jīng)網(wǎng)絡(luò)方法進行訓(xùn)練躺坟,不同的是在損失函數(shù)中引用了相似性權(quán)重值:
相似性權(quán)重值的計算是以轉(zhuǎn)錄水平相似度和轉(zhuǎn)錄起始位置附近的DNaseI-hypersensitive sites (DHS, 來自ENCODE及Roadmap)峰的相似度為依據(jù)沦补,利用真實數(shù)據(jù)通過交叉驗證的方法獲得合適的超參數(shù)對相似度進行修正,提高預(yù)測精度咪橙。
結(jié)果顯示夕膀,JTI方法相較PrediXcan大幅提高了預(yù)測精度虚倒。下圖中,iGenes表示預(yù)測出的基因产舞,定義為預(yù)測值與真實值的相關(guān)性滿足:r>1, p<0.05魂奥,可以看到在所有不同的組織中,JTI都比PrediXcan預(yù)測出更多的基因易猫,后者預(yù)測出的基因中平均92.9%在JTI中也預(yù)測到了耻煤,組織所含的樣本數(shù)越小,JTI預(yù)測提升的幅度越大准颓。
第二步優(yōu)化是為了提升關(guān)聯(lián)分析的證據(jù)等級哈蝇。
作者還將TWAS接入了孟德爾隨機化 (Mendelian randomization, MR)過程,提出了MR-JTI攘已∨谏猓考慮到模型中可能廣泛存在不合適的工具變量(invalid instrument variable,即存在多效性或/且受潛在混雜影響)贯被,MR-JTI通過bootstrap LASSO對工具變量進行特征選擇眼五,矯正了多效性及潛在混雜的影響。
此方法彌補了TWAS的一大缺陷彤灶,且對于工具變量異質(zhì)性的假設(shè)較MR-Egger等經(jīng)典方法更為靈活看幼。將MR-JTI方法應(yīng)用于LDL-C疾病相關(guān)的GWAS數(shù)據(jù),與僅用JTI方法的結(jié)果進行比較幌陕,發(fā)現(xiàn)加入了孟德爾隨機化過程后诵姜,可以過濾掉大多數(shù)基因,保留下的基因中有7個已得到實驗驗證搏熄。
小 結(jié)
本文主要對TWAS分析的原理和方法進行了簡介棚唆。TWAS的優(yōu)勢在于可以找到顯著性的基因而不是SNP,因此更具有生物學(xué)意義心例。
目前宵凌,TWAS已經(jīng)成功應(yīng)用于精神分裂癥、乳腺癌止后、前列腺癌等疾病中瞎惫,相關(guān)的數(shù)據(jù)分析軟件除了上文介紹的PrediXcan和MR-JTI外,還有S-prediXcan,译株、Fusion瓜喇、 UTMOST等。從文獻的分析比較來看歉糜,MR-JTI的分析效果最佳乘寒。
下次將具體介紹軟件使用,并且對比不同軟件的分析效果匪补,不容錯過哦~
參考文獻
[1] GTEx Consortium, Gamazon, E.R., Wheeler, H.E., Shah, K.P., Mozaffari, S.V., Aquino-Michaels, K., Carroll, R.J., Eyler, A.E., Denny, J.C., Nicolae, D.L., et al. (2015). A gene-based association method for mapping traits using reference transcriptome data. Nat Genet 47, 1091–1098.
[2] Wainberg, M., Sinnott-Armstrong, N., Mancuso, N., Barbeira, A.N., Knowles, D.A., Golan, D., Ermel, R., Ruusalepp, A., Quertermous, T., Hao, K., et al. (2019). Opportunities and challenges for transcriptome-wide association studies. Nature Genetics 51, 592–599.
[3] Zhou, D., Jiang, Y., Zhong, X., Cox, N.J., Liu, C., and Gamazon, E.R. (2020). A unified framework for joint-tissue transcriptome-wide association and Mendelian randomization analysis. Nat Genet 52, 1239–1246.