轉(zhuǎn)自生信草堂
GWAS找到大量的SNP惭聂,可是可以解釋生物學(xué)功能的SNP位點(diǎn)卻是很有限的针姿。其結(jié)果讓人看得眼花繚亂袱吆,但是單個(gè)SNP功能做不出怎么破?別擔(dān)心距淫,本文給你新思路绞绒。
從GWAS的結(jié)果中找到具有潛在功能性的基因一直的遺傳學(xué)研究的重點(diǎn)。以往的經(jīng)驗(yàn)告訴人們榕暇,離最顯著SNP最近的基因的易感性最大蓬衡,但越來越多的證據(jù)表明這種經(jīng)驗(yàn)并不十分可靠。隨著越來越多的SNP在非編碼區(qū)被發(fā)現(xiàn)彤枢,并且通過遠(yuǎn)端或近端調(diào)控機(jī)制影響特定基因的表達(dá)狰晚,人們有理由相信那些由SNP調(diào)控的基因表達(dá)改變是影響性狀的一個(gè)重要機(jī)制。因此缴啡,來自芝加哥大學(xué)的研究者們就開發(fā)了一個(gè)gene-based關(guān)聯(lián)分析軟件——PredicXcan
一壁晒、PrediXcan工作原理
作者認(rèn)為基因表達(dá)水平受到三個(gè)因素的調(diào)控,其中主要的兩個(gè)是遺傳因素和疾病狀態(tài)(圖1)业栅。 PrediXcan的目的是建立起受遺傳調(diào)控的基因表達(dá)與性狀之間的關(guān)系秒咐。
整個(gè)工作流程分為兩步:(1)估算SNP調(diào)控的基因表達(dá)水平;(2)建立基因表達(dá)水平與性狀之間的關(guān)聯(lián)碘裕。
第一步中携取,作者借助類似于機(jī)器學(xué)習(xí)的思想,利用GTEx Project, GEUVADIS 和 DGN數(shù)據(jù)庫中基因型數(shù)據(jù)和基因表達(dá)數(shù)據(jù)做訓(xùn)練集帮孔,然后估算用戶導(dǎo)入的基因型數(shù)據(jù)中缺失的表達(dá)數(shù)據(jù)雷滋。一旦得到表達(dá)數(shù)據(jù),就可建立起基因表達(dá)與性狀之間的關(guān)系。(圖2)
二惊豺、如何使用PrediXcan
2.1:文件準(zhǔn)備
運(yùn)行PrediXcan需要輸入三個(gè)文件:轉(zhuǎn)錄組預(yù)測(cè)模型文件燎孟,基因型文件和樣本信息文件。下面一一介紹尸昧。
轉(zhuǎn)錄組預(yù)測(cè)模型文件:該文件不用自己制作揩页,去PredictDB網(wǎng)站下載即可http://predictdb.org/。大家可以根據(jù)自己的需要選擇不同的組織數(shù)據(jù)烹俗。
基因型文件:該文件每一行表示一個(gè)SNP爆侣,包含的信息分別為:chromosome rsid position allele1 allele2 MAF,后面的每一列的內(nèi)容是每一個(gè)樣本在該SNP allele2的dosage幢妄,最好是每一條染色體分開制作文件兔仰。
樣本信息文件:直接將PLINK的fam文件導(dǎo)入即可。
2.2:基因表達(dá)預(yù)測(cè)
該步驟需要用到PrediXcan 的“predict”功能蕉鸳,代碼如下:
$./PrediXcan.py --predict --dosages genotype/ --dosages_prefix chr --samples samples.txt --weights model/DGN-HapMap-2015/DGN-WB_0.5.db --output_prefix results/DGN-HapMap
這一步中乎赴,我們?cè)赑rediXcan.py腳本存放的目錄運(yùn)行程序,假設(shè)我們的基因型文件的名稱前綴是“chr”,樣本信息文件的名稱為“samples.txt”且存放在基因型文件同一目錄下潮尝。該步驟會(huì)生成一個(gè)后綴為“predicted_expression.txt”的文件榕吼,存放估算的基因表達(dá)水平,可直接用于下一步勉失。
2.3:基因表達(dá)與性狀的關(guān)聯(lián)分析
該步驟需要制作一個(gè)額外的表型文件羹蚣,前兩列分別是FID和IID。從第三列起可以存放表型乱凿,數(shù)據(jù)類型可以是分類變量也可以是連續(xù)變量顽素,如果是分類變量,0表示unaffected徒蟆,1表示affected胁出。默認(rèn)缺失值是NA。如果有多個(gè)表型列段审,可以用參數(shù)—mpheno指定要分析的表型位于那一列划鸽,如—mpheno 1則表示將文件中第三列作為要分析的表型。
代碼如下:
$./PrediXcan.py --assoc --pheno My_pheno.txt --mpheno 1 --pred_exp results/TW_Brain_Frontal_predicted_expression.txt --logistic --output_prefix results/DGN-HapMap
最后奉上PrediXcan在GitHub上的下載地址https://github.com/hakyimlab/PrediXcan戚哎。小伙伴們有沒有g(shù)et新技能?快用不同的分析方法嫂用,豐富大家的文章內(nèi)容吧型凳。趕快拿起自己的GWAS數(shù)據(jù)操練起來~