GWAS流程

作者:rapunzel0103

鏈接:http://www.reibang.com/p/53362fe881cd

最近跑通了一遍GWAS分析,全程在linux操作,雖然具體還有好多需要微調(diào)的地方繁仁,先把代碼整理分享出來mark一下

前期準(zhǔn)備

1.理論知識(shí)

強(qiáng)烈推薦百邁客云課堂課程GWAS生物信息培訓(xùn)課程

或者可以看看我的gwas相關(guān)文章

GWAS基本分析內(nèi)容(課程學(xué)習(xí)筆記)

常用GWAS統(tǒng)計(jì)方法和模型簡(jiǎn)介(課程學(xué)習(xí)筆記)

臨床生物信息學(xué)中的GWAS分析(內(nèi)附擴(kuò)展閱讀)

精細(xì)定位——降低 GWAS的復(fù)雜度(文獻(xiàn)研讀)

2.數(shù)據(jù)下載

如果你沒有自己的數(shù)據(jù)又想做gwas分析的話,可以選擇3000水稻基因組的http://snp-seek.irri.org/數(shù)據(jù)庫直接下載,vcf、表型數(shù)據(jù)甚至plink bed/bim/fam文件直接下載级遭,gwas結(jié)果也做到了可視化

另外推薦華農(nóng)謝為博團(tuán)隊(duì)開發(fā)的這個(gè)網(wǎng)站http://ricevarmap.ncpgr.cn/v2/非常好用,提供數(shù)據(jù)下載和gwas可視化結(jié)果)

基因型數(shù)據(jù)可以根據(jù)bioproject accession編號(hào)從NCBI上下載:

表型數(shù)據(jù)直接從網(wǎng)站上以excel或csv格式導(dǎo)出:

533份樣品下載和比對(duì)挺耗時(shí)和占內(nèi)存的渺尘,建議保留bam文件挫鸽,其他的包括fastq(由bam能轉(zhuǎn)成fq)、中間文件都可以刪掉鸥跟,數(shù)據(jù)過濾質(zhì)控很快丢郊,整個(gè)項(xiàng)目做下來大概耗時(shí)一個(gè)多月吧

第一步 SNP calling

需要安裝的軟件:BWA和GATK/samtools

一盔沫、BWA比對(duì)

1.構(gòu)建index

bwa index -a is ref.fa ?或bwa index -a bwtsw ref.fa (>2G)

samtools faidx ref.fa

java -jar $picard/CreatSequenceDictionary.jar R=ref.fa O=ref.dict

2.每個(gè)樣分別比對(duì)到參考基因組

bwa mem? -t 5? -M -R "@RG\tID:A\tSM:A" ref.fa? A1_1.fq A1_2.fq > A1.sam ?&

bwa mem? -t 5? -M -R "@RG\tID:A\tSM:A" ref.fa? A2_1.fq A2_2.fq > A2.sam ? & ? ? 以此類推.......(-M 將shorter split hits標(biāo)記為次優(yōu),可以兼容Picard.-R 每個(gè)標(biāo)記號(hào)需不同枫匾,方便后面合并)

3.SortSam

java -jar $picard/SortSam.jar I=A.sam O=A1.sort.bam SO=coordinate

4.MarkDuplicates

java -jar $picard/MarkDuplicates.jar I=A1.sort.bam O=A1.Mark.bam M=A1.metrics?

二架诞、SNP檢測(cè)

1.RealignerTargetCreator

java -jar $GATK -R $ref -T RealignerTargetCreator -I A1.Mark.bam -o A1.realign.interval_list

2.IndelRealigner

java -jar $GATK -R $ref -T IndelRealigner -I A1.Mark.bam? -o A1.realn.bam -targetIntervals A1.realign.interval_list

3.HaplotypeCaller

?java -jar $GATK -T HaplotypeCaller -R $ref -ERC GVCF -I A1.realn.bam? ? ?? --variant_index_type LINEAR --variant_index_parameter 128000 ? ? -o A1.gvcf

4.CombineGVCFs

?java -jar $GATK -T CombineGVCFs -R $ref --disable_auto_index_creation_and_locking_when_reading_rods --variant A1.gvcf?A2.gvcf?A3.gvcf??.... ? -o combine.gvcf ?(這一步需要把每個(gè)樣品的gvcf合并)

5.GenotypeGVCFs

java?? -jar $GATK -T GenotypeGVCFs -nt 4 -R $ref --disable_auto_index_creation_and_locking_when_reading_rods? ?? -o test_final.vcf --variant combine.gvcf

第二步 基因型填補(bǔ)

需要安裝的軟件:Tassel/beagle等

1. tassel (-LDKNNilmputationPlugin參數(shù)有誤,沒有跑成功, 有朋友指出LDKNNi后面是大寫的i干茉,不是小寫的L,以后再試試)

perl /home/user/soft/tassel_v5/run_pipeline.pl -Xms512m -Xmx5g -importGuess ?test_final.vcf -LDKNNiImputationPlugin -highLDSSites 50 -knnTaxa 10 -maxLDDistance 100000000 -endPlugin -export test.imputed.vcf -exportType VCF

也可以java -jar sTASSEL.jar 在窗口操作 記得給服務(wù)器接顯示屏

2.beagle

java -jar beagle.08Jun17.d8b.jar gt=test_final.vcf?out=test.imputed.vcf

第三步 數(shù)據(jù)篩選及格式轉(zhuǎn)換

需要安裝的軟件:plink等

1.按MAF>0.05和缺失率<0.1過濾

/home/user/soft/plink --vcf test.imputed.vcf--maf 0.05 --geno 0.1--recode vcf-iid --out test.filter --allow-extra-chr (非數(shù)字染色體號(hào)ChrUn/Sy用此參數(shù), 建議盡量把染色體號(hào)轉(zhuǎn)成數(shù)字谴忧,另外需要對(duì)vcf中的標(biāo)記ID進(jìn)行編號(hào))

2.對(duì)標(biāo)記進(jìn)行LD篩選

/home/user/soft/plink --vcf test.filter.vcf--indep-pairwise 50 10 0.2--out test.filterLD --allow-extra-chr (.in文件里是入選的標(biāo)記id)

3.提取篩選結(jié)果

/home/user/soft/plink --vcf test.filterLD.vcf --make-bed--extracttest.filter.in --out? test.filter.prune.in

4.轉(zhuǎn)換成structure/admixture格式

/soft/plink --bfile test.filter.prune.in--recodestructure--out test.filter.prune.in ?#生成. recode.strct_in為structure輸入格式

/soft/plink --bfile test.filter.prune.in--recode12--out test.filter.prune.in ?#生成.ped為admixture輸入格式

第四步 群體結(jié)構(gòu)

需要安裝的軟件:structure/admixture等

這里我選了比較簡(jiǎn)單admixture來做 k值范圍1到13

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 1 >>log.txt

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 2 >>log.txt

.......

/soft/admixture_linux-1.3.0/admixture --cv test.filter.ped 13 >>log.txt

wait

grep "CV error" log.txt >k_1to13

取CV error最小時(shí)的k值=10, ?其中test.filter.prune.in.10.Q結(jié)果文件作為關(guān)聯(lián)分析的輸入源文件(去掉最后一列 添加表頭和ID)

第五步 親緣關(guān)系/PCA(選做)

需要安裝的軟件: tassel等( PCA分析可以用R包,已經(jīng)做了群體結(jié)構(gòu)這里就沒做PCA分析)

perl?/tassel_v5/run_pipeline.pl -importGuess test_impute.vcf -KinshipPlugin ?-method Centered_IBS -endPlugin -export test_kinship.txt -exportType SqrMatrix

第六步 關(guān)聯(lián)分析

需要安裝的軟件: tassel/GAPIT/FaSt-LMM等( GAPIT很強(qiáng)大等脂,要裝很多R包俏蛮,自動(dòng)做圖可視化撑蚌。FaSt-LMM以后打算嘗試一下)

輸入文件的格式需要手動(dòng)修改一下上遥,也比較簡(jiǎn)單 (如圖)

test.best_k10.txt

test.trait.txt

test_kinship.txt

1.vcf轉(zhuǎn)hapmap格式

perl /tassel_v5/run_pipeline.pl -fork1 -vcf test.imputed.vcf? -export test -exportType Hapmap -runfork1

2.SNP位點(diǎn)排序

perl /tassel_v5/run_pipeline.pl -SortGenotypeFilePlugin -inputFile test.hmp.txt? -outputFile test_sort -fileType Hapmap

得到test.hmp.txt

3. GLM模型

perl /tassel_v5/run_pipeline.pl -fork1 -h test_sort.hmp.txt -fork2 -r test.trait.txt -fork3 -q test.best_k10.txt -excludeLastTrait -combine4 -input1 -input2 -input3 -intersect -glm -export test_glm -runfork1 -runfork2 -runfork3

4.MLM模型

perl /tassel_v5/run_pipeline.pl -fork1 -h test_sort.hmp.txt -fork2 -r test.trait.txt -fork3 -q test.best_k10.txt -excludeLastTrait -fork4 -k test_kinship.txt -combine5? -input1 -input2 -input3 -intersect -combine6 -input5 -input4 -mlm -mlmVarCompEst P3D -mlmCompressionLevel None -export test_mlm -runfork1 -runfork2 -runfork3

最后得到關(guān)聯(lián)分析的結(jié)果文件,喜大普奔争涌!

當(dāng)然GWAS分析需要根據(jù)實(shí)際項(xiàng)目材料的需要粉楚,靈活地選擇分析方法,理解統(tǒng)計(jì)學(xué)亮垫、群體遺傳學(xué)等原理模软,認(rèn)識(shí)GWAS的特點(diǎn)和局限性還是很有必要的。這里只是簡(jiǎn)單地在linux上跑通了一遍常用的流程饮潦,有很多R包MVP燃异,GAPIT等等可以做并且一鍵出圖如CMplot~有很多不懂的地方需要多學(xué)習(xí),畢竟大牛都是自己手動(dòng)寫腳本來分析继蜡,不怎么用軟件的回俐。。/(ㄒoㄒ)/

其他參考:http://blog.sina.com.cn/s/blog_83f77c940102w3d2.html

https://wenku.baidu.com/view/efdb4115a2161479171128e9.html

作者:rapunzel0103

鏈接:http://www.reibang.com/p/53362fe881cd

來源:簡(jiǎn)書

著作權(quán)歸作者所有稀并。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)仅颇,非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末碘举,一起剝皮案震驚了整個(gè)濱河市忘瓦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌引颈,老刑警劉巖耕皮,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異蝙场,居然都是意外死亡凌停,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門李丰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來苦锨,“玉大人,你說我怎么就攤上這事≈凼妫” “怎么了拉庶?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)秃励。 經(jīng)常有香客問我氏仗,道長(zhǎng),這世上最難降的妖魔是什么夺鲜? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任皆尔,我火速辦了婚禮,結(jié)果婚禮上币励,老公的妹妹穿的比我還像新娘慷蠕。我一直安慰自己,他們只是感情好食呻,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布流炕。 她就那樣靜靜地躺著,像睡著了一般仅胞。 火紅的嫁衣襯著肌膚如雪每辟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天干旧,我揣著相機(jī)與錄音渠欺,去河邊找鬼。 笑死椎眯,一個(gè)胖子當(dāng)著我的面吹牛挠将,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播盅视,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼捐名,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了闹击?” 一聲冷哼從身側(cè)響起镶蹋,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎赏半,沒想到半個(gè)月后贺归,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡断箫,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年拂酣,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片仲义。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡婶熬,死狀恐怖剑勾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情赵颅,我是刑警寧澤虽另,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站饺谬,受9級(jí)特大地震影響捂刺,放射性物質(zhì)發(fā)生泄漏办成。R本人自食惡果不足惜遂填,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望深滚。 院中可真熱鬧拔鹰,春花似錦仪缸、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽独悴。三九已至例书,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間刻炒,已是汗流浹背决采。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坟奥,地道東北人树瞭。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像爱谁,于是被迫代替她去往敵國和親晒喷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容