RNA-seq 檢測(cè)變異之 GATK 最佳實(shí)踐流程

tags: RNA-seq GATK STAR SNP INDEL


RNA-seq 序列比對(duì)

對(duì) RNA-seq 產(chǎn)出的數(shù)據(jù)進(jìn)行變異檢測(cè)分析盗迟,與常規(guī)重測(cè)序的主要區(qū)別就在序列比對(duì)這一步屎债,因?yàn)?RNA-seq 的數(shù)據(jù)是來(lái)自轉(zhuǎn)錄本的,比對(duì)到參考基因組需要跨越轉(zhuǎn)錄剪切位點(diǎn)稼钩,所以 RNA-seq 進(jìn)行變異檢測(cè)的重點(diǎn)就在于跨剪切位點(diǎn)的精確序列比對(duì)狞换。

有一篇文獻(xiàn) systematic evaluation of spliced alignment programs
for RNA-seq data
對(duì) RNA-seq 數(shù)據(jù)常用的 11 款比對(duì)軟件進(jìn)行了詳細(xì)的比較測(cè)試歧胁,例如 tophat2, STAR 等。 GATK 發(fā)布的 RNA-seq 數(shù)據(jù)變異檢測(cè)最佳實(shí)踐流程用了 STAR 2-pass 這一方法進(jìn)行序列比對(duì)桶现,STAR 發(fā)表的文章至今已被引用 1900 余次躲雅,這款軟件的比對(duì)速度很快,也是 ENCODE 項(xiàng)目的御用比對(duì)軟件骡和。

STAR 2-pass 模式需要進(jìn)行兩次序列比對(duì)相赁,建立兩次參考基因組索引。它的思路是第一次建參考基因組索引之后進(jìn)行初步的序列比對(duì)慰于,根據(jù)初步比對(duì)結(jié)果得到該樣本所有的剪切位點(diǎn)信息钮科,包括參考基因組注釋 GTF 中已知的剪切位點(diǎn)和比對(duì)時(shí)新發(fā)現(xiàn)的剪切位點(diǎn),然后利用第一次比對(duì)得到的剪切位點(diǎn)信息重新對(duì)參考基因組建立索引婆赠,然后進(jìn)行第二次的序列比對(duì)绵脯,這樣可以得到更精確的比對(duì)結(jié)果。

這里使用了一個(gè)測(cè)試數(shù)據(jù)演示流程休里,第一次對(duì)參考基因組建索引:

# star 1-pass index
STAR --runThreadN 8 --runMode genomeGenerate \
        --genomeDir ./star_index/ \
        --genomeFastaFiles ./genome/chrX.fa \
        --sjdbGTFfile ./genes/chrX.gtf

然后進(jìn)行第一次序列比對(duì):

#star 1-pass align
STAR --runThreadN 8 --genomeDir ./star_index/ \
        --readFilesIn ./samples/ERR188044_chrX_1.fastq.gz ./samples/ERR188044_chrX_2.fastq.gz \
        --readFilesCommand zcat \
        --outFileNamePrefix ./star_1pass/ERR188044

之后根據(jù)第一次比對(duì)得到的所有剪切位點(diǎn)蛆挫,重新對(duì)參考基因組建立索引:

# star 2-pass index
STAR --runThreadN 8 --runMode genomeGenerate \
        --genomeDir ./star_index_2pass/ \
        --genomeFastaFiles ./genome/chrX.fa \
        --sjdbFileChrStartEnd ./star_1pass/ERR188044SJ.out.tab

再進(jìn)行 STAR 二次序列比對(duì):

# star 2-pass align
STAR --runThreadN 8 --genomeDir ./star_index_2pass/ \
        --readFilesIn ./samples/ERR188044_chrX_1.fastq.gz ./samples/ERR188044_chrX_2.fastq.gz \
        --readFilesCommand zcat \
        --outFileNamePrefix ./star_2pass/ERR188044

由于后面要用 GATK 進(jìn)行 call 變異,還需要對(duì)比對(duì)結(jié)果 SAM 文件進(jìn)行一些處理妙黍,這些都可以用 picard 來(lái)做悴侵,包括 SAM 頭文件添加 @RG 標(biāo)簽,SAM 文件排序并轉(zhuǎn) BAM 格式废境,然后標(biāo)記 duplicate:

# picard Add read groups, sort, mark duplicates, and create index
java -jar picard.jar AddOrReplaceReadGroups \
        I=./star_2pass/ERR188044Aligned.out.sam \
        O=./star_2pass/ERR188044_rg_added_sorted.bam \
        SO=coordinate \
        RGID=ERR188044 \
        RGLB=rna \
        RGPL=illumina \
        RGPU=hiseq \
        RGSM=ERR188044 

java -jar picard.jar MarkDuplicates \
        I=./star_2pass/ERR188044_rg_added_sorted.bam \
        O=./star_2pass/ERR188044_dedup.bam  \
        CREATE_INDEX=true \
        VALIDATION_STRINGENCY=SILENT \
        M=./star_2pass/ERR188044_dedup.metrics

到此序列比對(duì)就完成了畜挨。


使用 GATK 進(jìn)行變異檢測(cè)

感覺(jué) GATK 里面的工具都很慢(相對(duì)于其他的軟件特別慢!)噩凹,都是單線程在跑巴元,有的雖然可以設(shè)置為多線程但是感覺(jué)沒(méi)啥速度上的提升,所以要有點(diǎn)耐心……

由于 STAR 軟件使用的 MAPQ 標(biāo)準(zhǔn)與 GATK 不同驮宴,而且比對(duì)時(shí)會(huì)有 reads 的片段落到內(nèi)含子區(qū)間逮刨,需要進(jìn)行一步 MAPQ 同步和 reads 剪切,使用 GATK 專為 RNA-seq 應(yīng)用開(kāi)發(fā)的工具 SplitNCigarReads 進(jìn)行操縱堵泽,它會(huì)將落在內(nèi)含子區(qū)間的 reads 片段直接切除修己,并對(duì) MAPQ 進(jìn)行調(diào)整。DNA 測(cè)序的重測(cè)序應(yīng)用中也有序列比對(duì)軟件的 MAPQ 與 GATK 無(wú)法直接對(duì)接的情況迎罗,需要進(jìn)行調(diào)整睬愤。

# samtools faidx chrX.fa
# samtools dict chrX.fa
java -jar GenomeAnalysisTK.jar -T SplitNCigarReads \
        -R ./genome/chrX.fa \
        -I ./star_2pass/ERR188044_dedup.bam \
        -o ./star_2pass/ERR188044_dedup_split.bam \
        -rf ReassignOneMappingQuality \
        -RMQF 255 \
        -RMQT 60 \
        -U ALLOW_N_CIGAR_READS

之后就是可選的 Indel Realignment,對(duì)已知的 indel 區(qū)域附近的 reads 重新比對(duì)纹安,可以稍微提高 indel 檢測(cè)的真陽(yáng)性率尤辱,如果時(shí)間緊張也可以不做砂豌,這一步影響很輕微 :)

# 可選步驟 IndelRealign
java -jar GenomeAnalysisTK.jar -T RealignerTargetCreator \
        -R ./genome/chrX.fa \
        -I ./star_2pass/ERR188044_dedup_split.bam \
        -o ./star_2pass/ERR188044_realign_interval.list \
        -known Mills_and_1000G_gold_standard.indels.hg19.sites.vcf 

java -jar GenomeAnalysisTK.jar -T IndelRealigner \
        -R ./genome/chrX.fa \
        -I ./star_2pass/ERR188044_dedup_split.bam \
        -known Mills_and_1000G_gold_standard.indels.hg19.sites.vcf \
        -o ./star_2pass/ERR188044_realign.bam \
        -targetIntervals ./star_2pass/ERR188044_realign_interval.list

然后還是可選的 BQSR,這一步操作主要是針對(duì)測(cè)序質(zhì)量不太好的數(shù)據(jù)光督,進(jìn)行堿基質(zhì)量再校準(zhǔn)阳距,如果對(duì)自己的測(cè)序數(shù)據(jù)質(zhì)量足夠自信可以省略,2500 之后 Hiseq 儀器的數(shù)據(jù)質(zhì)量都挺不錯(cuò)的结借,可以根據(jù) FastQC 結(jié)果來(lái)決定筐摘。這一步省了又能節(jié)省時(shí)間 :)

# 可選步驟 BQSR
java -jar GenomeAnalysisTK.jar \
        -T BaseRecalibrator \
        -R ./genome/chrX.fa \
        -I ./star_2pass/ERR188044_realign.bam \
        -knownSites 1000G_phase1.snps.high_confidence.hg19.sites.vcf \
        -knownSites Mills_and_1000G_gold_standard.indels.hg19.sites.vcf \
        -o ./star_2pass/ERR188044_recal_data.table

java -jar GenomeAnalysisTK.jar  \
        -T PrintReads \
        -R ./genome/chrX.fa \
        -I ./star_2pass/ERR188044_realign.bam \
        -BQSR ./star_2pass/ERR188044_recal_data.table \
        -o ./star_2pass/ERR188044_BQSR.bam

比如下面的數(shù)據(jù)就可以放心的省略這兩步了:

R1 數(shù)據(jù)質(zhì)量夠好
R1 數(shù)據(jù)質(zhì)量夠好
R2 數(shù)據(jù)質(zhì)量也夠好
R2 數(shù)據(jù)質(zhì)量也夠好

現(xiàn)在終于可以進(jìn)行變異檢測(cè)了,GATK 官網(wǎng)說(shuō) HC 表現(xiàn)比 UC 好船老,所以這里用 HC 進(jìn)行變異檢測(cè):

java -jar GenomeAnalysisTK.jar -T HaplotypeCaller \
        -R ./genome/chrX.fa \
        -I ./star_2pass/ERR188044_dedup_split.bam \
        -dontUseSoftClippedBases \
        -stand_call_conf 20.0 \
        -o ./star_2pass/ERR188044.vcf

call 完變異之后再進(jìn)行過(guò)濾:

java -jar GenomeAnalysisTK.jar \
        -T VariantFiltration \
        -R ./genome/chrX.fa \
        -V ./star_2pass/ERR188044.vcf \
        -window 35 \
        -cluster 3 \
        -filterName FS -filter "FS > 30.0" \
        -filterName QD -filter "QD < 2.0" \
        -o ./star_2pass/ERR188044_filtered.vcf

然后就拿到變異檢測(cè)結(jié)果了咖熟,可以用 ANNOVAR 或 SnpEff 或 VEP 進(jìn)行注釋,根據(jù)自己的需要進(jìn)行篩選了努隙。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末球恤,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子荸镊,更是在濱河造成了極大的恐慌,老刑警劉巖堪置,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件躬存,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡舀锨,警方通過(guò)查閱死者的電腦和手機(jī)岭洲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)坎匿,“玉大人盾剩,你說(shuō)我怎么就攤上這事√媸撸” “怎么了告私?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)承桥。 經(jīng)常有香客問(wèn)我驻粟,道長(zhǎng),這世上最難降的妖魔是什么凶异? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任蜀撑,我火速辦了婚禮,結(jié)果婚禮上剩彬,老公的妹妹穿的比我還像新娘酷麦。我一直安慰自己,他們只是感情好喉恋,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布沃饶。 她就那樣靜靜地躺著粪摘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绍坝。 梳的紋絲不亂的頭發(fā)上徘意,一...
    開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音轩褐,去河邊找鬼椎咧。 笑死,一個(gè)胖子當(dāng)著我的面吹牛把介,可吹牛的內(nèi)容都是我干的勤讽。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼拗踢,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼脚牍!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起巢墅,我...
    開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤诸狭,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后君纫,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體驯遇,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年蓄髓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了叉庐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡会喝,死狀恐怖陡叠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肢执,我是刑警寧澤枉阵,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站蔚万,受9級(jí)特大地震影響岭妖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜反璃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一昵慌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧淮蜈,春花似錦斋攀、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)侧蘸。三九已至,卻和暖如春鹉梨,著一層夾襖步出監(jiān)牢的瞬間讳癌,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工存皂, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留晌坤,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓旦袋,卻偏偏與公主長(zhǎng)得像骤菠,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子疤孕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容