Manta輸出VCF文件
Manta運(yùn)行完畢后涂佃,將在$ {MANTA_ANALYSIS_PATH}/results/variants
目錄下輸出一組VCF格式的結(jié)果文件。
-
如果用戶使用的是germline的檢測(cè)模式骚亿,結(jié)果文件將包括:
diploidSV.vcf.gz
,candidateSV.vcf.gz
和candidateSmallIndels.vcf.gz
。
如果用戶使用的是somatic檢測(cè)模式中的Tumor-Normal积担,結(jié)果文件將包括:
somaticSV.vcf.gz
惩猫,diploidSV.vcf.gz
芝硬,candidateSV.vcf.gz
和candidateSmallIndels.vcf.gz
。-
如果用戶使用的是somatic檢測(cè)模式中的Tumor-Only轧房,結(jié)果文件將包括:
tumorSV.vcf.gz
拌阴,candidateSV.vcf.gz
和candidateSmallIndels.vcf.gz
。
無論是diploidSV.vcf.gz
奶镶,somaticSV.vcf.gz
還是tumorSV.vcf.gz
迟赃,他們描述sv的規(guī)則是一致的,只是在記錄的信息上略有不同厂镇。如捺氢,
- 基因型判定信息:
somaticSV.vcf.gz
和tumorSV.vcf.gz
不包含基因型判定的相關(guān)信息,例如GT, GQ, PL等剪撬; - 打分信息:
diploidSV.vcf.gz
的胚系突變打分展示在QUAL中摄乒,somaticSV.vcf.gz
中的體細(xì)胞變異打分展示在FORMAT
的SOMATICSCORE
中,而tumorSV.vcf.gz
中不包含打分信息,需要自己通過PR和SR信息進(jìn)行篩選馍佑,得到較為可靠的SV斋否。
使用gzip -d -c *.file.gz > *.file
命令可生成解壓縮的VCF文件。
輸出VCF中記錄的SV類型
片段缺失(Deletion)
對(duì)于大的片段缺失拭荤,在VCF中ALT
一列會(huì)有<DEL>
的標(biāo)志茵臭,ID
中將以MantaDEL
開頭,使用grep "<DEL>" diploidSV.vcf
命令可以直接將這一類的變異提取出來舅世。CHROM
和POS
中記錄的是該Deletion在參考基因組上的起始位置旦委,FORMAT
中END
記錄的是Deletion在參考基因組上的終止位置,SVLEN
記錄的是缺失片段的長度雏亚。
FORMAT
中的PR
和SR
記錄的是支持REF和ALT基因型的Paired Reads數(shù)和Split Reads數(shù)缨硝。
在diploidSV.vcf
中還會(huì)在FORMAT
中包含基因型相關(guān)的信息,如GT罢低,GQ查辩, PL等(不懂這些概念?請(qǐng)參考:https://software.broadinstitute.org/gatk/documentation/article.php?id=1268)网持。
# diploidSV.vcf
CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1
1 15552819 MantaDEL:1225:0:1:0:0:0 G <DEL> 442 PASS END=15563511;SVTYPE=DEL;SVLEN=-10692;SVINSLEN=2;SVINSSEQ=TA GT:FT:GQ:PL:PR:SR 0/1:PASS:334:492,0,331:15,11:15,8
# somaticSV.vcf
CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Normal Tumor
3 122354925 MantaDEL:7341:0:1:0:0:0 A <DEL> . MinSomaticScore END=185785642;SVTYPE=DEL;SVLEN=-63430717;SVINSLEN=1;SVINSSEQ=C;SOMATIC;SOMATICSCORE=16 PR:SR 47,0:149,0 283,2:975,4
片段插入(Insertions with incomplete insert sequence assembly)
對(duì)于大的片段插入宜岛,Manta會(huì)在CHROM
和POS
中記錄DNA片段的插入位置,并在ALT
中加入<INS>
的標(biāo)志功舀,ID
中將以MantaINS
開頭萍倡。這里插入的“DNA片段”,個(gè)人理解指的是外源的DNA片段辟汰,即無法比對(duì)到參考基因組列敲,或者無法比對(duì)到參考基因組唯一位置。因此莉擒,Manta只能通過斷點(diǎn)附近的reads得到插入片段兩端的序列酿炸,但無法將整個(gè)插入片段的序列組裝起來(如果有不同意見瘫絮,歡迎留言討論)涨冀。INFO
中的LEFT_SVINSSEQ
和RIGHT_SVINSSEQ
給出了插入片段左右兩端的序列信息。
CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1
1 11031132 MantaINS:5:22234:22234:0:3:0 A <INS> 999 PASS END=11031132;SVTYPE=INS;CIPOS=0,20;CIEND=0,20;HOMLEN=20;HOMSEQ=GAGGCAGAGGCTGCAGTGAG;LEFT_SVINSSEQ=GAGGCAGAGGCTGCAGTGAGTCCAGCCTGGGGGACAGAGTGAGACCCTGTCTCAAAAAGAAAAAAAAAACAGCATAGGCACTGGTGTCAGTAGGCATCTGGGTTTGAATCCCACCTCTGTTGTGTGTATGTGTGTGTGTGTGTGTGTGTACCTGTTGCTTAGTTTCAGTTTATTTCTGTGAGTTGATTGTATGATAATGATGGTGATGATAGTAATAATAGTGATGGTAGTAGAGGGATGATATTGATGGTGATGGTGGTGATGATGATGTGAATGGTGGTGATGATAGTGATGGTGGTGATGGTGGTGATGATGATGGTGATGGTGACAATCATGGTAGTGATGGTCACAGTGATGATGGTGCTGGTGATGGTGGTGATGATGGTGTTAATGGTGGTGAT;RIGHT_SVINSSEQ=GACATGGATTATGGGATACTCACGTGTACTTTAAAAAATACAGGCTGGGGCCGAGCACGGTGGCTCACGCCTGTAACCCCAGCACTTTGGGAGGCCGAGGCGGGTGGATCACGAGGTCAGGAGTTCAAGACCAGCCTGGCCAACATGGCGAAACCCCATCTCTACTAAACATACAAAAATTAGCAGGGCATGGTGGTGTGTACCTGTAATCCCAGCTACCCAGGAGGCTGAGGCAGGAGAATCACTGGAACCCGG GT:FT:GQ:PL:PR:SR 1/1:PASS:136:999,139,0:0,12:0,37
小的插入和缺失(Small indels)
Manta中麦萤,符合以下幾個(gè)條件的插入或缺失會(huì)被歸類于small indels:
- 該突變可以完全用插入序列和缺失序列來表示鹿鳖。
- 插入序列或缺失序列的長度小于1000bp。
- 有精確的變異的斷點(diǎn)和插入/缺失序列壮莹。
雖然這些小的indels的ID也以MantaDEL
或MantaINS
開頭翅帜,但在VCF中的表示方式和前述的DEL和INS不同,Manta將這些變異的完整的插入/缺失序列給在了REF
或ALT
中命满。并且會(huì)在INFO中增加CIGAR
標(biāo)簽涝滴,對(duì)此類變異進(jìn)行描述。
CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1
1 2954348 MantaINS:244:0:0:0:0:0 A ACCTGGGTCTCGTCTGCCACGGATTGCTCTCCGTGCTCCCCAGAGCGAGGTGCAGATGCCAGGGACCCTCTC 999 PASS END=2954348;SVTYPE=INS;SVLEN=71;CIGAR=1M71I;CIPOS=0,17;HOMLEN=17;HOMSEQ=CCTGGGTCTCGTCTGCC GT:FT:GQ:PL:PR:SR 1/1:PASS:88:999,91,0:0,0:0,33
1 1302326 MantaDEL:98:0:0:0:1:1 GAATGAGTGGATTGGTGAGTGAATTGGTGAGTTGAATTGGTGTGTGTAGTGGATGAGTGTGGATGAATGTGAATTGGCGAGTATGGATGTGTGAATTGGTGAGTGTGAATGTGTGGATTGGTGAGTGAATTGGTGAGTTGAATTGGTGTGTGTAGTGTGGATGAGTGTGAATTGGCGAGTGTGGATGAGTGTGAATTGGTGAGTGTG GCAGTGTGAA 904 PASS END=1302532;SVTYPE=DEL;SVLEN=-206;CIGAR=1M9I206D GT:FT:GQ:PL:PR:SR 1/1:PASS:61:957,64,0:0,1:0,24
串聯(lián)重復(fù)(Tandem Duplicate)
Manta沒有辦法檢測(cè)散在重復(fù)(Dispersed duplications),但可以檢出串聯(lián)重復(fù)(Tandem Duplicate)歼疮。
在VCF結(jié)果文件中杂抽,串聯(lián)重復(fù)的
ID
以MantaDUP:TANDEM
開頭,CHROM
和POS
記錄開始位置韩脏,END
記錄結(jié)束為止缩麸。如下:
1 1413234 MantaDUP:TANDEM:123:0:1:0:0:0 C <DUP:TANDEM> 514 PASS END=1413364;SVTYPE=DUP;SVLEN=130;SVINSLEN=3;SVINSSEQ=TGT GT:FT:GQ:PL:PR:SR 0/1:PASS:504:564,0,501:14,1:41,19
染色體易位(Translocation)
Manta對(duì)于染色體間易位和染色體內(nèi)易位不做特殊區(qū)分,ID
都以MantaBND
開頭赡矢,BND即breakend的縮寫杭朱。在CHROM
、POS
中展示第一個(gè)斷點(diǎn)位置吹散,在ALT
中展示第二個(gè)斷點(diǎn)位置弧械,例如:A]10:115172011]
、[12:70547434[C
送浊。通過比較第一個(gè)斷點(diǎn)和第二個(gè)斷點(diǎn)的染色體梦谜,可以判斷是染色體間易位還是染色體內(nèi)易位(這里為了描述方便,使用了“第一個(gè)斷點(diǎn)”袭景、“第二個(gè)斷點(diǎn)”的描述方式唁桩,事實(shí)上兩個(gè)斷點(diǎn)并沒有順序之分)。
值得注意的是耸棒,ALT
中方括號(hào)的方向在判斷融合基因中有重要的作用荒澡。...]...]
指易位序列在第一個(gè)斷點(diǎn)位置的3'端,[...[...
指易位序列在第一個(gè)斷點(diǎn)位置的5‘端与殃,如下圖单山。
Manta會(huì)用兩條記錄(也就是兩個(gè)BND)來描述一個(gè)易位產(chǎn)生的新的連接點(diǎn),這兩條記錄互為MATE關(guān)系幅疼,在
FORMATA
的MATEID
標(biāo)簽可找到另一條記錄的ID米奸。如下,
CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1
# example1
1 180903258 MantaBND:13113:0:1:0:0:0:0 C C[3:48537167[ 314 PASS SVTYPE=BND;MATEID=MantaBND:13113:0:1:0:0:0:1;CIPOS=0,3;HOMLEN=3;HOMSEQ=GCA;BND_DEPTH=30;MATE_BND_DEPTH=31 GT:FT:GQ:PL:PR:SR 0/1:PASS:314:364,0,423:20,9:24,6
3 48537167 MantaBND:13113:0:1:0:0:0:1 G ]1:180903258]G 314 PASS SVTYPE=BND;MATEID=MantaBND:13113:0:1:0:0:0:0;CIPOS=0,3;HOMLEN=3;HOMSEQ=CAC;BND_DEPTH=31;MATE_BND_DEPTH=30 GT:FT:GQ:PL:PR:SR 0/1:PASS:314:364,0,423:20,9:24,6
# example2
12 34017350 MantaBND:114233:0:1:0:0:0:0 C C]13:48856953] 58 PASS SVTYPE=BND;MATEID=MantaBND:114233:0:1:0:0:0:1;IMPRECISE;CIPOS=-318,319;BND_DEPTH=35;MATE_BND_DEPTH=34 GT:FT:GQ:PL:PR 0/1:PASS:58:108,0,286:20,9
13 48856953 MantaBND:114233:0:1:0:0:0:1 A A]12:34017350] 58 PASS SVTYPE=BND;MATEID=MantaBND:114233:0:1:0:0:0:0;IMPRECISE;CIPOS=-287,288;BND_DEPTH=34;MATE_BND_DEPTH=35 GT:FT:GQ:PL:PR 0/1:PASS:58:108,0,286:20,9
染色體片段在易位的過程中爽篷,可能會(huì)平移并連接到另一段染色體上(見下圖 variant a)悴晰,也可能翻轉(zhuǎn)之后再連接到另一段染色體上(見下圖 variant b)。具體看上面的兩個(gè)例子逐工,其中example1
的兩條記錄ALT中的方括號(hào)方向不一樣铡溪,它對(duì)應(yīng)的是variant a這種情況;example2
的兩條記錄中方括號(hào)方向一致泪喊,對(duì)應(yīng)的是variant b這種情況棕硫。
染色體倒位(Inversion)
在默認(rèn)情況下,Manta會(huì)用4條BND記錄來表述一個(gè)倒位事件袒啼,并且這四條記錄擁有相同的EVENT
標(biāo)簽哈扮。下面是官網(wǎng)上給的例子:
chr1 17124941 MantaBND:1445:0:1:1:3:0:0 T [chr1:234919886[T 999 PASS SVTYPE=BND;MATEID=MantaBND:1445:0:1:1:3:0:1;CIPOS=0,1;HOMLEN=1;HOMSEQ=T;INV5;EVENT=MantaBND:1445:0:1:0:0:0:0;JUNCTION_QUAL=254;BND_DEPTH=107;MATE_BND_DEPTH=100 GT:FT:GQ:PL:PR:SR 0/1:PASS:999:999,0,999:65,8:15,51
chr1 17124948 MantaBND:1445:0:1:0:0:0:0 T T]chr1:234919824] 999 PASS SVTYPE=BND;MATEID=MantaBND:1445:0:1:0:0:0:1;INV3;EVENT=MantaBND:1445:0:1:0:0:0:0;JUNCTION_QUAL=999;BND_DEPTH=109;MATE_BND_DEPTH=83 GT:FT:GQ:PL:PR:SR 0/1:PASS:999:999,0,999:60,2:0,46
chr1 234919824 MantaBND:1445:0:1:0:0:0:1 G G]chr1:17124948] 999 PASS SVTYPE=BND;MATEID=MantaBND:1445:0:1:0:0:0:0;INV3;EVENT=MantaBND:1445:0:1:0:0:0:0;JUNCTION_QUAL=999;BND_DEPTH=83;MATE_BND_DEPTH=109 GT:FT:GQ:PL:PR:SR 0/1:PASS:999:999,0,999:60,2:0,46
chr1 234919885 MantaBND:1445:0:1:1:3:0:1 A [chr1:17124942[A 999 PASS SVTYPE=BND;MATEID=MantaBND:1445:0:1:1:3:0:0;CIPOS=0,1;HOMLEN=1;HOMSEQ=A;INV5;EVENT=MantaBND:1445:0:1:0:0:0:0;JUNCTION_QUAL=254;BND_DEPTH=100;MATE_BND_DEPTH=107 GT:FT:GQ:PL:PR:SR 0/1:PASS:999:999,0,999:65,8:15,51
但開發(fā)者另外提供了一個(gè)腳本$MANTA_INSTALL_FOLDER/libexec/convertInversion.py
可以將BND記錄的Inversion轉(zhuǎn)換成另一種形式(見下)纬纪,并以MantaINV
作為ID
的開頭,每條記錄表述一個(gè)新的連接點(diǎn)的信息滑肉,位置信息記錄在CHROM
和POS
中育八。一條標(biāo)準(zhǔn)的Inversion應(yīng)該有兩連接點(diǎn)的記錄,并且擁有相同的EVENT
標(biāo)簽赦邻。
chr1 17124940 MantaINV:1445:0:1:1:3:0 C <INV> 999 PASS END=234919885;SVTYPE=INV;SVLEN=217794945;CIPOS=0,1;CIEND=-1,0;HOMLEN=1;HOMSEQ=T;EVENT=MantaINV:1445:0:1:0:0:0;JUNCTION_QUAL=254;INV5 GT:FT:GQ:PL:PR:SR 0/1:PASS:999:999,0,999:65,8:15,51
chr1 17124948 MantaINV:1445:0:1:0:0:0 T <INV> 999 PASS END=234919824;SVTYPE=INV;SVLEN=217794876;EVENT=MantaINV:1445:0:1:0:0:0;JUNCTION_QUAL=999;INV3 GT:FT:GQ:PL:PR:SR 0/1:PASS:999:999,0,999:60,2:0,46
另外髓棋,在Inversion的記錄中,INFO
中還提供了INV3
惶洲、INV5
兩個(gè)標(biāo)簽按声,INV3指發(fā)生倒位的序列位于此記錄報(bào)道的連接點(diǎn)的3'端,INV5指發(fā)生倒位的序列位于此記錄報(bào)道的連接點(diǎn)的5'端恬吕。在IGV中签则,INV5標(biāo)簽對(duì)應(yīng)的是"RR" reads,INV3標(biāo)簽對(duì)應(yīng)的是"LL"reads(可參考我的另一篇筆記)铐料。
需要注意的是渐裂,在實(shí)際應(yīng)用中得到的VCF完成格式轉(zhuǎn)換后,存在很多雖然標(biāo)注為Manta:INV
钠惩,但只有一條記錄情況柒凉,因此實(shí)際上并不是一個(gè)標(biāo)準(zhǔn)的Inversion事件。
寫在后面
不同的SV檢測(cè)軟件都有自己的一套描述規(guī)則篓跛,有很多細(xì)節(jié)值得琢磨膝捞,以后有新的體會(huì)再慢慢補(bǔ)充。
參考
https://github.com/Illumina/manta/blob/master/docs/userGuide/README.md