MATERIALS AND METHODS
1.Local realignments and InDel calling
VarDict 通過局部重對齊(包括有監(jiān)督的和無監(jiān)督的)提高InDel的等位基因頻率統(tǒng)計跨新。有些InDel比read的長度或者核心部分短很多础拨,導(dǎo)致大多數(shù)aligners會將其與gap對齊絮宁,出現(xiàn)mismatch被強制對齊,當(dāng)mismatches出現(xiàn)很多時soft-clipping蜂科。下面給出一個由IGV做出的例子。很多時候mismatch和soft-clipping會被忽略或者錯誤處理,實際上這些是InDel的重要判定依據(jù)抠刺。當(dāng)這樣一個InDel在對齊中被發(fā)現(xiàn)時,VarDict會觸發(fā)有監(jiān)督的局部重新對齊摘昌,識別存在InDel的3'和5'端Read的不匹配對齊速妖,并添加它們以支持InDel使等位基因頻率增加。無監(jiān)督的局部重新對齊時聪黎,VarDict掃描soft-clipping附近的局部序列罕容,尋找較大的InDel。Vardict首先從同一基因組位置的 soft-clippings Reads中獲得一致序列稿饰。如果可以找到一致序列锦秒,vardict然后使用它在用戶可定義的距離(默認(rèn)為125 bp)內(nèi)查找無間隙匹配,但允許小于等于3個堿基的不匹配喉镰。當(dāng)找到匹配并遠(yuǎn)離斷點時旅择,調(diào)用刪除;當(dāng)匹配結(jié)束部分與斷點相鄰時侣姆,調(diào)用插入砌左。如果不能調(diào)用indel,vardict通過5′和3′端soft-cliping來識別連續(xù)的剪裁良好的序列(通常在5 bp內(nèi))铺敌,假設(shè)它們在插入的任意一側(cè)汇歹,并確定它們是否有匹配的端。如果發(fā)現(xiàn)不匹配≤3偿凭,則調(diào)用大插入产弹。該方法允許調(diào)用大于讀取長度的插入,以及大型復(fù)雜變量。
Detecting complex variants
VarDict可以檢測復(fù)雜的變異蕊连,刪除和插入的組合情況,其他的方法錯誤檢測或超出游昼。據(jù)觀察甘苍,在一條read中復(fù)合的proximal (<10 bp) InDels和mismatch通常被看成一個復(fù)雜變異。VarDict將一個復(fù)雜變異標(biāo)記為一個變異而非多個獨立的烘豌。當(dāng)一條read中檢測到一個InDel時载庭,VarDict進(jìn)行遞歸掃描尋找是否存在 InDel (within 10 bp) 或者mismatches (within 3 bp),若存在則組合為一個復(fù)雜變異廊佩。該規(guī)則適用于連續(xù)mismatches囚聚,檢測MNVs