Pindel檢測“復雜INDEL”的一次測試

寫在前面

最近在實際工作中,遇到了一些“復雜InDEL”容易漏檢的問題殃恒;這是由于在腫瘤組織中牌芋,一些插入和缺失可能同時發(fā)生于基因組的相同或相近的位置,造成了之前使用的SNV檢測軟件存在漏檢風險熏兄。為了解決這個問題,這幾天測試了Pindel軟件在檢測復雜INDEL方面的表現(xiàn)树姨。

Pindel的使用

使用conda安裝Pindel后摩桶,直接命令行運行pindel就可以查看軟件的操作文檔。其中基本的參數(shù)如下帽揪,如果要檢測全部染色體硝清,-c參數(shù)可以省略。

 pindel -f <reference.fa> -p <pindel_input>
           [and/or -i bam_configuration_file]
           -c <chromosome_name> -o <prefix_for_output_file>

其中第二個參數(shù)可以使用-p-i转晰,實話說我沒有搞清楚-p參數(shù)需要輸入的pindel_input文件到底是什么胚委,所以選擇了-i静檬,bam_configuration_file是一個配置文件暇矫,所有的bam文件以及insert size的信息就存放在這個文件里面我擂,然后軟件通過讀取這個文件來作為它的輸入,這個文件的內容格式如下:

# bam_configuration_file用tab或空格分隔扰藕;第二列即為insert size缓苛,大概即可;可輸入多個bam
sample.bam  150   sample  

除了基本參數(shù)邓深,pindel還有其他可選參數(shù)他嫡,其中我將-M參數(shù)由默認的1改為2番官,即變異支持數(shù)最少為2個,參數(shù)解釋具體如下:

-M/--minimum_support_for_event
           Pindel only calls events which have this number or more supporting 
           reads (default 1) 

結果文件

Pindel將不同的SV輸出在不同的結果文件中钢属,并在文件名中標注變異類型:

-rw-r--r-- 1 xu informatics      0 Jun  6 14:32 sample_BP  # BP = unassigned breakpoints 
-rw-r--r-- 1 xu informatics      0 Jun  6 14:32 sample_CloseEndMapped
-rw-r--r-- 1 xu informatics 259655 Jun  6 14:34 sample_D # D = deletion
-rw-r--r-- 1 xu informatics      0 Jun  6 14:35 sample_INT_final
-rw-r--r-- 1 xu informatics   8037 Jun  6 14:33 sample_INV # INV = inversion
-rw-r--r-- 1 xu informatics      0 Jun  6 14:32 sample_LI # LI = large insertion
-rw-r--r-- 1 xu informatics      0 Jun  6 14:32 sample_RP
-rw-r--r-- 1 xu informatics 242141 Jun  6 14:34 sample_SI # SI = short insertion

但是這種結果文件的格式并不太易于閱讀,也不方便后續(xù)處理门躯,因為它看起來是這樣的:

      1 ####################################################################################################
      2 0       D 1     NT 0 "" ChrID 1 BP 20915589     20915591        BP_range 20915589       20915593        Supports 11     11      + 6     6       - 5     5       S1 
      3 GAGTCCAAACCATGGGAGGCTCCTCTCCTAGACCCTGCATCCTGAAAGCTGCGTACCTGAGAGCCTGCGGTCTGGCTGCAGGGACACACCCAAGGGGAGGAGCTGCAATCGTGTCTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTTcCCGCTGCTCTG
      4                                                                                                                                                 CCTGTTT CCGCTGCTCTG
      5                                                                                                                                                 CCTGTTT CCGCTGCTCTG
      6                                                                                                                                                 CCTGTTT CCGCTGCTCTG
      7                                                                                                                                                TCCTGTTT CCGCTGCTCTG
      8                                                                                                                                                TCCTGTTT CCGCTGCTCTG
      9                                                                                                                                                TCCTGTTT CCGCTGCTCTN
     10                                                                                                                    TGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTG
     11                                                                                                                   CTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTG
     12                                                                                                        TGCAATCGTGTCTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTN
     13                                                                                                  AGGAGCTGCAATCGTGTCTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTG
     14                                                         CTGAGAGCCTGCGGTCTGGCTGCAGGGACACACCCAAGGGGAGGAGCTGCAATCGTGTCTGGGGCCCCAGCCCAGGCTGGCCGGAGCTCCTGTTT CCGCTGCTCTG
     15 ####################################################################################################
     16 1       D 6     NT 0 "" ChrID 1 BP 26235085     26235092        BP_range 26235085       26235136        Supports 6      6       + 6     6       - 0     0       S1 
     17 TGGGTTTGTTGGGAGATGCCTGGTTCTGCCAGTCTGTGACAATGTTCCAAGCTCCTCACAGCTGCTTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTTttattaTTATTA
     18                                                                                                        ATGAGCCTTTGAATAANAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     19                                                                                                 CCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     20                                                                                        TAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     21                                                                                GGCTGGGTTNAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     22                                                                  TTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     23                                                   GCTCCTCACAGCTGCTTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATTCCTGTCCTT      TTATTA
     24 ####################################################################################################
     25 2       D 19    NT 13 "GATTCCTGTCCTT"   ChrID 1 BP 26235075     26235095        BP_range 26235075       26235095        Supports 2      2       + 2     2       - 0
     26 ACTTGGCTTCTGGGTTTGTTGGGAGATGCCTGGTTCTGCCAGTCTGTGACAATGTTCCAAGCTCCTCACAGCTGCTTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGAT            
     27                                                                            TTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATGATTCCTGTCCT
     28                                                                         TGCTTGAGGACTGAGAGGGCTGGGTTAAAGTTTCCCCTAGAATGAGCCTTTGAATAAAAAGGTGCTTTTGAGGTGGGATGATTCCTGTCCT
     29 #########

因此Pindel很貼心的提供了一個腳本——pindel2vcf淆党,可以將上述的結果文件轉化為vcf格式。pindel2vcf使用的方法如下:

 pindel2vcf -p sample3chr20_D -r human_g1k_v36.fasta -R 1000GenomesPilot-NCBI36
              -d 20101123 -v sample3chr20_D.vcf

or (with -P): pindel2vcf -P sample3chr20 -r human_g1k_v36.fasta -R 1000GenomesPilot-NCBI36  -d 20101123 -v sample3chr20_all.vcf

使用-P 參數(shù)可以將所有結果文件轉為VCF讶凉,-p參數(shù)可以指定其中的一個結果文件染乌,上面示例就是只把Deletion的結果文件轉為VCF。由于此次測試我只關注INDEL懂讯,所以只轉出了兩個文件:

-rw-r--r-- 1 xu informatics   4352 Jun  6 14:40 sample_del.vcf
-rw-r--r-- 1 xu informatics   9079 Jun  6 14:43 sample_insertion.vcf

測試結果

作為測試的兩個復雜INDEL最終都被Pindel成功檢出了荷憋,100M左右的bam數(shù)據(jù)分析用時不到半個小時。

第一個INDEL

Pindel的結果記錄:

7    55242463        .       AAGG    A       .       PASS    END=55242466;HOMLEN=1;HOMSEQ=A;SVLEN=-3;SVTYPE=DEL     GT:AD   0/1:1259,876
第二個INDEL

Pindel的結果記錄:

7       55242467        .       AATTAAGAGAAG    AGC     .       PASS    END=55242478;HOMLEN=0;SVLEN=-11;SVTYPE=RPL;NTLEN=2      GT:AD   0/1:327,137
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末褐望,一起剝皮案震驚了整個濱河市勒庄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌瘫里,老刑警劉巖实蔽,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異谨读,居然都是意外死亡局装,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門劳殖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來铐尚,“玉大人,你說我怎么就攤上這事哆姻⌒觯” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵填具,是天一觀的道長统舀。 經(jīng)常有香客問我,道長劳景,這世上最難降的妖魔是什么誉简? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮盟广,結果婚禮上闷串,老公的妹妹穿的比我還像新娘。我一直安慰自己筋量,他們只是感情好烹吵,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布碉熄。 她就那樣靜靜地躺著,像睡著了一般肋拔。 火紅的嫁衣襯著肌膚如雪锈津。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天凉蜂,我揣著相機與錄音琼梆,去河邊找鬼。 笑死窿吩,一個胖子當著我的面吹牛茎杂,可吹牛的內容都是我干的。 我是一名探鬼主播纫雁,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼煌往,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了轧邪?” 一聲冷哼從身側響起刽脖,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎闲勺,沒想到半個月后曾棕,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡菜循,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年翘地,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片癌幕。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡衙耕,死狀恐怖,靈堂內的尸體忽然破棺而出勺远,到底是詐尸還是另有隱情橙喘,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布胶逢,位于F島的核電站厅瞎,受9級特大地震影響,放射性物質發(fā)生泄漏初坠。R本人自食惡果不足惜和簸,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望碟刺。 院中可真熱鬧锁保,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至浩村,卻和暖如春做葵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背心墅。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工蜂挪, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人嗓化。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像谬哀,于是被迫代替她去往敵國和親刺覆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內容