Conpair---配對樣本檢查一致性及樣本污染情況

https://github.com/nygenome/conpair

依賴:python闸衫、numpy排作、scipy泡挺、GATK3

numpy渐裸、scipy安裝:

sudo pip install numpy
sudo pip install scipy

GATK4無法使用,我用的3.8.

1.官方指導(dǎo)寫的是修改配置文件,但是CONPAIR_DIR和GATK_JAR都可以通過參數(shù)添加仍劈,PYTHONPATH沒有參數(shù)添加厕倍,所以我修改配置文件只添加了CONPAIR_DIR、PYTHONPATH:

sudo vi /etc/profile
export CONPAIR_DIR=/your/path/to/CONPAIR  
export GATK_JAR=/your/path/to/GenomeAnalysisTK.jar
export PYTHONPATH=${PYTHONPATH}:/your/path/to/CONPAIR/modules/

2.參考基因組文件要求有三個,但是不需要都寫在--reference的后面贩疙,只寫第一個就行:
human_g1k_v37.fa
human_g1k_v37.fa.fai
human_g1k_v37.dict

3.生成pileup格式文件(Tumor和Normal兩個)

run_gatk_pileup_for_sample.py -B TUMOR_bam -O TUMOR_pileup 
run_gatk_pileup_for_sample.py -B TUMOR_bam -O TUMOR_pileup

其他參數(shù):

--reference REFERENCE               reference genome in the fasta format, two additional files (.fai, .dict) located in the same directory as the fasta file are required. You may choose to avoid specifying the reference by following the steps in the "default reference genome" section above.
--markers MARKERS                   the set of preselected genomic positions in the BED format. Default: ${CONPAIR_DIR}/data/markers/GRCh37.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.bed
--conpair_dir CONPAIR_DIR           path to ${CONPAIR_DIR}
--gatk GATK                         path to GATK JAR [$GATK by default]
--java JAVA                         path to JAVA [java by default]
--temp_dir_java TEMP_DIR_JAVA       java temporary directory to set -Djava.io.tmpdir
--xmx_java  XMX_JAVA                Xmx java memory setting [default: 12g]

主要要添加的是--reference,--gatk
--markers文件在下載包里就有讹弯,設(shè)置好配置文件的CONPAIR_DIR,沒有移動過markers文件夾位置这溅,就不用寫了组民。

4.驗證Tumor/Normal一致性

verify_concordance.py -T TUMOR_pileup -N NORMAL_pileup

Optional:
--help                              show help message and exit
--outfile OUTFILE                   write output to OUTFILE
--normal_homozygous_markers_only    use only normal homozygous positions to calculate concordance between TUMOR and NORMAL 
--min_cov MIN_COV                   require min of MIN_COV in both TUMOR and NORMAL to use the marker
--min_mapping_quality MIN_MAP_QUAL  do not use reads with mapping qual below MIN_MAP_QUAL [default: 10]
--min_base_quality  MIN_BASE_QUAL   do not use reads with base qual below MIN_BASE_QUAL of a specified position [default: 20]
--markers MARKERS                   the set of preselected genomic positions in the TXT format. Default: ${CONPAIR_DIR}/data/markers/GRCh37.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.txt

官方文檔最后還寫了,考慮到CNV的影響芍躏,最好加上-H 參數(shù)邪乍,然而help里并沒有寫這個參數(shù),我加上-H試了一下,concordance 從99.18%升到了100%庇楞。

To eliminate the effect of copy number variation on the concordance levels, we recommend using the -H flag. If two samples are concordant the expected concordance level should be close to 99-100%.
For discordant samples concordance level should be close to 40%.
You can observe slighly lower concordance (80-99%) in presence of contamination and/or copy number changes (if the -H option wasn't used) in at least one of the samples.

5.評估污染等級

estimate_tumor_normal_contamination.py -T TUMOR_pileup -N NORMAL_pileup

Optional:
--help                              show help message and exit
--outfile OUTFILE                   write output to OUTFILE
--min_mapping_quality MIN_MAP_QUAL  do not use reads with mapping qual below MIN_MAP_QUAL [default: 10] 
--markers MARKERS                   the set of preselected genomic positions in the TXT format. Default: ${CONPAIR_DIR}/data/markers/GRCh37.autosomes.phase3_shapeit2_mvncall_integrated.20130502.SNV.genotype.sselect_v4_MAF_0.4_LD_0.8.txt
--conpair_dir CONPAIR_DIR           path to ${CONPAIR_DIR}
--grid  GRID                        grid interval [default: 0.01]

Even a very low contamination level (such as 0.5%) in the tumor sample will have a severe effect on calling somatic mutations, resulting in decreased specificity. Cross-individual contamination in the normal sample usually has a milder effect on somatic calling.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末榜配,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子吕晌,更是在濱河造成了極大的恐慌蛋褥,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件睛驳,死亡現(xiàn)場離奇詭異烙心,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)乏沸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進(jìn)店門淫茵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蹬跃,你說我怎么就攤上這事匙瘪。” “怎么了蝶缀?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵丹喻,是天一觀的道長。 經(jīng)常有香客問我翁都,道長碍论,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任柄慰,我火速辦了婚禮鳍悠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘先煎。我一直安慰自己贼涩,他們只是感情好巧涧,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布薯蝎。 她就那樣靜靜地躺著,像睡著了一般谤绳。 火紅的嫁衣襯著肌膚如雪占锯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天缩筛,我揣著相機(jī)與錄音消略,去河邊找鬼。 笑死瞎抛,一個胖子當(dāng)著我的面吹牛艺演,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼胎撤,長吁一口氣:“原來是場噩夢啊……” “哼晓殊!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起伤提,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤巫俺,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后肿男,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體介汹,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年舶沛,在試婚紗的時候發(fā)現(xiàn)自己被綠了嘹承。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡如庭,死狀恐怖赶撰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情柱彻,我是刑警寧澤豪娜,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站哟楷,受9級特大地震影響瘤载,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜卖擅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一鸣奔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧惩阶,春花似錦挎狸、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至冬筒,卻和暖如春恐锣,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背舞痰。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工土榴, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人响牛。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓玷禽,卻偏偏與公主長得像赫段,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子矢赁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評論 2 353