一狱杰、deeptools?multiBamSummary詳細(xì)介紹
官網(wǎng)說明書——deeptools multiBamSummary
功能:計(jì)算兩個(gè)以上(含兩個(gè))BAM文件的基因組區(qū)域的覆蓋度差凹。
兩種模式:
? ? ? ? bin模式是對(duì)全基因組進(jìn)行計(jì)算,針對(duì)大小相等的bins(默認(rèn)值:10kb)期奔,這種模式用于評(píng)估BAM文件的全基因組相似性侧馅;
? ? ? ? BED-file模式是對(duì)指定區(qū)域進(jìn)行計(jì)算。
標(biāo)準(zhǔn)輸出文件:
? ? ? ? 以.npz為后綴的文件呐萌,該文件不僅可以直接用于deeptools中的“plotCorrelation”計(jì)算并可視化覆蓋度之間的相關(guān)性馁痴,而且也能用于deeptools中的“plotPCA”進(jìn)行主成分分析。
二肺孤、deeptools?multiBamSummary用法及參數(shù)
(1)bins mode
multiBamSummary bins --bamfiles file1.bam file2.bam -o results.npz
--bamfiles(-b):bam文件
--outFileName(-out / -o ):? 輸出文件名罗晕。
參數(shù):
--labels(-l ) : 非默認(rèn)的標(biāo)簽,用戶自定義文件名標(biāo)簽赠堵。標(biāo)簽之間用空格隔開小渊。
--smartLabels: 不用手動(dòng)給輸入的bam文件加標(biāo)簽,deeptools 會(huì)移除路徑和擴(kuò)展名后使用文件名茫叭。
--genomeChunkSize : 手動(dòng)指定基因組大小酬屉。默認(rèn)值為不指定,由bam文件的read 密度決定揍愁。
--binSize (-bs): 用于樣品的基因組窗口大小呐萨。默認(rèn)值是10kb。
--distanceBetweenBins (-n ): 默認(rèn)情況下莽囤,multiBamSummary認(rèn)為窗口是連續(xù)的谬擦。但是,為了節(jié)省計(jì)算時(shí)間朽缎,可以指定比窗口數(shù)更大的間隔長度惨远,服務(wù)器會(huì)識(shí)別更少的bins.默認(rèn)值是0。
--version: 顯示程序版本號(hào)并退出话肖。
--region(-r): 用于限制運(yùn)行的基因組區(qū)域锨络。當(dāng)測試參數(shù)時(shí),利用--region這個(gè)參數(shù)可以大大減少運(yùn)行時(shí)間狼牺。格式是:chr:start:end。如 -region chr10 或者 -region chr10:456700:891000礼患。
--blackListFileName(-bl):bed或gtf格式文件能夠包括不用于分析的區(qū)域是钥。通過排除基因組區(qū)塊,能夠產(chǎn)生重疊區(qū)域缅叠。對(duì)于Bam文件而言悄泥,如果一條read有部分黑名單區(qū)域或者片段間隔,那么這個(gè)read或者fragment也仍會(huì)被考慮在內(nèi)肤粱。如果有相關(guān)情況弹囚,注意你應(yīng)該調(diào)整有效的基因組大小。
--numberOfProcessor(-p): 使用處理器的數(shù)量领曼。默認(rèn)值是1鸥鹉。
--verbose(-v): 設(shè)置查看運(yùn)行消息蛮穿。
--outRawCounts:保存的couts數(shù)區(qū)域(制表符隔開)文件。
--scalingFactors:計(jì)算比例因子(DESeq2 方式)能用于bamCoverage并寫入一個(gè)文件毁渗。該文件用制表符隔開樣品列和比例因子列践磅。
--extendReads(-e) : 該參數(shù)可以把reads擴(kuò)展到fragment大小。
--ignoreDuplicates:具有相同起始終止位點(diǎn)的reads僅讀一次灸异。
--minMappingQuality:那些至少達(dá)到最低mapping質(zhì)量得分的reads才能被考慮在內(nèi)府适。
--centerReads:相對(duì)于片段長度,reads處于中心位置肺樟。
--samFlagInclude:基于sam flag包括在內(nèi)的reads檐春。默認(rèn)值:None。
--samFlagExclude:基于sam flag之外的reads么伯。默認(rèn)值:None疟暖。
--minFragmentLength:最小的片段長度。默認(rèn)值為0蹦狂。
--maxFragmentLength:最大的片段長度誓篱。默認(rèn)值為0。
(2)BED-file mode
multiBamSummary BED-file --BED selection.bed --bamfiles file1.bam file2.bam -o results.npz
參數(shù):
--bamfiles(-b):bam文件凯楔,文件之間用空格隔開窜骄。
--outFileName(-out/-o): 輸出文件名。
--BED:限制覆蓋度分析的區(qū)域摆屯。
--labels(-l ) : 非默認(rèn)的標(biāo)簽邻遏,用戶自定義文件名標(biāo)簽。標(biāo)簽之間用空格隔開虐骑。
--smartLabels: 不用手動(dòng)給輸入的bam文件加標(biāo)簽准验,deeptools 會(huì)移除路徑和擴(kuò)展名后使用文件名。
--genomeChunkSize : 手動(dòng)指定基因組大小廷没。默認(rèn)值為不指定糊饱,由bam文件的read 密度決定。
--version: 顯示程序版本號(hào)并退出颠黎。
--region(-r): 用于限制運(yùn)行的基因組區(qū)域另锋。當(dāng)測試參數(shù)時(shí),利用--region這個(gè)參數(shù)可以大大減少運(yùn)行時(shí)間狭归。格式是:chr:start:end夭坪。如 -region chr10 或者 -region chr10:456700:891000。
--blackListFileName(-bl):bed或gtf格式文件能夠包括不用于分析的區(qū)域过椎。通過排除基因組區(qū)塊室梅,能夠產(chǎn)生重疊區(qū)域。對(duì)于Bam文件而言,如果一條read有部分黑名單區(qū)域或者片段間隔亡鼠,那么這個(gè)read或者fragment也仍會(huì)被考慮在內(nèi)赏殃。如果有相關(guān)情況,注意你應(yīng)該調(diào)整有效的基因組大小拆宛。
--numberOfProcessor(-p): 使用處理器的數(shù)量嗓奢。默認(rèn)值是1。
--verbose(-v): 設(shè)置查看運(yùn)行消息浑厚。
--outRawCounts:保存的couts數(shù)區(qū)域(制表符隔開)文件股耽。
--scalingFactors:計(jì)算比例因子(DESeq2 方式)能用于bamCoverage并寫入一個(gè)文件。該文件用制表符隔開樣品列和比例因子列钳幅。
--extendReads(-e) : 該參數(shù)可以把reads擴(kuò)展到fragment大小物蝙。
--ignoreDuplicates:具有相同起始終止位點(diǎn)的reads僅讀一次。
--minMappingQuality:那些至少達(dá)到最低mapping質(zhì)量得分的reads才能被考慮在內(nèi)敢艰。
--centerReads:相對(duì)于片段長度诬乞,reads處于中心位置。
--samFlagInclude:基于sam flag包括在內(nèi)的reads钠导。默認(rèn)值:None震嫉。
--samFlagExclude:基于sam flag之外的reads。默認(rèn)值:None牡属。
--minFragmentLength:最小的片段長度票堵。默認(rèn)值為0。
--maxFragmentLength:最大的片段長度逮栅。默認(rèn)值為0悴势。
GTF/BED12 參數(shù):
--metagene : 當(dāng)BED12或GTF文件用于提供區(qū)域,會(huì)計(jì)算合并的外顯子措伐,而不是用5'端或3'端來定義間隔特纤。默認(rèn)值是False。
--transcriptID: 當(dāng)GTF文件用于提供區(qū)域侥加,第三列transcript用于計(jì)算捧存。默認(rèn)值是transcript。
--exonID: 當(dāng)GTF文件用于提供區(qū)域担败,第三列exon用于計(jì)算矗蕊。默認(rèn)值是exon。
--transcript_id_designator: 默認(rèn)值是transcript_id氢架。
三、deeptools?multiBamSummary實(shí)際操作
multiBamSummary bins --bamfiles x.bam y.bam --binSize=500 -p 20 --smartLabels -out readCounts.npz --outRawCounts readCounts.tab