幾款計(jì)算測序深度和覆蓋度的軟件或模塊

1. BAMStats

BAMStats是一款從BAM文件中計(jì)算覆蓋度和其他數(shù)據(jù)柬采,并生成這些數(shù)據(jù)的描述性統(tǒng)計(jì)的工具

1.1 安裝
wget https://jaist.dl.sourceforge.net/project/bamstats/BAMStats-1.25.zip
unzip BAMStats-1.25.zip
rm -f BAMStats-1.25.zip
cd BAMStats-1.25/
1.2 使用

java -jar BAMStats-1.25.jar -h
-d, --distances: edit distance statistics(不清楚是什么指標(biāo))
-f, --features: bed or gtf
-l, --lengths: mapped read length
-m, --mapped: coverage statistics, for mapped regions only
-q, --qualities: mapping quality (MAPQ) statistics
-s, --starts: start position statistics
-v, --view: output format, 'simple' or 'html', default 'simple'
-i, --infile
-o, --outfile

1.2.1 錯誤信息
參考基因組的染色體數(shù)目太多(可能參考基因組上有一些染色體的小片段還沒有定位)
java -jar -Xmx6g BAMStats-1.25.jar -i *.smr.bam -o test --view simple
ERROR: Sorry, 1471 are too many references to display sensibly in 'html' format. Either try 'simple', or use the GUI version.
系統(tǒng)設(shè)置不對,不能使用GUI
java -jar -Xmx4g BAMStats-GUI-1.25.jar
Exception in thread "AWT-EventQueue-0" java.awt.HeadlessException: 
No X11 DISPLAY variable was set, but this program performed an operation which requires it.

第二個錯誤的解決辦法見https://www.cnblogs.com/princessd8251/p/4000016.html,但需要管理員權(quán)限迫靖。這里為了演示逗噩,只取了bam的前1000000行(集中在第一條染色體)扇雕,并修改header。

java -jar -Xmx6g BAMStats-1.25.jar -i head_and_part.sam -o test
lsx test
ref        N           mean      median    sd        q1        q3        2.5%      97.5%     min       max      
NC_027757.2 10,000,000  14.02     11.00     15.43     0.00      22.00     0.00      45.00     0         820

把幾個選項(xiàng)都加上兽肤,看看增加了些什么
java -jar -Xmx6g BAMStats-1.25.jar -d -l -m -q -s -v simple -i head_and_part.sam -o test1
lsx test1

median, q1, q3是四分位數(shù), 2.5%和97.5%也是類似的

改為網(wǎng)頁輸出,看看有什么變化
java -jar -Xmx6g BAMStats-1.25.jar -d -l -m -q -s -v html -i head_and_part.sam -o test2
cd test2.data/
生成了很多圖片和網(wǎng)頁鏈接绪抛,每一個鏈接呈現(xiàn)如下的一個板塊轿衔,并且同時包括直方圖、累計(jì)直方圖睦疫、箱線圖
Coverage.html
EditDistances.html
MappedCoverage.html
MappingQuality.html
ReadLengths.html
StartPositions.html

以Coverage distribution (mapped only)為例

1.3 注意
  1. BAMStats通常需要分配2至6GB的內(nèi)存(Java程序可以使用-Xmx來設(shè)置)
  2. SAM或者BAM格式均可害驹,但需要排序

2. samtools depth/stats

2.1 samtools depth得到每一個堿基上的測序深度,可以加上bed文件

samtools depth -b bed *.smrb.bam > bedbase_depth.txt

chr1            1146705         104
chr1            1146706         107
chr1            1146707         107
chr1            1146708         107
chr1            1146709         109

然后自己編寫腳本(劃定指定區(qū)域進(jìn)行分析)蛤育,就能得到測序深度與覆蓋度的關(guān)系宛官,類似于在20X, 30X, 50X等深度下葫松,覆蓋度是百分之多少。也可以通過劃定窗口的方式底洗,看一系列窗口的平均深度腋么,然后從整條染色體的角度分析哪塊兒深度低了,哪塊兒深度高了亥揖,能說明什么問題等等珊擂。

2.2 samtools stats能對比對后的bam進(jìn)行很全面的統(tǒng)計(jì)

samtools stats *.smrb.bam > bamstat.txt
grep ^SN bamstat.txt | cut -f 2-

sequences:      134013154
reads mapped:   133144413
reads mapped and paired:        132860280
reads unmapped: 868741
reads properly paired:          123414550
reads duplicated:               13863532
還有堿基數(shù)目, average length, average quality, insert size average等等統(tǒng)計(jì)量

還可以得到可視化的一些結(jié)果

plot-bamstats -p ./ bamstat.txt


3. GATK DepthOfCoverage

在捕獲測序的評估中比較適用,因?yàn)椴东@測序一般有bed范圍费变,也需要在不同深度下評價摧扇。

${java_path} -Xmx4g -jar ${gatk3_path} -T DepthOfCoverage \
-R ${ref} \
-o ${out_dir}${sample}/${sample} \
-I *.smrb.bam \
-L ${bed} \
--omitDepthOutputAtEachBase --omitIntervalStatistics \
-ct 1 -ct 5 -ct 10 -ct 20 -ct 30 -ct 50 -ct 100  可以隨意設(shè)置,且注意是大于號

會生成四個文件
sample_cumulative_coverage_counts
sample_cumulative_coverage_proportions
sample_statistics
sample_summary

重點(diǎn)看一下summary文件
sample_id       total   mean    granular_third_quartile granular_median granular_first_quartile %_bases_above_1 %_bases_above_5 %_bases_above_10        %_bases_above_20        %_bases_above_30        %_bases_above_50        %_bases_above_100
17L0292145      417397895       461.76  500     443     322     99.9    99.7    99.6    99.4    99.2    98.7    97.1
Total   417397895       461.76  N/A     N/A     N/A

4. bamdst

這個之前總結(jié)過挚歧,http://www.reibang.com/p/ac7b8e4d76e4


reference

http://bamstats.sourceforge.net/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扛稽,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子滑负,更是在濱河造成了極大的恐慌在张,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矮慕,死亡現(xiàn)場離奇詭異帮匾,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)痴鳄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進(jìn)店門辟狈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人夏跷,你說我怎么就攤上這事哼转。” “怎么了槽华?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵壹蔓,是天一觀的道長。 經(jīng)常有香客問我猫态,道長佣蓉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任亲雪,我火速辦了婚禮勇凭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘义辕。我一直安慰自己虾标,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布灌砖。 她就那樣靜靜地躺著璧函,像睡著了一般傀蚌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蘸吓,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天善炫,我揣著相機(jī)與錄音,去河邊找鬼库继。 笑死箩艺,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宪萄。 我是一名探鬼主播艺谆,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼雨膨!你這毒婦竟也來了擂涛?” 一聲冷哼從身側(cè)響起读串,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤聊记,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后恢暖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體排监,經(jīng)...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年杰捂,在試婚紗的時候發(fā)現(xiàn)自己被綠了舆床。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡嫁佳,死狀恐怖挨队,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蒿往,我是刑警寧澤盛垦,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站瓤漏,受9級特大地震影響腾夯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蔬充,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一蝶俱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧饥漫,春花似錦榨呆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽馒稍。三九已至,卻和暖如春浅侨,著一層夾襖步出監(jiān)牢的瞬間纽谒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工如输, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鼓黔,地道東北人。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓不见,卻偏偏與公主長得像澳化,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子稳吮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內(nèi)容