計(jì)算bam文件中比對上基因組的reads以及合并多個(gè)bam文件

參考文章:
1.如何統(tǒng)計(jì)BAM文件中的reads數(shù)
2.Samtools常用命令的總結(jié)

當(dāng)你有很多個(gè)bam文件時(shí),想知道這些bam文件里有多少個(gè)比對上的reads主儡,并且把它們輸出的時(shí)候,應(yīng)該怎么做患朱?當(dāng)然你可以選擇讀取bowtie2的日志文件丢郊,像這樣的:

31991083 reads; of these:
31991083 (100.00%) were unpaired; of these:
6844445 (21.39%) aligned 0 times
18391269 (57.49%) aligned exactly 1 time
6755369 (21.12%) aligned >1 times
78.61% overall alignment rate

但是有時(shí)候我們從別人那里拿到的只是個(gè)bam文件怎么辦被饿?
samtools工具里有一個(gè)功能幫你實(shí)現(xiàn)這個(gè)要求秸弛。

(一)計(jì)算alignments數(shù)

alignment數(shù)并不是mapped read數(shù)铭若,因?yàn)橐粭lread有可能比對到基因組多個(gè)位置。所以這種方法要比實(shí)際的reads數(shù)要多递览。首先如果你有很多個(gè)樣品叼屠,建議你先弄一個(gè)txt,里面是你的樣品名绞铃,像這樣镜雨,比如我有8個(gè)bam文件:

$ cat file_names.txt 
A_1
A_2
A_3
A_4
A_5
A_6
A_7
A_8

上面是我的樣品名前綴。

#寫個(gè)腳本憎兽,批量統(tǒng)計(jì)
#!/bin/bash
cat file_names.txt | while read line
do
export alignment_number=$(samtools view -c ${line}_q30_rmdup_sorted.bam)
echo ${line} alignment_number ${alignment_number}
done

輸出結(jié)果:

A_1 alignment_number 23150364
A_2 alignment_number 12724502
A_3 alignment_number 17724364
A_4 alignment_number 14102860
A_5 alignment_number 18809748
A_6 alignment_number 12566000
A_7 alignment_number 19047440
A_8 alignment_number 11808528

(二)統(tǒng)計(jì)雙端測序比對上的reads數(shù)

統(tǒng)計(jì)雙端測序bam文件里一對read都比對上的數(shù)量:

#!/bin/bash
cat file_names.txt | while read line
do
export mapped_reads=$(samtools view -c -f 1 -F 12 ${line}.bam) 
echo ${line} mapped_reads_number ${mapped_reads}
done

輸出的內(nèi)容:

A_1 mapped_reads_number 23150364
A_2 mapped_reads_number 12724502
A_3 mapped_reads_number 17724364
A_4 mapped_reads_number 14102860
A_5 mapped_reads_number 18809748
A_6 mapped_reads_number 12566000
A_7 mapped_reads_number 19047440
A_8 mapped_reads_number 11808528

這里你會(huì)發(fā)現(xiàn)我兩種比對的結(jié)果是一樣的冷离,是因?yàn)槲覐睦习迥抢锬玫降腷am文件是他用picard去重過濾之后的bam文件,所以兩種結(jié)果是一樣的纯命,如果你用沒有去重過濾的bam文件進(jìn)行計(jì)算,這兩個(gè)結(jié)果是不一樣的痹栖!

上面兩種都是比較簡單的統(tǒng)計(jì)數(shù)量亿汞,如果你想要具體的信息,比如比對率之類的揪阿,可以用這個(gè)代碼:

$ samtools flagstat file.bam

23150364 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
0 + 0 duplicates
23150364 + 0 mapped (100.00% : N/A)
23150364 + 0 paired in sequencing
11575182 + 0 read1
11575182 + 0 read2
22447746 + 0 properly paired (96.96% : N/A)
23150364 + 0 with itself and mate mapped
0 + 0 singletons (0.00% : N/A)
0 + 0 with mate mapped to a different chr
0 + 0 with mate mapped to a different chr (mapQ>=5)

(三)合并兩個(gè)及以上的bam文件

如果你想合并sorted的bam文件疗我,可以這樣:

$ samtools merge finalBamFile.bam *.bam

finalBamFile指的是合并完的bam文件名;后面跟的是你想合并的bam文件南捂,如果只有兩個(gè)吴裤,你可以依次列出;如果有多個(gè)溺健,可以像上面一樣麦牺,用*來表示。

samtools的merge功能在合并之后,輸出的文件也是保持著原來的順序剖膳,即sort的順序魏颓,所以你不用再次sort。

在merge后吱晒,再次檢查mapped reads數(shù)(我是把8個(gè)文件兩兩合并):

merge_1.bam mapped_reads_number 41960112
merge_2.bam mapped_reads_number 25290502
merge_3.bam mapped_reads_number 36771804
merge_4.bam mapped_reads_number 25911388
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載甸饱,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末仑濒,一起剝皮案震驚了整個(gè)濱河市叹话,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌墩瞳,老刑警劉巖渣刷,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異矗烛,居然都是意外死亡辅柴,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門瞭吃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碌嘀,“玉大人,你說我怎么就攤上這事歪架」扇撸” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵和蚪,是天一觀的道長止状。 經(jīng)常有香客問我,道長攒霹,這世上最難降的妖魔是什么怯疤? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮催束,結(jié)果婚禮上集峦,老公的妹妹穿的比我還像新娘。我一直安慰自己抠刺,他們只是感情好塔淤,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著速妖,像睡著了一般高蜂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上罕容,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天备恤,我揣著相機(jī)與錄音稿饰,去河邊找鬼。 笑死烘跺,一個(gè)胖子當(dāng)著我的面吹牛湘纵,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播滤淳,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼梧喷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了脖咐?” 一聲冷哼從身側(cè)響起铺敌,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎屁擅,沒想到半個(gè)月后偿凭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡派歌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年弯囊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胶果。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡匾嘱,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出早抠,到底是詐尸還是另有隱情霎烙,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布蕊连,位于F島的核電站悬垃,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏甘苍。R本人自食惡果不足惜尝蠕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望羊赵。 院中可真熱鬧趟佃,春花似錦、人聲如沸昧捷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽靡挥。三九已至,卻和暖如春鸯绿,著一層夾襖步出監(jiān)牢的瞬間跋破,已是汗流浹背簸淀。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留毒返,地道東北人租幕。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像拧簸,于是被迫代替她去往敵國和親劲绪。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345