1奖慌、概述
BEDTools是可用于genomic features的比較自赔,相關(guān)操作及進(jìn)行注釋的工具衩侥。而genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示
2初嘹、格式說明
genome features: 功能元素(gene)碴裙, 遺傳多態(tài)性 (SNPs, INDELs, or structural variants), 已經(jīng)由測序或者其他方法得到的注釋信息仅讽,也可以是自定義的一些特征信息陶缺。
genome features的基本信息: 染色體或者scaffold的位置, 起始位置洁灵,終止位置饱岸,哪條鏈,feature的name
Overlapping / intersecting features: 兩個genome features的區(qū)域至少有一個bp的共同片段
BED和GFF文件的一個差異:BED文件中起始坐標(biāo)為0徽千,結(jié)束坐標(biāo)至少是1,苫费; GFF中起始坐標(biāo)是1而結(jié)束坐標(biāo)至少是1。
3双抽、使用方法
準(zhǔn)備兩個測試文件百框,
cpg.bed,其內(nèi)容為
chr1??? 20? 70? CPG_1
chr1??? 100 120 CPG_2
chr1??? 150 250 CPG_3
exon.bed,其內(nèi)容為
chr1??? 10? 40? exon_1
chr1??? 50? 60? exon_2
chr1??? 130 180 exon_3
chr1??? 200 280 exon_4
使用默認(rèn)參數(shù),求這個文件的overlap,運(yùn)行
bedtools intersect -a cpg.bed? -b exon.bed
結(jié)果為
chr1??? 20? 40? CPG_1
chr1??? 50? 60? CPG_1
chr1??? 150 180 CPG_3
chr1??? 200 250 CPG_3
可以看出牍汹,默認(rèn)情況下只輸出A中overlap的區(qū)域
添加-wa 參數(shù)铐维, 再次運(yùn)行
bedtools intersect -a cpg.bed? -b exon.bed -wa
結(jié)果為:
chr1??? 20? 70? CPG_1
chr1??? 20? 70? CPG_1
chr1??? 150 250 CPG_3
chr1??? 150 250 CPG_3
可以看出,加上-wa 參數(shù)后慎菲,只要A中的這段區(qū)域與B中區(qū)域有交集嫁蛇,就輸出,而且overlap幾次露该,就輸出幾次
添加-wb 參數(shù)睬棚,運(yùn)行
bedtools intersect -a cpg.bed? -b exon.bed -wb
結(jié)果為:
chr1??? 20? 40? CPG_1?? chr1??? 10? 40? exon_1
chr1??? 50? 60? CPG_1?? chr1??? 50? 60? exon_2
chr1??? 150 180 CPG_3?? chr1??? 130 180 exon_3
chr1??? 200 250 CPG_3?? chr1??? 200 280 exon_4
可以看出,加上-wb參數(shù)后解幼,除了輸出A中的overlap區(qū)域外闸拿,還會輸出B中的整個區(qū)間
加上-wa, -wb 參數(shù),再次運(yùn)行
1
bedtools intersect -a cpg.bed? -b exon.bed -wa -wb
結(jié)果為:
1
2
3
4chr1??? 20? 70? CPG_1?? chr1??? 10? 40? exon_1
chr1??? 20? 70? CPG_1?? chr1??? 50? 60? exon_2
chr1??? 150 250 CPG_3?? chr1??? 130 180 exon_3
chr1??? 150 250 CPG_3?? chr1??? 200 280 exon_4
可以看出书幕,同時添加-wa和-wb參數(shù)會將overlap 區(qū)域成對輸出
-c參數(shù)新荤,統(tǒng)計(jì)A中每個區(qū)域與Boverlap的次數(shù)
bedtools intersect -a cpg.bed? -b exon.bed -c
結(jié)果為:
chr1??? 20? 70? CPG_1?? 2
chr1??? 100 120 CPG_2?? 0
chr1??? 150 250 CPG_3?? 2
-v參數(shù):只輸出A中沒有與Boverlap的區(qū)域
bedtools intersect -a cpg.bed? -b exon.bed -v
結(jié)果為:
chr1??? 100 120 CPG_2
可以看出,只要只要與B有overlap就不輸出台汇。