bedtools getfasta
extracts sequences from a FASTA file for each of the intervals defined in a BED/GFF/VCF file.
用法
bedtools getfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF>
-fi 基因組文件
-bed bed,gff,vcf格式文件
我只測試了bed格式文件。最基本的bed文件需要3列
染色體名字 序列開始位置 序列結(jié)束位置
$ cat test.bed
chr1 5 10
$ bedtools getfasta -fi test.fa -bed test.bed
>chr1:5-10
AAACC
# optionally write to an output file
$ bedtools getfasta -fi test.fa -bed test.bed -fo test.fa.out
$ cat test.fa.out
>chr1:5-10
AAACC
這是最基本的用法腌紧。
2桐汤,正負鏈問題
網(wǎng)上說參考基因組是正鏈瘫辩。bedtools最基本的用法不用提供正負鏈信息眼虱。其實默認的就是截取基因組的區(qū)間序列,既然參考基因組是正鏈廓译,那么默認截取的就是正鏈序列侮穿。如果bed文件有正負鏈信息响谓,負鏈的序列就是軟件默認情況下截取的序列的反向互補序列。實際我驗證后省艳,結(jié)果也確實如此娘纷。
bedtools有個-s參數(shù),開啟后會區(qū)分正負鏈信息跋炕。
如果有正負鏈信息赖晶,在bed中標注好。但是無論你標注+-與否辐烂,其實基因組的區(qū)間信息是一樣的遏插。
bedtools官網(wǎng)參考資料:
這軟件的文檔真良心之作。有圖有例子纠修。
https://bedtools.readthedocs.io/en/latest/content/tools/getfasta.html