faidx:
samtools faidx?xxx.fa
能夠?qū)asta 序列建立一個(gè)后綴為.fai 的文件
該命令對(duì)輸入的fasta序列有一定要求:對(duì)于每條序列哈扮,除了最后一行外尚揣, 其他行的長(zhǎng)度必須相同, ?
>one
ATGCATGCATGCATGCATGCATGCATGCAT
GCATGCATGCATGCATGCATGCATGCATGC
ATGCAT
>two another chromosome
ATGCATGCATGCAT
GCATGCATGCATGC
最后生成的.fai文件如下, 共5列棍辕,\t分隔;
one 66 5 30 31
two28981415
第一列 NAME ? : ? 序列的名稱,只保留“>”后滨嘱,第一個(gè)空白之前的內(nèi)容;
第二列 LENGTH: ? 序列的長(zhǎng)度蝎亚, 單位為bp九孩;
第三列 OFFSET : ? 第一個(gè)堿基的偏移量, 從0開始計(jì)數(shù)发框,換行符也統(tǒng)計(jì)進(jìn)行躺彬;
第四列 LINEBASES : 除了最后一行外, 其他代表序列的行的堿基數(shù)梅惯, 單位為bp宪拥;
第五列 LINEWIDTH : 行寬, 除了最后一行外铣减, 其他代表序列的行的長(zhǎng)度她君, 包括換行符, 在windows系統(tǒng)中換行符為\r\n, 要在序列長(zhǎng)度的基礎(chǔ)上加2葫哗;
提取序列:
提取序列:
samtools faidx input.fa chr1 > chr1.fa
samtools faidx input.fa chr1:100-200 > chr1.fa
#?
對(duì)于UCSC的chr肯定是可以用的:
>chr1
>chr2
...
對(duì)于ensemble呢缔刹?可行
>1 dna:chromosome chromosome:GRCh38:1:1:248956422:1 REF
>2 dna:chromosome chromosome:GRCh38:2:1:242193529:1 REF
...
# samtools faidx?input.fa 1 > chr1.fa
# head -n? 2?chr1.fa
>1
ATCG...
#?samtools faidx?input.fa 1 2 3 > chr1+2+3.fa
# samtools faidx?input.fa chr1 chr2 chr3 > chr1+2+3.fa?
提取all:
samtools faidx GRCh37.p13.genome.fa chr1 chr2 chr3 chr4 chr5 chr6 chr7 chr8 chr9 chr10 chr11 chr12 chr13 chr14 chr15 chr16 chr17 chr18 chr19 chr20 chr21 chr22 chrX chrY > GRCh37.chr.fa