安裝:
conda install seqkit
ref:seqkit一個(gè)FASTA/Q序列處理神器 - 遺世獨(dú)立的愚公 - 博客園
一、序列操作:
1.取反向序列
seqkit ? seq ?test.fa ? -r ?> ?test_re.fa
2.取互補(bǔ)序列
seqkit ? seq ? test.fa ?-p ?> ?test_com.fa
3.取反向互補(bǔ)序列
seqkit ? seq ? test.fa ?-r ?-p ?> test_re_com.fa
4.DNA序列轉(zhuǎn)換為RNA序列
seqkit ? seq ? test.fa ?--nda2rna ? > ? test_rna.fa
5.RNA序列轉(zhuǎn)換為DNA序列
seqkit ? seq ?test.fa ? rna2dna ? ? > ? ?test_dna.fa
6.將序列以小寫字母的形式輸出
seqkit ?seq ?test.fa ?-l ?> ?test_lower.fa
7.將序列以大寫字母的形式輸出
seqkit ? seq ? test.fa ?-u > ?test_upper.fa
8.指定每行序列的輸出長(zhǎng)度(為0的話瞬逊,代表為一整行显歧,默認(rèn)的輸出 長(zhǎng)度是60個(gè)堿基)
seqkit ?seq ?test.fa ?-w ?10 ?> ?test_10.fa ?(指定序列的長(zhǎng)度為10)
9.將多行序列轉(zhuǎn)換為一行序列
seqkit ? seq ?test.fa ? -w ? 0 ? > ?test_w.fa
10.只輸出序列
seqkit ? seq ?test.fa ?-s ?-w 0 > test_seq.fa
11.將只輸出的序列的,指定每行輸出的堿基數(shù)
seqkit ? seq ?test_seq.fa ?-s ?-w 40 > test_seq40.fa
###注意10,11的微妙之處
###11,12也可以一步完成:
seqkit ?seq ? test.fa ? -s ?-w ?20 ?-o ?test_20.fa
二确镊、Fasta/q之間以及與tab格式互換
10.將fataq文件轉(zhuǎn)化為fasta格式.
seqkit fq2fa ? test.fq ? -o ? test.fa
11.將fasta格式轉(zhuǎn)化為tab格式
seqkit ?fx2tab ?test.fa > ?test_tab.fa (沒有seq參數(shù))
三士骤、序列信息統(tǒng)計(jì)
1.序列堿基含量
seqkit ?fx2tab ?-l ?-g ?-n ?-i ?-H ?test.fa
(這些參數(shù)組合起來比較好看)
2.序列長(zhǎng)度的整體分布統(tǒng)計(jì)
seqkit ?stat ?test.fa
四、其他用法:功能還是挺多的: