Genbank文件包含一條序列數(shù)據(jù)的多方面信息喜庞,但卻不是分析時(shí)可以直接利用的有效格式么鹤,因此终娃,多數(shù)時(shí)候,我們需要在分析之前對(duì)Genbank格式進(jìn)行轉(zhuǎn)換蒸甜。于是棠耕,就有了readseq(我開(kāi)個(gè)玩笑)
我打算慢慢寫這個(gè)工具的使用筆記,用一點(diǎn)柠新,寫一點(diǎn)
當(dāng)然窍荧,大家可以直接上readseq的官網(wǎng)看使用說(shuō)明
安裝
brew install readseq
簡(jiǎn)單粗暴
使用
- 引用自biostar handbook
- 在Unix類型系統(tǒng)下,我們可以使用管道pipe直接接收來(lái)自cat等的數(shù)據(jù)恨憎,加上
-p
參數(shù)即可 - 默認(rèn)傳入的序列格式為
.gb
讓我們先下載一段序列:efetch -format=gb -db=nuccore -id=AF086833 > AF086833.gb
- 將數(shù)據(jù)格式轉(zhuǎn)換為fasta:
cat AF086833.gb | readseq -p -format=FASTA
- 轉(zhuǎn)換格式的同時(shí)提取CDS區(qū):
cat AF086833.gb | readseq -p -format=FASTA -feat=CDS
- 轉(zhuǎn)換為GFF格式:
cat AF086833.gb | readseq -p -format=GFF
- 轉(zhuǎn)換為GFF的同時(shí)提取CDS區(qū):
cat AF086833.gb | readseq -p -format=GFF -feat=CDS
提示:readseq在提取數(shù)據(jù)時(shí)蕊退,如果gb文件包含蛋白質(zhì)序列,那么在annotation部分憔恳,你還可以直接得到蛋白質(zhì)序列瓤荔,很棒啊钥组!