在瀏覽核酸蛋白質(zhì)數(shù)據(jù)庫的時候會經(jīng)常遇見不同的文件格式啄糙,常見的有Fasta格式文件、NBRF/PIR格式文件云稚、 EMBL/SWISSPROT格式文件隧饼、Clustal(*.aln)格式文件、GCG/MSF(Pileup)格式文件静陈、RSF 格式文件燕雁、GDE格式文件、Mega格式文件鲸拥、Genbank格式文件拐格、NEXUS格式文件、Phylip格式文件等崩泡。
Fasta格式
Fasta格式包含序列文件和質(zhì)量文件
1.Fasta序列文件格式是核酸蛋白數(shù)據(jù)最常見的一種文件格式禁荒,第一行以'<'開頭引導(dǎo)的序列名稱開始,后面接序列的詳細信息角撞,隨后的行接序列呛伴,每一行序列長度不超過80。序列由標準的IUB/IUPAC氨基酸和核酸代碼表谒所,出常見的ATCGU热康、20種常見氨基酸外還有下表1.1和1.2中代表的字符,'-'代表不明長度的字符序列劣领。
2.Fasta格式質(zhì)量文件第一行和序列文件一樣姐军,只是序列部分對應(yīng)的是每個堿基的質(zhì)量,用空格分隔尖淘。
表1.1
表1.2
Fasta格式序列文件
氨基酸序列文件
核酸序列文件
DNA質(zhì)量文件