2021.6.6
1. 序列格式
1.1 fasta
- 簡(jiǎn)介
一種基于文本的、用于表示核苷酸序列或氨基酸序列的格式闷愤。在這種格式中堿基對(duì)或氨基酸用單個(gè)字母來(lái)表示缴川,且允許在序列前添加序列名及注釋瘤旨,文件名常以.fasta
烟很、.fa
結(jié)尾七问。
常見(jiàn)后綴說(shuō)明:
.fasta:
普通的FASTA文件 (包括:.fas蜓耻、 .fasta、.fsa械巡、.fst刹淌、.txt和.fa等)
.fna:
表示核酸序列的 FASTA 文件
.faa:
表示氨基酸序列的 FASTA 文件
.ffn:
整個(gè)基因組編碼區(qū)的 FASTA 文件
.frn:
以 DNA 字母編碼表示的基因組非編碼 RNA 區(qū) ( 如tRNA、rRNA ) 的 FASTA 文件
-
格式說(shuō)明
- 每條序列的第一行是由
>
開(kāi)頭的任意文字說(shuō)明坟比。用于序列標(biāo)記芦鳍,最好每條序列的標(biāo)識(shí)具有唯一性,一般會(huì)用空格把頭信息分為兩個(gè)部分:第一部分是序列名字葛账,它和大于號(hào)(>)緊接在一起柠衅;第二部分是注釋信息,這個(gè)可以沒(méi)有籍琳。 - 從第二行開(kāi)始為序列本身菲宴,只允許使用既定的核苷酸或氨基酸編碼符號(hào),其中核苷酸大小寫均可趋急,氨基酸只能大寫喝峦。
1.2 fastq
- 簡(jiǎn)介
一種基于文本的存儲(chǔ)測(cè)序生物序列和對(duì)應(yīng)堿基(或氨基酸)質(zhì)量的文件格式,可以看成fasta文件的變種呜达,一條序列總共包括四個(gè)部分谣蠢。 -
格式說(shuō)明
- 中第一行以“@”開(kāi)頭,隨后為Illumina 測(cè)序標(biāo)識(shí)符 (Sequence Identifiers) 和描述文字 (選擇性部分)查近。
- 第二行是堿基序列眉踱。
- 第三行以“+”開(kāi)頭,隨后為Illumina 測(cè)序標(biāo)識(shí)符 (選擇性部分)霜威。
- 第四行是對(duì)應(yīng)堿基的測(cè)序質(zhì)量谈喳,該行中每個(gè)字符對(duì)應(yīng)的 ASCII 值減去 33,即為對(duì)應(yīng)第二行堿基的測(cè)序質(zhì)量值戈泼。
2. 序列比對(duì)格式
不同建樹(shù)程序?qū)斎氲亩嘈蛄斜葘?duì)文件格式有各自的要求婿禽,可以用ALTER來(lái)進(jìn)行各種常見(jiàn)的多序列比對(duì)格式間的轉(zhuǎn)換。
2.1 fasta
- 簡(jiǎn)介
最常見(jiàn)的多序列比對(duì)格式大猛,和序列的fasta格式類似扭倾,只是為了使整體出現(xiàn)最大的可能性,在序列中可能會(huì)添加一些-
挽绩。
2.2 clustal
- 簡(jiǎn)介
clustal格式的文件是純文本格式膛壹,它可以選擇有一個(gè)頭來(lái)聲明clustal版本號(hào)。接下來(lái)是多序列比對(duì)琼牧,以及關(guān)于比對(duì)中每個(gè)位置保存程度的可選信息恢筝。 -
格式說(shuō)明
2.3 NEXUS
- 簡(jiǎn)介
一種文本格式,使用“塊”的方式來(lái)組織信息巨坊。以#NEXUS開(kāi)頭撬槽,后續(xù)說(shuō)明了總體信息(包括序列數(shù)量,大小趾撵,數(shù)據(jù)類型侄柔,缺失數(shù)據(jù)等) -
格式說(shuō)明
2.4 PHYLIP
- 簡(jiǎn)介
主要包括兩個(gè)部分:一個(gè)標(biāo)題描述對(duì)齊維度(序列數(shù)量和大小)占调,后跟多序列對(duì)齊序列暂题。 -
格式說(shuō)明
3. 系統(tǒng)發(fā)育樹(shù)格式
3.1
4. 其他常見(jiàn)文件格式
4.1 Genbank
- 簡(jiǎn)介
最早的生物信息學(xué)數(shù)據(jù)格式之一,包含的信息十分全面究珊,常以.gbff
結(jié)尾薪者。 -
格式說(shuō)明
4.2 GFF和GTF
- 簡(jiǎn)介
GFF (General Feature Format) 和 GTF (Gene Transfer Format) 都是用于存儲(chǔ)注釋信息的文本類型。目前常用GFF格式為第二本版的GFF2和第三版本的GFF3剿涮,GTF常用GTF2言津。兩者前8列是相同的,GTF格式相交GFF格式更加嚴(yán)格取试。以GFF3格式為例進(jìn)行說(shuō)明悬槽。 - 格式說(shuō)明
NZ_CP068034.2 RefSeq region 1 6018586 . + . ID=NZ_CP068034.2:1..6018586;Dbxref=taxon:317;Is_circular=true;Name=ANONYMOUS;collection-date=2001-05-30;country=Belarus: Minsk region;gbkey=Src;genome=chromosome;isolation-source=Ribes nigrum leaves;lat-lon=53.893009 N 27.567444 E;mol_type=genomic DNA;nat-host=Ribes nigrum;strain=BIM B-268
NZ_CP068034.2 RefSeq gene 1 1536 . + . ID=gene-JJQ97_RS00005;Dbxref=GeneID:64441043;Name=dnaA;gbkey=Gene;gene=dnaA;gene_biotype=protein_coding;locus_tag=JJQ97_RS00005;old_locus_tag=JJQ97_25475
NZ_CP068034.2 Protein Homology CDS 1 1536 . + 0 ID=cds-WP_003437057.1;Parent=gene-JJQ97_RS00005;Dbxref=Genbank:WP_003437057.1,GeneID:64441043;Name=WP_003437057.1;gbkey=CDS;gene=dnaA;inference=COORDINATES: similar to AA sequence:RefSeq:NP_064721.1;locus_tag=JJQ97_RS00005;product=chromosomal replication initiator protein DnaA;protein_id=WP_003437057.1;transl_table=11
NZ_CP068034.2 RefSeq gene 1575 2678 . + . ID=gene-JJQ97_RS00010;Dbxref=GeneID:64441044;Name=dnaN;gbkey=Gene;gene=dnaN;gene_biotype=protein_coding;locus_tag=JJQ97_RS00010;old_locus_tag=JJQ97_25480
NZ_CP068034.2 Protein Homology CDS 1575 2678 . + 0 ID=cds-WP_201418908.1;Parent=gene-JJQ97_RS00010;Dbxref=Genbank:WP_201418908.1,GeneID:64441044;Name=WP_201418908.1;gbkey=CDS;gene=dnaN;inference=COORDINATES: similar to AA sequence:RefSeq:NP_064722.1;locus_tag=JJQ97_RS00010;product=DNA polymerase III subunit beta;protein_id=WP_201418908.1;transl_table=11
- seqname:序列定位,必須為染色體或組裝好的scaffold
- source:產(chǎn)生該GTF/GFF 文件的項(xiàng)目名稱
- feature:該段序列的特征:如 exon瞬浓,CDS初婆,enhancer等
- start:序列起始位點(diǎn)
- end:序列終止位點(diǎn)
- score:得分值,如無(wú)得分猿棉,則為“.”
- strand:正負(fù)鏈磅叛,用“+”和“-”表示,如不關(guān)心或者缺乏正負(fù)鏈信息铺根,則為“.”
- frame:開(kāi)放閱讀框宪躯,分別用0,1,2來(lái)區(qū)別,如果是非編碼序列位迂,則為“.”
不同點(diǎn):
- feature:GTF的feature type受限于使用軟件的規(guī)定访雪,GFF的feature可以為任意內(nèi)容。
- score:GTF的score一般不會(huì)被用到掂林,都是“.”臣缀。
- attribute:GTF的第九列為attribute,為序列對(duì)應(yīng)的屬性泻帮,其中的內(nèi)容包括序列對(duì)應(yīng)的 gene_id 和 transcript_id精置,一般還有序列中包含的外顯子數(shù)量,在GFF3版本中第九列也為attribute锣杂,但不同屬性中用“=”相隔脂倦,GTF格式中不同屬性用“番宁;”分隔
- group:GFF2的第九列為group,來(lái)自同一個(gè)組的不同序列都被具有相同的組名赖阻。
貌似可以用gffread進(jìn)行轉(zhuǎn)換
4.3 BED
4.4 SAM
4.5 BAM
3. BAM
3.1 簡(jiǎn)介
????BAM格式是SAM格式的二進(jìn)制版蝶押,SAM格式是純文本文件,是一種序列比對(duì)格式標(biāo)準(zhǔn)火欧,存儲(chǔ)了測(cè)序獲得的信息棋电,map到基因組后的各種信息,主要由兩部分組成苇侵。
3.2 格式規(guī)范
- header:標(biāo)記了該SAM文件的一些基本信息赶盔,比如版本、按照什么方式排序的榆浓、Reference信息等等于未;
- 本體,每行為一個(gè)reads哀军,不同列記錄了不同的信息沉眶,列與列之間通過(guò)tab分隔;
6. Stockholm format(斯德哥爾摩格式)
一種以.sto
結(jié)尾的序列比對(duì)文件格式杉适,常常用于hmmer等分析谎倔。特征是比對(duì)序列開(kāi)始部分的# STOCKHOLM 1.0
以及結(jié)束部分的//
。