生信常用文件格式

2021.6.6

1. 序列格式

1.1 fasta

  • 簡(jiǎn)介
    一種基于文本的、用于表示核苷酸序列或氨基酸序列的格式闷愤。在這種格式中堿基對(duì)或氨基酸用單個(gè)字母來(lái)表示缴川,且允許在序列前添加序列名及注釋瘤旨,文件名常以.fasta烟很、.fa結(jié)尾七问。

常見(jiàn)后綴說(shuō)明:
.fasta:普通的FASTA文件 (包括:.fas蜓耻、 .fasta、.fsa械巡、.fst刹淌、.txt和.fa等)
.fna:表示核酸序列的 FASTA 文件
.faa:表示氨基酸序列的 FASTA 文件
.ffn:整個(gè)基因組編碼區(qū)的 FASTA 文件
.frn:以 DNA 字母編碼表示的基因組非編碼 RNA 區(qū) ( 如tRNA、rRNA ) 的 FASTA 文件

  • 格式說(shuō)明
    fasta
  1. 每條序列的第一行是由>開(kāi)頭的任意文字說(shuō)明坟比。用于序列標(biāo)記芦鳍,最好每條序列的標(biāo)識(shí)具有唯一性,一般會(huì)用空格把頭信息分為兩個(gè)部分:第一部分是序列名字葛账,它和大于號(hào)(>)緊接在一起柠衅;第二部分是注釋信息,這個(gè)可以沒(méi)有籍琳。
  2. 從第二行開(kāi)始為序列本身菲宴,只允許使用既定的核苷酸或氨基酸編碼符號(hào),其中核苷酸大小寫均可趋急,氨基酸只能大寫喝峦。

1.2 fastq

  • 簡(jiǎn)介
    一種基于文本的存儲(chǔ)測(cè)序生物序列和對(duì)應(yīng)堿基(或氨基酸)質(zhì)量的文件格式,可以看成fasta文件的變種呜达,一條序列總共包括四個(gè)部分谣蠢。
  • 格式說(shuō)明
    fastq
  1. 中第一行以“@”開(kāi)頭,隨后為Illumina 測(cè)序標(biāo)識(shí)符 (Sequence Identifiers) 和描述文字 (選擇性部分)查近。
  2. 第二行是堿基序列眉踱。
  3. 第三行以“+”開(kāi)頭,隨后為Illumina 測(cè)序標(biāo)識(shí)符 (選擇性部分)霜威。
  4. 第四行是對(duì)應(yīng)堿基的測(cè)序質(zhì)量谈喳,該行中每個(gè)字符對(duì)應(yīng)的 ASCII 值減去 33,即為對(duì)應(yīng)第二行堿基的測(cè)序質(zhì)量值戈泼。

2. 序列比對(duì)格式

不同建樹(shù)程序?qū)斎氲亩嘈蛄斜葘?duì)文件格式有各自的要求婿禽,可以用ALTER來(lái)進(jìn)行各種常見(jiàn)的多序列比對(duì)格式間的轉(zhuǎn)換。

2.1 fasta

  • 簡(jiǎn)介
    最常見(jiàn)的多序列比對(duì)格式大猛,和序列的fasta格式類似扭倾,只是為了使整體出現(xiàn)最大的可能性,在序列中可能會(huì)添加一些-挽绩。
    fasta比對(duì)

2.2 clustal

  • 簡(jiǎn)介
    clustal格式的文件是純文本格式膛壹,它可以選擇有一個(gè)頭來(lái)聲明clustal版本號(hào)。接下來(lái)是多序列比對(duì)琼牧,以及關(guān)于比對(duì)中每個(gè)位置保存程度的可選信息恢筝。
  • 格式說(shuō)明
    clustal

2.3 NEXUS

  • 簡(jiǎn)介
    一種文本格式,使用“塊”的方式來(lái)組織信息巨坊。以#NEXUS開(kāi)頭撬槽,后續(xù)說(shuō)明了總體信息(包括序列數(shù)量,大小趾撵,數(shù)據(jù)類型侄柔,缺失數(shù)據(jù)等)
  • 格式說(shuō)明
    NEXUS

2.4 PHYLIP

  • 簡(jiǎn)介
    主要包括兩個(gè)部分:一個(gè)標(biāo)題描述對(duì)齊維度(序列數(shù)量和大小)占调,后跟多序列對(duì)齊序列暂题。
  • 格式說(shuō)明
    PHYLIP

3. 系統(tǒng)發(fā)育樹(shù)格式

3.1


4. 其他常見(jiàn)文件格式

4.1 Genbank

  • 簡(jiǎn)介
    最早的生物信息學(xué)數(shù)據(jù)格式之一,包含的信息十分全面究珊,常以.gbff結(jié)尾薪者。
  • 格式說(shuō)明
    genbank

    關(guān)鍵說(shuō)明

4.2 GFF和GTF

  • 簡(jiǎn)介
    GFF (General Feature Format) 和 GTF (Gene Transfer Format) 都是用于存儲(chǔ)注釋信息的文本類型。目前常用GFF格式為第二本版的GFF2和第三版本的GFF3剿涮,GTF常用GTF2言津。兩者前8列是相同的,GTF格式相交GFF格式更加嚴(yán)格取试。以GFF3格式為例進(jìn)行說(shuō)明悬槽。
  • 格式說(shuō)明
NZ_CP068034.2   RefSeq  region  1   6018586 .   +   .   ID=NZ_CP068034.2:1..6018586;Dbxref=taxon:317;Is_circular=true;Name=ANONYMOUS;collection-date=2001-05-30;country=Belarus: Minsk region;gbkey=Src;genome=chromosome;isolation-source=Ribes nigrum leaves;lat-lon=53.893009 N 27.567444 E;mol_type=genomic DNA;nat-host=Ribes nigrum;strain=BIM B-268
NZ_CP068034.2   RefSeq  gene    1   1536    .   +   .   ID=gene-JJQ97_RS00005;Dbxref=GeneID:64441043;Name=dnaA;gbkey=Gene;gene=dnaA;gene_biotype=protein_coding;locus_tag=JJQ97_RS00005;old_locus_tag=JJQ97_25475
NZ_CP068034.2   Protein Homology    CDS 1   1536    .   +   0   ID=cds-WP_003437057.1;Parent=gene-JJQ97_RS00005;Dbxref=Genbank:WP_003437057.1,GeneID:64441043;Name=WP_003437057.1;gbkey=CDS;gene=dnaA;inference=COORDINATES: similar to AA sequence:RefSeq:NP_064721.1;locus_tag=JJQ97_RS00005;product=chromosomal replication initiator protein DnaA;protein_id=WP_003437057.1;transl_table=11
NZ_CP068034.2   RefSeq  gene    1575    2678    .   +   .   ID=gene-JJQ97_RS00010;Dbxref=GeneID:64441044;Name=dnaN;gbkey=Gene;gene=dnaN;gene_biotype=protein_coding;locus_tag=JJQ97_RS00010;old_locus_tag=JJQ97_25480
NZ_CP068034.2   Protein Homology    CDS 1575    2678    .   +   0   ID=cds-WP_201418908.1;Parent=gene-JJQ97_RS00010;Dbxref=Genbank:WP_201418908.1,GeneID:64441044;Name=WP_201418908.1;gbkey=CDS;gene=dnaN;inference=COORDINATES: similar to AA sequence:RefSeq:NP_064722.1;locus_tag=JJQ97_RS00010;product=DNA polymerase III subunit beta;protein_id=WP_201418908.1;transl_table=11
  1. seqname:序列定位,必須為染色體或組裝好的scaffold
  2. source:產(chǎn)生該GTF/GFF 文件的項(xiàng)目名稱
  3. feature:該段序列的特征:如 exon瞬浓,CDS初婆,enhancer等
  4. start:序列起始位點(diǎn)
  5. end:序列終止位點(diǎn)
  6. score:得分值,如無(wú)得分猿棉,則為“.”
  7. strand:正負(fù)鏈磅叛,用“+”和“-”表示,如不關(guān)心或者缺乏正負(fù)鏈信息铺根,則為“.”
  8. frame:開(kāi)放閱讀框宪躯,分別用0,1,2來(lái)區(qū)別,如果是非編碼序列位迂,則為“.”

不同點(diǎn):

  1. feature:GTF的feature type受限于使用軟件的規(guī)定访雪,GFF的feature可以為任意內(nèi)容。
  2. score:GTF的score一般不會(huì)被用到掂林,都是“.”臣缀。
  3. attribute:GTF的第九列為attribute,為序列對(duì)應(yīng)的屬性泻帮,其中的內(nèi)容包括序列對(duì)應(yīng)的 gene_id 和 transcript_id精置,一般還有序列中包含的外顯子數(shù)量,在GFF3版本中第九列也為attribute锣杂,但不同屬性中用“=”相隔脂倦,GTF格式中不同屬性用“番宁;”分隔
  4. group:GFF2的第九列為group,來(lái)自同一個(gè)組的不同序列都被具有相同的組名赖阻。

貌似可以用gffread進(jìn)行轉(zhuǎn)換

4.3 BED

4.4 SAM

4.5 BAM


3. BAM

3.1 簡(jiǎn)介

????BAM格式是SAM格式的二進(jìn)制版蝶押,SAM格式是純文本文件,是一種序列比對(duì)格式標(biāo)準(zhǔn)火欧,存儲(chǔ)了測(cè)序獲得的信息棋电,map到基因組后的各種信息,主要由兩部分組成苇侵。

3.2 格式規(guī)范

  • header:標(biāo)記了該SAM文件的一些基本信息赶盔,比如版本、按照什么方式排序的榆浓、Reference信息等等于未;
  • 本體,每行為一個(gè)reads哀军,不同列記錄了不同的信息沉眶,列與列之間通過(guò)tab分隔;

6. Stockholm format(斯德哥爾摩格式)

一種以.sto結(jié)尾的序列比對(duì)文件格式杉适,常常用于hmmer等分析谎倔。特征是比對(duì)序列開(kāi)始部分的# STOCKHOLM 1.0以及結(jié)束部分的//

stockholm格式

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末猿推,一起剝皮案震驚了整個(gè)濱河市片习,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蹬叭,老刑警劉巖藕咏,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異秽五,居然都是意外死亡孽查,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門坦喘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)盲再,“玉大人,你說(shuō)我怎么就攤上這事瓣铣〈鹋螅” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵棠笑,是天一觀的道長(zhǎng)梦碗。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么洪规? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任印屁,我火速辦了婚禮,結(jié)果婚禮上斩例,老公的妹妹穿的比我還像新娘库车。我一直安慰自己,他們只是感情好樱拴,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著洋满,像睡著了一般晶乔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上牺勾,一...
    開(kāi)封第一講書(shū)人閱讀 49,111評(píng)論 1 285
  • 那天正罢,我揣著相機(jī)與錄音,去河邊找鬼驻民。 笑死翻具,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的回还。 我是一名探鬼主播裆泳,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼柠硕!你這毒婦竟也來(lái)了工禾?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蝗柔,失蹤者是張志新(化名)和其女友劉穎闻葵,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體癣丧,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡槽畔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了胁编。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片厢钧。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖掏呼,靈堂內(nèi)的尸體忽然破棺而出坏快,到底是詐尸還是另有隱情,我是刑警寧澤憎夷,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布莽鸿,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏祥得。R本人自食惡果不足惜兔沃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望级及。 院中可真熱鬧乒疏,春花似錦、人聲如沸饮焦。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)县踢。三九已至转绷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間硼啤,已是汗流浹背议经。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谴返,地道東北人煞肾。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像嗓袱,于是被迫代替她去往敵國(guó)和親籍救。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容