生物信息常用文件格式

fasta
fasta格式是最基本的表示序列信息（核苷酸或者蛋白質(zhì)）的格式忆家。這里簡單介紹下兆蕉，fasta格式的文件通常后綴名為.fasta 或者.fa，其實這都無所謂署尤，因為都是文本文件橙喘。fasta格式文件（可以包含多條序列）中的一條序列的通常表示方法如下：

>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP

其中主要分為兩個部分：
第一部分是序列的定義行（單行）时鸵，該行的開頭是>符號，緊跟著后面的就是該條序列的名稱（具有唯一性厅瞎，即不能和其它序列同名稱）饰潜，即>號和后面的名稱的第一字符間是沒有任何空白的。一般第一個空格后面的內(nèi)容即為可選的描述信息和簸。如上面彭雾， gi|129295| sp|P01013|OVAX_CHICK為序列名稱，而GENE X PROTEIN (OVALBUMIN-RELATED)則為描述信息锁保。注意：有點(diǎn)軟件是把一整行當(dāng)做名稱的薯酝，所以在出現(xiàn)錯誤的時候可以查看下格式是否正確。
第二部分就是序列爽柒，所有的序列堿基或者氨基酸可以都放在一行存儲吴菠，也可以多行存儲，但是建議大家多行存儲且單行長度不超過80個字符浩村，因為這樣容易閱讀做葵。且序列的多行之間不能有空行，序列信息描述的第一行與序列數(shù)據(jù)的第一行之間不能有空行心墅。其中序列數(shù)據(jù)主要是按照密碼表來表示的蜂挪，*表示是蛋白質(zhì)翻譯的結(jié)束重挑。
多行序列舉例如下：

>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

fastq
fastq同樣是以文本形式來存儲序列信息的格式，后綴名通常為.fastq 或者.fq棠涮，但是與fasta不相同的是谬哀，它除了存儲序列本身外還存儲了序列中每個單元所對應(yīng)的質(zhì)量分?jǐn)?shù)，所以fastq格式通常用于高通量測試數(shù)據(jù)的存儲严肪。早期是有Sanger機(jī)構(gòu)開發(fā)的史煎，但是現(xiàn)在已經(jīng)演變成一個高通量測序的標(biāo)準(zhǔn)了。
fastq格式文件中一個完整的單元分為四行驳糯，每行的含義如下：
第一行：以@開頭篇梭，內(nèi)容同fasta的描述行類似
第二行：具體的堿基序列
第三行：以+開頭，后面的內(nèi)容可以和第一行類似酝枢，也什么都沒有只留+
第四行：以ASCII字符集（分?jǐn)?shù)）編碼來表示對應(yīng)堿基的測序質(zhì)量
比如下面的這個例子：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

下面以Illumina和NCBI SRA兩個測序數(shù)據(jù)來源來講講它們之間的區(qū)別：
通常我們獲取測序數(shù)據(jù)有兩種途徑恬偷，一種是自己通過儀器測定宴胧，一種是在公共數(shù)據(jù)庫中(比如之前說到的NCBI中的SRA數(shù)據(jù)庫)獲取工闺，這兩種方式主要是在序列名稱的命名上和測序質(zhì)量表示方式上有所不同。
Illumina 序列名稱：

@HWUSI-EAS100R:6:73:941:1973#0/1

上述以：隔開的每個字段的含義如下：
HWUSI-EAS100R: the unique instrument name
6 : flowcell lane
73 : tile number within the flowcell lane
941 : 'x'-coordinate of the cluster within the tile
1973 : 'y'-coordinate of the cluster within the tile
#0 : index number for a multiplexed sample (0 for no indexing)
/1 : the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
NCBI SRA數(shù)據(jù)庫：
將測序數(shù)據(jù)提交到NCBI的SRA數(shù)據(jù)庫時攻泼，SRA數(shù)據(jù)庫會為每一個樣本提供一個編號竣付，一般是SRRxxxxx诡延，所以從SRA數(shù)據(jù)庫上下載公共的測試數(shù)據(jù)（原始格式為
.sra，需特定工具轉(zhuǎn)換為fastq）古胆，其fastq格式文件中每個單元的名稱是以SRA編號接數(shù)字加以區(qū)分的肆良。比如下面的這個示例：

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

需要注意的是：當(dāng)把測序數(shù)據(jù)上傳到SRA數(shù)據(jù)庫時，它通常會將表示質(zhì)量的分?jǐn)?shù)轉(zhuǎn)換為標(biāo)準(zhǔn)的Sanger格式逸绎。

質(zhì)量分?jǐn)?shù)表示方法：由于測序儀器的不同等因素所以對堿基測序質(zhì)量的表示方式也不同惹恃，在Fastq格式文件中，用ASXCII碼來表示每個堿基的測序質(zhì)量棺牧，下面介紹幾種不同的方案：

image.png

其中有五種表示方法巫糙，Sanger的碼表范圍為!至I，其對應(yīng)的數(shù)值為33-73陨帆，如果減去33（即Phred+33表示法）這個基數(shù)則范圍轉(zhuǎn)換為0-40曲秉，即如果某一個堿基的測序質(zhì)量為!則對應(yīng)的測序質(zhì)量分?jǐn)?shù)為0采蚀，表示測序質(zhì)量低疲牵。其它幾種表示法類似（X,I,J,L）。這里介紹測序質(zhì)量的表示方法是因為后面有的軟件是要指定測序數(shù)據(jù)的質(zhì)量表示方法榆鼠。

gff2
GFF(General Feature Format)是一種用于描述基因或者其它序列元素的文件格式纲爸，GFF有幾個版本，早期的第Version 2和現(xiàn)在的Version 3. Version 2 是由Sanger機(jī)構(gòu)所制定的妆够，而Version 3是由Sequence Ontology Project制定识啦。正是由于有統(tǒng)一的格式來表示基因等元素负蚊，使得GFF格式的文件被廣泛的使用與mapping與基因組數(shù)據(jù)可視化方面。GFF2文件格式是由tab隔開的九列值颓哮，每一行的九個字段的含義如下：

Chr1  curated  CDS 365647  365963  .  +  1  Transcript "R119.7"

第一列： reference sequence家妆，該列表示的是特征元素所在的染色體（或者scaffold，或者contig）冕茅，也就是在基因組中的坐標(biāo)系統(tǒng)伤极，后續(xù)一切的注釋信息都是基于此列。
第二列：source姨伤，該列表示改行注釋信息的來源哨坪，比如上述的一行表示該行的CDS注釋信息來自名為“curated”的注釋。
第三列：feature乍楚，或者說是method当编，type，表示的是該注釋的類型徒溪，比如上述表示改行注釋為CDS信息忿偷，可以將source和feature結(jié)合起來描述的更加詳細(xì)。
第四列：start position词渤，在reference sequence上的開始位置（坐標(biāo)）牵舱，通常是從1為起點(diǎn)而不是0。
第五列：end position缺虐，在reference sequence上的結(jié)束位置（坐標(biāo)）芜壁，一般是大于start position的。
第六列：score高氮，表示該行feature的分?jǐn)?shù)慧妄，比如序列相似性等，如果沒有對應(yīng)的分?jǐn)?shù)可以用.代替剪芍。
第七列：strand塞淹，feature所在鏈，+表示正鏈罪裹，-表示負(fù)鏈饱普，.表示不確定或者與鏈無關(guān)。
第八列：phase状共，與蛋白質(zhì)編碼相關(guān)套耕，一般是用于CDS，值的范圍為0-2峡继，表示編碼時閱讀框的移動相位冯袍。
下面這段描述很詳細(xì):
‘0’ indicates that the specified region is in frame, i.e. that its first base corresponds to the first base of a codon. ‘1’ indicates that there is one extra base, i.e. that the second base of the region corresponds to the first base of a codon, and ‘2’ means that the third base of the region is the first base of a codon. If the strand is ‘-‘, then the first base of the region is value of <end>, because the corresponding coding region will run from <end> to <start> on the reverse strand.
第九列：group，或者稱為attributes，是用于對改行注釋更多的描述康愤，以鍵值對的形式儡循，比如上面的例子表示該CDS是屬于名為R119.7的transcript。該列中可以存在多個屬性征冷，屬性之間是用;隔開的择膝。對于GFF格式的理解主要是集中在最后一列，有以下集中情況：

對于單個feature

Chr3   giemsa heterochromatin  4500000 6000000 . . .   Band 3q12.1

對于屬于同一集合的多個feature

IV     curated exon    5506900 5506996 . + .   Transcript B0273.1
IV     curated exon    5506026 5506382 . + .   Transcript B0273.1
IV     curated exon    5506558 5506660 . + .   Transcript B0273.1
IV     curated exon    5506738 5506852 . + .   Transcript B0273.1

比如上面這個例子就表示這四個exonerate都是屬于同一個名為B0273.1的transcript检激，這是表示一個完整transcript結(jié)構(gòu)的最基本要求调榄。GFF2還可用于序列比對結(jié)果表示等其他方面這里不做介紹了。
gtf(gff2.5)
GTF（Gene Transfer Format）格式是借鑒于GFF2格式呵扛，也被稱為GFF2.5每庆，大部分字段的定義是和GFF2相同的，只是每行的第九列必須帶有如下四個域今穿，具體為gene_id value; transcript_id value; 這樣的設(shè)計是為了適應(yīng)一個基因的多個轉(zhuǎn)錄本這種情況缤灵。比如下面的這個例子：

AB000123    Twinscan     CDS    193817    194022    .    -    2    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    199645    199752    .    -    2    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    200369    200508    .    -    1    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    215991    216028    .    -    0    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     start_codon   216026    216028    .    -    .    gene_id    "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     stop_codon    193814    193816    .    -    .    gene_id    "AB000123.1"; transcript_id "AB00123.1.2";

gff3
GFF2格式早期用的比較多，但是現(xiàn)在用的多的是GFF3格式蓝晒，這也是好多軟件所支持的腮出，比如Gbrowse， Jbrowse等基因組數(shù)據(jù)可視化工具芝薇。先看下面這個簡單的例子：

##gff-version 3
ctg123  .  exon  1300  1500  .  +  .  ID=exon00001
ctg123  .  exon  1050  1500  .  +  .  ID=exon00002
ctg123  .  exon  3000  3902  .  +  .  ID=exon00003
ctg123  .  exon  5000  5500  .  +  .  ID=exon00004
ctg123  .  exon  7000  9000  .  +  .  ID=exon00005

第一行的##gff-version 3通常是需要的胚嘲，而且必須是在文件的第一行。
前八列和GFF2洛二、GFF2.5類似馋劈，但是有幾點(diǎn)是要特別注意的，主要是將GFF3注釋數(shù)據(jù)用于基因組瀏覽器時晾嘶，字段中的一些特殊字符比如空格妓雾，> %等都需要使用URL編碼進(jìn)行轉(zhuǎn)換才能準(zhǔn)確的在web中進(jìn)行展示。
第九列同樣是表示attributes垒迂，采用的同樣是鍵值對的形式（tag=value）械姻，只是這里有幾個特定的鍵，具體如下：
ID机断，feature在整個GFF3文件中唯一的標(biāo)識符楷拳；
Name，feature的名字吏奸，不同于ID欢揖，Name不要求唯一，只是方便用戶瀏覽苦丁；
Alias浸颓，相當(dāng)于feature的別名物臂；
Parent旺拉，表明該feature所屬的上一級feature 的ID产上，這種關(guān)系可用于exons-transcripts，transcripts-genes蛾狗，可以看出一個feature可以擁有多個子feature晋涣；
Target，主要是用于序列比對結(jié)果的展示沉桌，value的格式為target_id start end [strand], 其中如果target_id中含有空格則需轉(zhuǎn)換為%20谢鹊；
后面還有些其它屬性比如Note等，這里不再做詳細(xì)描述留凭。
下面再來看下典型的例子：
蛋白質(zhì)編碼基因結(jié)構(gòu)：

ctg123 example gene            1050 9000 . + . ID=EDEN;Name=EDEN;Note=protein kinase

ctg123 example mRNA            1050 9000 . + . ID=EDEN.1;Parent=EDEN;Name=EDEN.1;Index=1
ctg123 example five_prime_UTR  1050 1200 . + . Parent=EDEN.1
ctg123 example CDS             1201 1500 . + 0 Parent=EDEN.1
ctg123 example CDS             3000 3902 . + 0 Parent=EDEN.1
ctg123 example CDS             5000 5500 . + 0 Parent=EDEN.1
ctg123 example CDS             7000 7608 . + 0 Parent=EDEN.1
ctg123 example three_prime_UTR 7609 9000 . + . Parent=EDEN.1

ctg123 example mRNA            1050 9000 . + . ID=EDEN.2;Parent=EDEN;Name=EDEN.2;Index=1
ctg123 example five_prime_UTR  1050 1200 . + . Parent=EDEN.2
ctg123 example CDS             1201 1500 . + 0 Parent=EDEN.2
ctg123 example CDS             5000 5500 . + 0 Parent=EDEN.2
ctg123 example CDS             7000 7608 . + 0 Parent=EDEN.2
ctg123 example three_prime_UTR 7609 9000 . + . Parent=EDEN.2

ctg123 example mRNA            1300 9000 . + . ID=EDEN.3;Parent=EDEN;Name=EDEN.3;Index=1
ctg123 example five_prime_UTR  1300 1500 . + . Parent=EDEN.3
ctg123 example five_prime_UTR  3000 3300 . + . Parent=EDEN.3
ctg123 example CDS             3301 3902 . + 0 Parent=EDEN.3
ctg123 example CDS             5000 5500 . + 1 Parent=EDEN.3
ctg123 example CDS             7000 7600 . + 1 Parent=EDEN.3
ctg123 example three_prime_UTR 7601 9000 . + . Parent=EDEN.3

一個名為EDEN的基因擁有三個轉(zhuǎn)錄本佃扼，分別名為EDEN.1 EDEN.2 EDEN.3，每個轉(zhuǎn)錄本又有UTR和CDS等信息蔼夜。
序列比對

ctg123 est EST_match 1050 1500 . + . ID=Match1;Name=agt830.5;Target=agt830.5 1 451
ctg123 est EST_match 3000 3202 . + . ID=Match1;Name=agt830.5;Target=agt830.5 452 654

ctg123 est EST_match 5410 5500 . - . ID=Match2;Name=agt830.3;Target=agt830.3 505 595
ctg123 est EST_match 7000 7503 . - . ID=Match2;Name=agt830.3;Target=agt830.3 1 504

ctg123 est EST_match 1050 1500 . + . ID=Match3;Name=agt221.5;Target=agt221.5 1 451
ctg123 est EST_match 5000 5500 . + . ID=Match3;Name=agt221.5;Target=agt221.5 452 952
ctg123 est EST_match 7000 7300 . + . ID=Match3;Name=agt221.5;Target=agt221.5 953 1253

定量數(shù)據(jù)

ctg123 affy microarray_oligo   1 100 281 . . Name=Expt1
ctg123 affy microarray_oligo 101 200 183 . . Name=Expt1
ctg123 affy microarray_oligo 201 300 213 . . Name=Expt1
ctg123 affy microarray_oligo 301 400 191 . . Name=Expt1
ctg123 affy microarray_oligo 401 500 288 . . Name=Expt1
ctg123 affy microarray_oligo 501 600 184 . . Name=Expt1

含F(xiàn)asta格式的GFF3格式文件

##gff-version 3
ctg123 . exon            1300  1500  .  +  .  ID=exon00001
ctg123 . exon            1050  1500  .  +  .  ID=exon00002
ctg123 . exon            3000  3902  .  +  .  ID=exon00003
ctg123 . exon            5000  5500  .  +  .  ID=exon00004
ctg123 . exon            7000  9000  .  +  .  ID=exon00005
##FASTA
>ctg123
cttctgggcgtacccgattctcggagaacttgccgcaccattccgccttg
tgttcattgctgcctgcatgttcattgtctacctcggctacgtgtggcta
tctttcctcggtgccctcgtgcacggagtcgagaaaccaaagaacaaaaa
aagaaattaaaatatttattttgctgtggtttttgatgtgtgttttttat
aatgatttttgatgtgaccaattgtacttttcctttaaatgaaatgtaat
cttaaatgtatttccgacgaattcgaggcctgaaaagtgtgacgccattc
···

該GFF3文件中含有對應(yīng)的序列兼耀，以##FASTA作為標(biāo)示。
bed
bed格式同樣是用于展示序列注釋信息求冷，有相應(yīng)的軟件來處理這類格式的文件瘤运，如bedtools〗程猓可以用在類似GBrowse這樣的基因組數(shù)據(jù)可視化工具中拯坟。以tab隔開，它必須的三個字段為 chrom韭山、chromStart郁季、chromEnd，還有9個可選字段钱磅。
注意：用于在GBrowse上展示相關(guān)注釋的bed格式通常第一行有一個關(guān)于track的描述信息巩踏。
比如下面的例子：

track name=pairedReads description="Clone Paired Reads" useScore=1
chr22 1000 5000 cloneA 960 + 1000 5000 0 2 567,488, 0,3512
chr22 2000 6000 cloneB 900 - 2000 6000 0 2 433,399, 0,3601

sam/bam
在生物信息學(xué)中尤其是高通量測序數(shù)據(jù)分析中，大部分的操作都是在實現(xiàn)短片段序列與參考序列的比對（mapping）续搀，比如bowtie等塞琼，這就涉及到如何使用一個統(tǒng)一的格式來表示這種mapping結(jié)果呢，sam（Sequence Alignment/Map）格式就是來解決這個問題的禁舷。sam文件擁有頭部描述和詳細(xì)比對兩部分彪杉，其中頭部描述是以@開頭，后面緊跟兩個縮寫字母表示相應(yīng)的含義牵咙，SAM分為兩部分派近，注釋信息（header section）和比對結(jié)果部分（alignment section），注釋信息可有可無洁桌，都是以@開頭渴丸，用不同的tag表示不同的信息，主要有@HD，說明符合標(biāo)準(zhǔn)的版本谱轨、對比序列的排列順序戒幔；@SQ，參考序列說明土童；@RG诗茎，比對上的序列（read）說明；@PG献汗，使用的程序說明敢订；@CO，任意的說明信息罢吃。而詳細(xì)比對部分是通過11個tab隔開的字段來表示楚午。下面主要講解下詳細(xì)比對部分字段的具體含義：

image.png

其中：

QNAME 表示的是查詢序列的名稱即短片段（reads）的名稱；
FLAG 以整數(shù)來表示比對的結(jié)果尿招，不同數(shù)值有不同的意義醒叁，數(shù)值也可以是下列數(shù)的組合；

image.png

比如如果FLAG是4的話則表示該reads沒有比對到參考序列上泊业，flag為16表示single-end reads比對到參考序列的反鏈上把沼，
flag為83（64+16+2+1）表示paired-end reads中的第一個reads比對到參考序列上了。
RNAME 表示參考序列的名稱吁伺，比如基因組的染色體編號等饮睬，如果沒有比對上則顯示為*；
POS 表示比對的起始位置篮奄，以1開始計數(shù)捆愁，如果沒有比對上則顯示為0；
MAPQ 比對質(zhì)量窟却；
CIGAR CIGAR 字符串昼丑，即比對的詳細(xì)情況，簡要比對信息表達(dá)式（Compact Idiosyncratic Gapped Alignment Report）夸赫，其以參考序列為基礎(chǔ)菩帝，使用數(shù)字加字母表示比對結(jié)果，比如3S6M1P1I4M茬腿，前三個堿基被剪切去除了呼奢，然后6個比對上了，然后打開了一個缺口切平，有一個堿基插入握础，最后是4個比對上了，是按照順序的悴品；
RNEXT 雙末端測序中下一個reads比對的參考系列的名稱禀综，如果沒有則用*表示简烘，如果和前一個reads比對到同一個參考序列則用=表示；
PNEXT 下一個reads比對到參考序列上的位置定枷，如果沒有則用0表示孤澎；
ISIZE/TLEN query序列的模板長度或者插入長度，Template的長度依鸥，最左邊得為正，最右邊的為負(fù)悼沈，中間的不用定義正負(fù)贱迟，不分區(qū)段（single-segment)的比對上，或者不可用時絮供，此處為0衣吠；
reads的序列信息；
reads的序列質(zhì)量信息壤靶，同F(xiàn)ASTQ缚俏。
后面還有些可選字段，比如：
可選字段（optional fields)贮乳，格式如：TAG:TYPE:VALUE忧换，其中TAG有兩個大寫字母組成，每個TAG代表一類信息向拆，每一行一個TAG只能出現(xiàn)一次亚茬，TYPE表示TAG對應(yīng)值的類型，可以是字符串浓恳、整數(shù)刹缝、字節(jié)、數(shù)組等颈将。
示例：

:497:R:-272+13M17D24M   113 1   497 37  37M 15  100338662   0   CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG   0;==-==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>>   XT:A:U  NM:i:0  SM:i:37 AM:i:0  X0:i:1  X1:i:0  XM:i:0  XO:i:0  XG:i:0  MD:Z:37
:20389:F:275+18M2D19M   99  1   17644   0   37M =   17919   314 TATGACTGCTAATAATACCTACACATGTTAGAACCAT   >>>>>>>>>>>>>>>>>>>><<>>><<>>4::>>:<9   RG:Z:UM0098:1   XT:A:R  NM:i:0  SM:i:0  AM:i:0  X0:i:4  X1:i:0  XM:i:0  XO:i:0  XG:i:0  MD:Z:37
:20389:F:275+18M2D19M   147 1   17919   0   18M2D19M    =   17644   -314    GTAGTACCAACTGTAAGTCCTTATCTTCATACTTTGT   ;44999;499<8<8<<<8<<><<<<><7<;<<<>><<   XT:A:R  NM:i:2  SM:i:0  AM:i:0  X0:i:4  X1:i:0  XM:i:0  XO:i:1  XG:i:2  MD:Z:18^CA19
:21597+10M2I25M:R:-209  83  1   21678   0   8M2I27M =   21469   -244    CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT   <;9<<5><<<<><<<>><<><>><9>><>>>9>>><>   XT:A:R  NM:i:2  SM:i:0  AM:i:0  X0:i:5  X1:i:0  XM:i:0  XO:i:1  XG:i:2  MD:Z:35

解釋：

image.png

其中可以看出Aligenment 2 和 Alignment 3是成對的reads梢夯，其插入長度為314。
bam格式中的b是binary的意思晴圾，是sam格式的二進(jìn)制表示方式颂砸，為什么要用二進(jìn)制表示呢？因為sam格式文件大小通常是十分大的死姚，一般是以G為單位沾凄，所以為了減少存儲量等因素而將sam轉(zhuǎn)換為二進(jìn)制格式以便于分析。
sam/bam格式是由特定的一些軟件（比如samtools）來處理的知允，包括格式互轉(zhuǎn)撒蟀、排序、建立索引温鸽、搜尋突變等操作保屯，后續(xù)分析中會詳細(xì)講解samtools工具的使用方法手负。
vcf
vcf（Variant Call Format）格式是用于表示突變信息的文本格式，可以用來表示single nucleotide variants, insertions/deletions, copy number variants and structural variants等姑尺。VCF格式同樣是分為兩大部分竟终，一部分是注釋描述信息，一部分是具體的突變信息切蟋，其中注釋信息是以##開頭的统捶，我們來看下面這個例子：

image.png

我們著重來關(guān)注第二部分的每列字段是什么含義：
CHROM 即chromosome，染色體名稱柄粹；

POS 即position喘鸟，發(fā)生突變的參考序列的位置（從1開始計數(shù)）；
ID 突變的名稱驻右；
REF 參考序列POS上的堿基什黑；
ALT 發(fā)生突變的堿基，多個的話以,連接堪夭，可選符號為ATCGN*愕把，大小寫敏感；
QUAL 基于Phred格式的表示ALT的質(zhì)量森爽，也可以理解為可靠性恨豁；
FILTER 過濾后的狀態(tài)，即按照可靠性進(jìn)行篩選爬迟；
INFO 額外信息圣絮，可結(jié)合注釋描述信息進(jìn)行理解

image.png

針對vcf格式有如bcftools等軟件進(jìn)行處理。

最后編輯于：2018.02.28 14:34:26

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末雕旨，一起剝皮案震驚了整個濱河市扮匠，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌凡涩，老刑警劉巖棒搜，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異活箕，居然都是意外死亡力麸，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門育韩，熙熙樓的掌柜王于貴愁眉苦臉地迎上來克蚂，“玉大人，你說我怎么就攤上這事筋讨“０龋” “怎么了？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵悉罕，是天一觀的道長赤屋。經(jīng)常有香客問我立镶，道長，這世上最難降的妖魔是什么类早？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任媚媒，我火速辦了婚禮，結(jié)果婚禮上涩僻，老公的妹妹穿的比我還像新娘缭召。我一直安慰自己，他們只是感情好逆日，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布嵌巷。她就那樣靜靜地躺著，像睡著了一般屏富。火紅的嫁衣襯著肌膚如雪晴竞。梳的紋絲不亂的頭發(fā)上蛙卤，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天狠半，我揣著相機(jī)與錄音，去河邊找鬼颤难。笑死神年，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的行嗤。我是一名探鬼主播已日，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼栅屏！你這毒婦竟也來了飘千？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤栈雳，失蹤者是張志新（化名）和其女友劉穎护奈，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體哥纫，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡霉旗，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了蛀骇。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片厌秒。...
茶點(diǎn)故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖擅憔，靈堂內(nèi)的尸體忽然破棺而出鸵闪，到底是詐尸還是另有隱情暑诸，我是刑警寧澤啦逆，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響厅须，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜眶拉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一谒臼、第九天我趴在偏房一處隱蔽的房頂上張望拾氓。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案臀脏，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽揉稚。三九已至余境，卻和暖如春芳来，著一層夾襖步出監(jiān)牢的瞬間答渔，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工笼沥，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留奔浅，地道東北人馆纳。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像汹桦，于是被迫代替她去往敵國和親鲁驶。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評論 2贊 345

生物信息常用文件格式

推薦閱讀更多精彩內(nèi)容