全文引自:https://cloud.tencent.com/developer/article/1556023 侵刪
Mutation Annotation Format拓瞪, 簡(jiǎn)稱(chēng)MAF, 是由TCGA制定的一種文件格式兄旬,用來(lái)存儲(chǔ)突變注釋信息。在TCGA中撇吞,對(duì)于突變數(shù)據(jù)有以下四種類(lèi)型:
Annotated Somatic Mutation, 體細(xì)胞突變的注釋文件详炬,格式為VCF, 采用VEP軟件進(jìn)行注釋?zhuān)募缶Y為vep.vcf.gz
Raw Simple Somatic Mutation, 體細(xì)胞突變的原始文件裙品,格式為VCF, 文件后綴為vcf.gz
Aggregated Somatic Mutation, protected的突變注釋文件忍宋,需要賬號(hào)和權(quán)限才可以下載,格式為MAF, 文件后綴為maf.gz
Masked Somatic Mutation, open access的突變注釋文件溜徙,免費(fèi)下載的湃缎,格式為MAF, 文件后綴為maf.gz
在TCGA中,VCF通常用于記錄單個(gè)樣本的體細(xì)胞突變相關(guān)結(jié)果,MAF用于整合所有樣本的體細(xì)胞突變注釋結(jié)果蠢壹,所以稱(chēng)MAF格式為project-level, 根據(jù)數(shù)據(jù)的開(kāi)放性嗓违,又分為protected和open access, 其中open access就是我們可以直接下載得到的MAF文件, 以乳腺癌為例图贸,在TCGA中提供了4個(gè)MAF文件
對(duì)應(yīng)4個(gè)不同的體細(xì)胞突變calling軟件蹂季,每個(gè)文件中包含了1044個(gè)樣本的體細(xì)胞SNV注釋結(jié)果。
MAF和VCF類(lèi)似疏日,也是一個(gè)純文本的格式偿洁,由\t分隔的許多列構(gòu)成,從GDC下載的MAF文件的截圖如下
# 開(kāi)頭的為注釋行沟优,其他部分為正文涕滋,每一列有一個(gè)固定的表頭, 完整的MAF共有100多列,在實(shí)際處理中挠阁,我們可能沒(méi)有這么多列的信息宾肺,常用的幾列解釋如下
column1, Hugo_Symbol, 由HUGO提供的gene symbol, 表示SNV所在的基因名稱(chēng)
column 2,Entrez_Gene_id, SNV所在基因的entrez id, 如果沒(méi)有對(duì)應(yīng)的基因,則用0表示
column 4,NCBI_Build, snv calling時(shí)使用的參考基因組版本
column5,Chromsome, SNV所在的染色體
column6,Start_Position, SNV在染色體上的起始位置
column7,End_Position,SNV在染色體上的終止位置
column9,Variant_Classification, SNV位點(diǎn)的分類(lèi)鹃唯,Missense_Mutation爱榕,Nonsense_Mutation等類(lèi)別,分類(lèi)的依據(jù)為SNV對(duì)翻譯的影響
column10,Variant_Type, SNV位點(diǎn)的類(lèi)型瓣喊,比如SNP, INS,DEl等類(lèi)型
column11,Reference_Allel, 參考基因組上的allel
column12,Tumor_Seq_Allel1, 腫瘤樣本中該位點(diǎn)對(duì)應(yīng)的主等位基因
column13,Tumor_Seq_Allel2,腫瘤樣本中該位點(diǎn)對(duì)應(yīng)的次等位基因
column16,Tumor_Sample_Barcode, 腫瘤樣本的barcode
column17,Tumor_Normal_Barcode,配對(duì)的正常樣本的barcode
每一列的詳細(xì)含義見(jiàn)如下鏈接
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
MAF是專(zhuān)門(mén)針對(duì)human定義的一種文件格式坡慌,通過(guò)一個(gè)文件就可以包含所有樣本的SNV和對(duì)應(yīng)的注釋信息,對(duì)于下游分析而言藻三,非常的方便洪橘。在實(shí)際使用中跪者, 對(duì)于VCF文件,可以通過(guò)vcf2maf將其轉(zhuǎn)換為MAF格式熄求,在后續(xù)文章中會(huì)具體介紹該軟件的用法渣玲。