歡迎關(guān)注”生信修煉手冊”!
在進(jìn)行peak calling分析時,經(jīng)常會接觸到以下3種peak格式
narrow peaks format
broad peaks fotmat
-
gapped peaks format
peak被定義為基因組上一段reads富集的區(qū)域,核心信息是在染色體上的起始和終止位置,除此之外缘眶,還有軟件對于該peak區(qū)域的打分,比如常見的pvalue, qvalue, fold_enrichment等值髓废。
和基因組比對信息用BAM格式來存儲類似巷懈,為了標(biāo)準(zhǔn)化不同peak calling軟件的輸出,特意制定了以上3種數(shù)據(jù)格式慌洪。這三種格式本質(zhì)上都是bed文件顶燕,只不過列數(shù)不太類似。
1. Narrow Peaks Format
該格式又稱之為point-source peaks format, macs2默認(rèn)輸出就是這種格式冈爹,是一種BED6+4的格式涌攻,列數(shù)為10列,示意如下
前四列分別代表chrom
, chromStart
, chromEnd
, name
, 用于描述peak區(qū)間和名稱频伤,注意bed格式中起始位置從0開始計(jì)數(shù)恳谎。
第五列代表score
,在macs2的輸出結(jié)果中為int(-10*log10qvalue)
,第六列代表strand
, 在macs2的輸出結(jié)果中為.
,第七列代表signalvalue
, 通常使用fold_enrichment
的值,第八列代表pvalue
, 在macs2的輸出結(jié)果中為-log10(pvalue)
,第九列代表qvalue
, 在macs2的輸出結(jié)果中為-log10(qvalue)
,第十列代表peak
, 在macs2的輸出結(jié)果中為peak的中心憋肖,即summit距離peak起始位置的距離因痛。
2. Broad Peaks Format
這種格式就是在narrow peaks format的基礎(chǔ)上丟掉了最后一列的信息,為BED6+3的格式岸更, 列數(shù)為9列鸵膏。
3. Gapped Peaks Format
前兩種格式都是由于描述連續(xù)的peak區(qū)間,適用于DNA水平上的富集區(qū)域信息的存儲怎炊,比如chip_seq, ATAC_seq鑒定到的peak區(qū)間谭企,而gapped peaks format用于描述非連續(xù)的peak區(qū)間,這里的非連續(xù)通常指的是在peak的區(qū)間內(nèi)會包含多個exon區(qū)域评肆,適用于RNA水平上的富集區(qū)域信息的存儲赞咙,比如m6A_seq鑒定到的peak區(qū)間。
該格式在BED12的基礎(chǔ)上進(jìn)行延伸糟港,演變?yōu)锽ED12+3的格式攀操,列數(shù)為15列,每列的含義示意如下
前6列的含義和上述兩種peak格式完全相同秸抚,后3列的含義和broad peak完全相同速和,為了專區(qū)表示peak區(qū)間內(nèi)包含的exon信息,借鑒轉(zhuǎn)錄本的BED12格式剥汤,引入了以下6列
thickStart
thickEnd
itemRgb
blockCount
blockSizes
-
blockStarts
thickStart
和thickEnd
有點(diǎn)類似轉(zhuǎn)錄本中CDS的起始和終止位置颠放,在存儲peak信息時,通常的做法是將這兩列的值和chromStart
和chromEnd
的值設(shè)置成相同的吭敢,itemRgb
是一個RGB顏色值碰凶,比如255,0,0
, 如果沒有對應(yīng)的顏色信息,則用0
來表示。
blockCount
代表該peak區(qū)間包含的exon的個數(shù)欲低,blockSizes
代表每個exon區(qū)間的長度辕宏,多個exon用逗號連接,blockStarts
代表每個exon區(qū)間在基因組上的起始位置砾莱,多個exon用逗號連接瑞筐。
關(guān)于這三種格式的相關(guān)介紹請參考以下鏈接
https://genome.ucsc.edu/FAQ/FAQformat.html#format13
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關(guān)注微信號腊瑟,更多精彩內(nèi)容等著你聚假!