格式
BED格式文件全稱是 Browser Extensible Data,通過規(guī)定行的內(nèi)容來展示注釋信息租谈。bed文件可以作為一個(gè)特征標(biāo)識(shí)符篮奄, 來快速查找感興趣的基因組區(qū)域,最經(jīng)典的應(yīng)用場(chǎng)景就是將peak calling的bed文件和對(duì)應(yīng)樣本的tdf文件同時(shí)導(dǎo)入IGV, 然后快速查看peak區(qū)域的測(cè)序深度分布情況割去。GFF文件格式如下:BED格式文件有3個(gè)基本列和9個(gè)可選的附加列
基本列
第一列:chrom宦搬,染色體號(hào);
第二列:chromStart劫拗,在染色體上的起始位置,從0開始計(jì)數(shù)矾克;
第三列:ChromEnd页慷,在染色體上的終止位置。bed文件為左閉右開區(qū)間胁附,當(dāng)片段堿基為0-99時(shí)酒繁,記為“ChromStart=0,ChromEnd=100”。
附加列
第四列:name控妻,行名州袒;
第五列:score,基因組瀏覽器中顯示的灰度設(shè)定值弓候,介于0-1000之間郎哭,越大越黑;
第六列:正負(fù)鏈標(biāo)記菇存,“+”夸研、“-”、“.”(no strand)依鸥;
第七列:thickStart亥至,編碼起始位置;
第八列:thickEnd,編碼終止位置姐扮;
第九列:itemRgb-R,G,B絮供,當(dāng)itemRgb設(shè)置為“On”,行會(huì)顯示顏色茶敏;
第十列:blockCount壤靶,外顯子數(shù)量;
第十一列:BlockSizes睡榆,外顯子大小列表萍肆,逗號(hào)分隔;
第十二列:blockStarts胀屿,外顯子起始列表位置塘揣,逗號(hào)分隔,是與chromStart相對(duì)的一個(gè)位置宿崭。
處理
IGV查看
bed文件中的每一行為一個(gè)染色體區(qū)域亲铡,當(dāng)bed文件的name存在時(shí),在區(qū)域的下方會(huì)顯示對(duì)應(yīng)的ID葡兑,可以用于檢索奖蔓,示意如下長(zhǎng)度運(yùn)算__ bedtools slop
增加兩端長(zhǎng)度
bedtools slop -i input.bed -g output.bed -b 10 # -b,增加兩端長(zhǎng)度(10bp)
bedrolls slop -i input.bed -g output.bed -b 0.1 -pct #-pct,按比例(-b)增加兩端長(zhǎng)度
增加一端長(zhǎng)度
bedtools slop -i input.bed -g output.bed -l 10 -r 20 #-l,增加開始端長(zhǎng)度讹堤;-r吆鹤,增加末端長(zhǎng)度
鏈特異性影響
bedtools slop -i demo.bed -g genome.txt -l 10 -r 3 -s #-s,區(qū)分正負(fù)鏈,對(duì)正鏈運(yùn)算無影響洲守,對(duì)負(fù)鏈運(yùn)算首位交換
與GFF關(guān)系
genomic features通常使用bed 或者gff文件表示疑务,兩者最基本的信息就是染色體或Contig的ID或編號(hào)、DNA的正負(fù)鏈信息以及在染色體上的起始和終止位置數(shù)值梗醇。兩種文件的區(qū)別在于知允,BED文件中起始坐標(biāo)為0,結(jié)束坐標(biāo)至少是1叙谨,GFF中起始坐標(biāo)是1而結(jié)束坐標(biāo)至少是1温鸽。把BED轉(zhuǎn)成對(duì)應(yīng)的GFF格式(僅保留兩者相同信息)
cat demo.bed | bioawk -c bed '{print $chrom, ".", ".", $start+1, $end, $score, $strand, ".", "." }' > demo.gff