一:準(zhǔn)備文件
1.染色體長(zhǎng)度文件
偷懶直接打開gff文件,前幾行就是染色體信息觉吭,粘貼出來就好岂膳,保存為chr_length.txt
2.Text文件
在圖片中顯示的gene名字
打開上一步生成的shaixuan.result文件
去除1,2列合并為1列望伦,去除.后面的數(shù)字贺辰,刪除重復(fù),保存為gene_id.text询枚。
再根據(jù)gene_id提取gff中的位置信息违帆。
$grep -f gene_id.text ../../Ensembl_TAIR/Arabidopsis_thaliana.TAIR10.41.gff3 |awk ' $3=="gene"{print $1,$4,$5,$9}'|sed 's/;.*//g'|sed 's/ID=//g' >text.txt
生成的結(jié)果就是需要的繪圖的text.txt文件。
3.Link文件
用到的文件:1是上一步的text文件金蜀,2是之前生成的shaixuan.result文件刷后。將shaixuan.result文件粘貼的excel,只需要前兩列轉(zhuǎn)錄本id渊抄,將其轉(zhuǎn)換成gene_id(去掉后面的.數(shù)字)
1.提取上圖右邊兩列g(shù)ene_id的位置信息尝胆。用到一個(gè)vLOOKUP函數(shù)來提取染色體位置。
2.基因起始位置
3.基因終止位置
最后如下:
復(fù)制粘貼一次數(shù)值护桦,反正等會(huì)粘貼進(jìn)別的其他東西含衔,刪除兩列ID
下圖就是我們要的Link文件格式,復(fù)制粘貼為L(zhǎng)ink.txt文件二庵。
二:繪圖
到此贪染,就準(zhǔn)備好了需要的三個(gè)文件
- 染色體長(zhǎng)度文件:chr_length.txt
- text文件
- Link文件
這里由于是要繪制circos圖,需要將上訴三個(gè)文件轉(zhuǎn)換成circos繪圖需要的一個(gè)circos.conf和一個(gè)染色體長(zhǎng)度karyotype文件催享。用到一個(gè)perl腳本
$perl circos.pl --chr chr_length.txt --circle Link.txt --type link --circle text.txt --type text -od circose1
##生成的文件夾里就是需要的circos.conf文件
當(dāng)然你要是不會(huì)腳本也可以自己轉(zhuǎn)換成circos需要的文件杭隙,前提是你會(huì)用circos軟件。
1.首先是染色體長(zhǎng)度文件
我們把從gff前面幾行復(fù)制來的長(zhǎng)度信息轉(zhuǎn)換成circos需要的染色體長(zhǎng)度文件:
chr.info
chr - 1 1 0 30427671 chr1
chr - 2 2 0 19698289 chr2
chr - 3 3 0 23459830 chr3
chr - 4 4 0 18585056 chr4
chr - 5 5 0 26975502 chr5
chr - Mt Mt 0 366924 chr6
chr - Pt Pt 0 154478 chr7
2.就是circos.conf文件
其中最重要的就是我們之前準(zhǔn)備的Link文件和text文件因妙,把這兩個(gè)文件的路徑分別加到circos,conf的link和plots的的位置即可痰憎。
下面就是我們加到circos.conf里面的文件路徑
</ideogram>
karyotype=/home/spider/project/yuantao/test/Athaliana/gene_duplication/repeat_gene_circos/chr.info
<link>
file=/home/spider/project/yuantao/test/Athaliana/gene_duplication/repeat_gene_circos/Link.txt
<plots>
file=/home/spider/project/yuantao/test/Athaliana/gene_duplication/repeat_gene_circos/text.txt
3.運(yùn)行circos
$circos -conf circos.conf