基因組共線性工具M(jìn)CScanX

MCScanX一般是做基因組之間的共線性

一才菠、MCScanX安裝

MCScanX官網(wǎng)http://chibba.pgml.uga.edu/mcscan2/#tm
下載MCScanX的安裝包MCScanX.zip现柠,可以在linux系統(tǒng)和Mac OS進(jìn)行編譯:

unzip MCscanX.zip
cd MCScanX
make

make報(bào)錯(cuò):

g++ struct.cc mcscan.cc read_data.cc out_utils.cc dagchainer.cc msa.cc permutation.cc -o MCScanX
msa.cc: In function ‘void msa_main(const char*)’:
msa.cc:289:22: error: ‘chdir’ was not declared in this scope
if (chdir(html_fn)<0)
^
make: *** [mcscanx] Error 1

這個(gè)錯(cuò)誤的原因是旁赊,MCScanX 不支持64位系統(tǒng)。如果要在 64位上運(yùn)行亚享,需要修改下源代碼鸦致。
只需要給MCScanX 目錄下的 msa.h, dissect_multiple_alignment.h, and detect_collinear_tandem_arrays.h 這三個(gè)文件內(nèi)容的最前面添加(#include <unistd.h>)
正確的做法是用vi打開文件,分別在三個(gè)文件( msa.h, dissect_multiple_alignment.h, and detect_collinear_tandem_arrays.h)的最前面添加:

msa.h

如果還報(bào)錯(cuò)锭碳,檢查安裝是的用戶袁稽,不要是root用戶:
不要切換到root安裝,普通用戶sudo安裝就可以.

二擒抛、使用方法

MCScanX推汽、MCScanX_h蝗柔、duplicate_gene_classifier這三個(gè)是核心程序,downstream_analyses中包含12個(gè)下游分析程序民泵,可以畫圖構(gòu)樹癣丧,還是很方便很強(qiáng)大的

下面以最常用的多物種MCScanX找共線性使用為列:

image

第一步 blastp(protein-protein BLAST)比對(duì)

注意!這里是找at和vv兩個(gè)基因組組內(nèi)和組間的共線性,因?yàn)橄胪瑫r(shí)知道物種內(nèi)和物種間的共線性栈妆,所以在blast之前把a(bǔ)t和vv的基因組cat到一起胁编,既做database,又做query鳞尔,如果只想知道組間的共線性嬉橙,那么就任取一個(gè)基因組為database,另一個(gè)做query

合并 cat at.fa vv.fa >>all.fasta

建庫 makeblastdb -in all.fa-dbtype prot -parse_seqids -out all (-logfile allpep.log -title all)

蛋白比對(duì) blastp -query all.fa -db all -out at_vv.blast -evalue 1e-10 -num_threads 16 -outfmt 6 -num_alignments 5

小tips:blast這一步是限速步驟寥假,可以把a(bǔ)ll.fasta文件cut成多份市框,同時(shí)并行跑節(jié)省時(shí)間

注意!親自驗(yàn)證該軟件最多只能做5個(gè)物種的共線性糕韧。枫振。。不管輸入再多物種結(jié)果只有五個(gè)S┎省粪滤!

第二步 運(yùn)行MCScanX

輸入文件只有兩個(gè),一個(gè)是上一步blast得到的at_vv.blast文件雀扶,格式如下:

image

還有一個(gè)是at_vv.gff文件杖小,不過跟一般的九列g(shù)ff文件不同,這里是縮略版本愚墓,可以用awk得到予权,第一列是物種名和染色體編號(hào),第二列是基因號(hào)浪册,第三列是起始位置扫腺,第四列是終止位置(用tab分割)

image

準(zhǔn)備好這兩個(gè)文件之后,輸入命令行

MCScanX at_vv

注意:at_vv.gff at_vv.blast和at_vv命名需要一致且在同一個(gè)文件夾里

其他參數(shù)設(shè)置

image

運(yùn)行速度快(吐槽一下用Sibelia來做植物基因組實(shí)在是太慢了议经。斧账。)

image

運(yùn)行成功后得到at_vv.html,at_vv.collinearity,at_vv.tandem輸出文件

image

at_vv.collinearity里記錄了共線性信息

image

可以看到collinear gene的數(shù)目和占比以及具體的比對(duì)信息

第三步 下游分析及可視化

1、常用的下游分析有:
duplicate_gene_classifier XX (0:singleton(非重復(fù)基因)1:dispersed(不是2煞肾,3咧织,4的其它重復(fù))2:proximal(染色體附近的重復(fù),但是不相鄰)3:tandem(串聯(lián)重復(fù))4:WGD/segmental(在共線性區(qū)域的共線性基因))

dissect_multiple_alignment -g XX.gff -c XX.collinearity -o XX.dis
group_collinear_genes.pl -i XX.collinearity -o XX.collinear.groups

2籍救、可視化:軟件自帶的分析包不能調(diào)顏色习绢,所以推薦用python版的MCscan(JCVI 包),參考文章其實(shí)MCScanX畫圖也可以很好看
繪圖瞬間高大上

image

這里直接使用下游dot_plotter, dual_synteny_plotter, circle_plotter和bar_plotter 4個(gè)java包更便捷

image

gff和collinearity是上一步的輸出,還需要編輯一個(gè)control文件闪萄,設(shè)置需要展示的染色體信息(和gff的第一列一致)

1.dot_plotter

java dot_plotter -g at_vv.gff -s at_vv.collinearity -c dot.ctl -o dot.PNG

**dot.ctl **

image

image

2.dual_synteny_plotter

java dual_synteny_plotter -g at_vv.gff -s at_vv.collinearity -c dual_synteny.ctl -o dual_synteny.PNG

**dual_synteny.ctl **

image
image

3.circle_plotter

java circle_plotter -g at_vv.gff -s at_vv.collinearity -c circle.ctl -o circle.PNG

circle.ctl

image
image

4.bar_plotter

java bar_plotter -g at_vv.gff -s at_vv.collinearity -c bar.ctl -o bar.PNG

bar.ctl

image
image

第四步 其他分析

duplicate_gene_classifier梧却、detect_collinear_tandem_arraysdissect_multiple_alignments對(duì)結(jié)果做進(jìn)一步分析败去,借助其他相關(guān)信息放航,還可以做

origin_enrichment_analysis,family_tree_plotter,add_ka_and_ks_to_collinearity

image
image

三、基因家族復(fù)制加倍分析(練習(xí))

官方網(wǎng)站上提供測(cè)試代碼圆裕,還有測(cè)試數(shù)據(jù)广鳍,存放在MCScanX安裝目錄的data目錄當(dāng)中,非常適合初學(xué)者練習(xí):

data目錄數(shù)據(jù):

1.先來運(yùn)行一下共線性分析(物種內(nèi)吓妆,擬南芥為例第一個(gè)例子)

使用擬南芥的測(cè)試數(shù)據(jù)at開頭的文件赊时,用了data目錄下的兩個(gè)文件,at.gff 和at.blast 分別為基因的位置信息和blast比對(duì)結(jié)果:

官方例子:http://chibba.pgml.uga.edu/mcscan2/examples/example1.php

sudo ./MCScanX data/at

運(yùn)行完成之后生成文件如下:

其中at.collinearity 為共線性結(jié)果行拢,at.tandem為串聯(lián)重復(fù)基因結(jié)果祖秒,這兩個(gè)文件最重要;

2.結(jié)合基因家族分析基因加倍與復(fù)制

上面做完全基因組共線性分析后舟奠,可根據(jù)自己的基因家族信息竭缝,繪制基因家族圈圖:

官方例子:http://chibba.pgml.uga.edu/mcscan2/examples/example12.php

代碼如下

[http://chibba.pgml.uga.edu/mcscan2/examples/family.ctl](http://chibba.pgml.uga.edu/mcscan2/examples/family.ctl)
wget [http://chibba.pgml.uga.edu/mcscan2/examples/MADS_box_family.txt](http://chibba.pgml.uga.edu/mcscan2/examples/MADS_box_family.txt)
sudo java family_circle_plotter -g ../data/at.gff -s ../data/at.collinearity -c family.ctl -f ../data/MADS_box_family.txt -o MADS.circle.PNG

灰色背景為擬南芥全基因組的共線性結(jié)果,紅色為基因家族的共線性結(jié)果鸭栖;

**3.再來運(yùn)行物種間的共線性分析(第二個(gè)例子歌馍,Rice (os) and sorghum (sb)共線性分析)

官方例子地址:http://chibba.pgml.uga.edu/mcscan2/examples/example7.php

sudo ./MCScanX data/os_sb

運(yùn)行結(jié)果文件:os_sb.collinearity 握巢, os_sb.tandem

結(jié)果可視化:

首先晕鹊,切換到downstream_analyses目錄下,然后下載四個(gè)繪圖控制文件暴浦,*ctl溅话,之后就可以利用結(jié)果文件繪圖了,代碼如下:

[http://chibba.pgml.uga.edu/mcscan2/examples/dot.ctl](http://chibba.pgml.uga.edu/mcscan2/examples/dot.ctl) [http://chibba.pgml.uga.edu/mcscan2/examples/dual_synteny.ctl](http://chibba.pgml.uga.edu/mcscan2/examples/dual_synteny.ctl) [http://chibba.pgml.uga.edu/mcscan2/examples/circle.ctl](http://chibba.pgml.uga.edu/mcscan2/examples/circle.ctl) [http://chibba.pgml.uga.edu/mcscan2/examples/bar.ctl](http://chibba.pgml.uga.edu/mcscan2/examples/bar.ctl) java dot_plotter -g ../data/os_sb.gff -s ../data/os_sb.collinearity -c dot.ctl -o dot.PNG
java dual_synteny_plotter -g ../data/os_sb.gff -s ../data/os_sb.collinearity -c dual_synteny.ctl -o dual_synteny.PNG
java circle_plotter -g ../data/os_sb.gff -s ../data/os_sb.collinearity -c circle.ctl -o circle.PNG
java bar_plotter -g ../data/os_sb.gff -s ../data/os_sb.collinearity -c bar.ctl -o bar.PNG

結(jié)果圖展示:

當(dāng)然網(wǎng)站上還有其他示例代碼和數(shù)據(jù)(Examples中)歌焦,大家可以自行操作練習(xí)飞几。

參考文章鏈接:
http://www.reibang.com/p/740cb9eccf2b
https://www.omicsclass.com/article/275
https://www.omicsclass.com/article/104

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市独撇,隨后出現(xiàn)的幾起案子屑墨,更是在濱河造成了極大的恐慌,老刑警劉巖纷铣,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件卵史,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡搜立,警方通過查閱死者的電腦和手機(jī)以躯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人忧设,你說我怎么就攤上這事刁标。” “怎么了址晕?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵膀懈,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我谨垃,道長(zhǎng)吏砂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任乘客,我火速辦了婚禮狐血,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘易核。我一直安慰自己匈织,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布牡直。 她就那樣靜靜地躺著缀匕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪碰逸。 梳的紋絲不亂的頭發(fā)上乡小,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音饵史,去河邊找鬼满钟。 笑死,一個(gè)胖子當(dāng)著我的面吹牛胳喷,可吹牛的內(nèi)容都是我干的湃番。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼吭露,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼吠撮!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起讲竿,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤泥兰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后题禀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鞋诗,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年投剥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了师脂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖吃警,靈堂內(nèi)的尸體忽然破棺而出糕篇,到底是詐尸還是另有隱情,我是刑警寧澤酌心,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布拌消,位于F島的核電站,受9級(jí)特大地震影響安券,放射性物質(zhì)發(fā)生泄漏墩崩。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一侯勉、第九天 我趴在偏房一處隱蔽的房頂上張望鹦筹。 院中可真熱鬧,春花似錦址貌、人聲如沸铐拐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽遍蟋。三九已至,卻和暖如春螟凭,著一層夾襖步出監(jiān)牢的瞬間虚青,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國打工螺男, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留棒厘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓烟号,卻偏偏與公主長(zhǎng)得像绊谭,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子汪拥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355