【比較基因組】McScan jcvi比較兩個(gè)基因組共線性細(xì)節(jié)記錄

軟件的安裝

Python版McScan(jcvi工具包):https://github.com/tanghaibao/jcvi

以前只有python2径簿,現(xiàn)在已有python3版本,建議用py3琳猫。安裝可用pip:

pip install jcvi
##或開發(fā)版
pip install git+git://github.com/tanghaibao/jcvi.git

pip可能會(huì)安裝很慢圃庭。建議還是用conda辆它,要快很多衷模,最好新建環(huán)境狗超。

conda install -c bioconda jcvi

這時(shí)瞳腌,你已經(jīng)能使用命令论颅,表面上安裝成功了哎垦,實(shí)際上可能還缺少很多依賴囱嫩。比如last,latex漏设,dvipng等墨闲。否則在后面運(yùn)行過程,可能遇到如下錯(cuò)誤:

##未安裝last
/bin/bash: lastdb: command not found
##未安裝latex郑口、dvipng
RuntimeError: Failed to process string with tex because latex could not be found

只有一個(gè)個(gè)解決鸳碧,有的可以直接conda(如last),有些則需要編譯犬性,若有root權(quán)限瞻离,倒也好辦。

conda install -c bioconda last
sudo yum install -y  texlive texlive-latex texlive-xetex texlive-collection-latexrecommended
sudo yum install dvipng

基因組的準(zhǔn)備

若是已知物種乒裆,直接可從公共數(shù)據(jù)庫(kù)中下載gff和cds序列套利,jcvi提供了下載方式:

$ python -m jcvi.apps.fetch
Usage:
    python -m jcvi.apps.fetch ACTION


Available ACTIONs:
        bisect | Determine the version of the accession by querying entrez
       ensembl | Retrieve genomes and annotations from ensembl
        entrez | Fetch records from entrez using a list of GenBank accessions
     phytozome | Retrieve genomes and annotations from phytozome
    phytozome9 | Retrieve genomes and annotations from phytozome version 9.0 (legacy)
           sra | Retrieve files from SRA via the sra-instant FTP

比如從Phytozome下載,要提前注冊(cè)好鹤耍,如下命令提示輸入賬號(hào)密碼肉迫。

python -m jcvi.apps.fetch phytozome Vvinifera,Ppersica

下載后無(wú)需解壓。

自己準(zhǔn)備的基因組數(shù)據(jù)也只需gff3和cds.fa(蛋白序列也可)稿黄。

gff3只保留染色體水平的ID喊衫,如:

grep '^chr' Vvinifera_145_Genoscope.12X.gene.gff3 > apricot.filter.gff3

gff3文件轉(zhuǎn)化bed文件時(shí)注意type和key類型對(duì)應(yīng)gff中第三列和第九列信息。type一般為mRNA杆怕,但是key注意你的gff文件是取Name還是ID族购。如:

python -m jcvi.formats.gff bed --type=mRNA --key=Name Vvinifera_145_Genoscope.12X.gene.gff3 -o grape.bed
python -m jcvi.formats.gff bed --type=mRNA --key=ID Ppersica_298_v2.1.gene.gff3 -o peach.bed

若后續(xù)作圖仍報(bào)錯(cuò),可嘗試去除fasta ID中多余的描述信息(我自己不用也可跑通)陵珍。如:

# clean headers to remove description fiedls from Phytozome FASTA files.
python -m jcvi.formats.fasta format --sep="|" Vvinifera_145_cds.fa.gz grape.cds
python -m jcvi.formats.fasta format --sep="|" Ppersica_139_cds.fa.gz peach.cds

一些細(xì)節(jié)

  • 結(jié)果文件
    last比對(duì)結(jié)果寝杖,last.filtered比對(duì)過濾串聯(lián)重復(fù)和低分比對(duì)結(jié)果,anchors: 高質(zhì)量的共線性塊撑教,lifted.anchors增加額外錨點(diǎn)的最終共線性區(qū)塊朝墩,simple簡(jiǎn)化的anchors文件。anchors文件中每個(gè)共線性區(qū)塊以###分隔, 第一和第二列分別是兩基因組的基因ID伟姐,第三列BLAST的bit score收苏,越大可靠性越高。

  • 調(diào)圖細(xì)節(jié)
    兩個(gè)配置文件seqid(展示染色體)愤兵,layout(序列位置)鹿霸。
    seqid文件中,基因組的染色體編號(hào)與其gff3文件一致(按大小順序?qū)懜讶椋莋ff文件染色體順序懦鼠,轉(zhuǎn)化bed時(shí)軟件會(huì)排序)钻哩。如:

chr1,chr2,chr3,chr4,chr5,chr6,chr7,chr8,chr9,chr10,chr11,chr12,chr13,chr14,chr15,chr16,chr17,chr18,chr19
Pp01,Pp02,Pp03,Pp04,Pp05,Pp06,Pp07,Pp08

layout文件繪制一些選項(xiàng),若要個(gè)性化肛冶,多多修改嘗試(尤其時(shí)三個(gè)物種比較時(shí))街氢。如:

# y, xstart, xend, rotation, color, label, va,  bed
 .6,     .1,    .8,       0,      red, Grape, top, grape.bed
 .4,     .1,    .8,       0,      blue, Peach, bottom, peach.bed
# edges
e, 0, 1, grape.peach.anchors.simple

若要突出顯示某一共線性區(qū)塊,可以在anchors.simple文件對(duì)應(yīng)的區(qū)塊前添加g*(g代表綠色睦袖,也可以改成其他顏色珊肃,如紅色r)。

建議和示例

建議先用示例數(shù)據(jù)跑一遍馅笙,也很快伦乔。再換自己的數(shù)據(jù),報(bào)錯(cuò)對(duì)照著尋找原因董习,總能解決烈和。

示例代碼:

# 準(zhǔn)備數(shù)據(jù)(輸入帳號(hào)密碼)
python -m jcvi.apps.fetch phytozome Vvinifera,Ppersica

#去掉chr以外的序列 
grep '^chr' Vvinifera_145_Genoscope.12X.gene.gff3 > apricot.filter.gff3  

#gff convert to bed
python -m jcvi.formats.gff bed --type=mRNA --key=Name Vvinifera_145_Genoscope.12X.gene.gff3 -o grape.bed
python -m jcvi.formats.gff bed --type=mRNA --key=Name Ppersica_298_v2.1.gene.gff3 -o peach.bed

#reformat fasta
python -m jcvi.formats.fasta format Vvinifera_145_Genoscope.12X.cds.fa.gz grape.cds
python -m jcvi.formats.fasta format Ppersica_298_v2.1.cds.fa.gz peach.cds

#identify blocks
python -m jcvi.compara.catalog ortholog grape peach --no_strip_names

#plot dotplot
python -m jcvi.graphics.dotplot grape.peach.anchors

# get synteny
python -m jcvi.compara.synteny screen --minspan=30 --simple grape.peach.anchors grape.peach.anchors.new

##prepare for seqid and layout file

#  plot synteny
python -m jcvi.graphics.karyotype seqid layout
image.png

Ref:
http://www.reibang.com/p/a748d3a5421d
https://www.cnblogs.com/zhanmaomao/p/12525411.html
https://sr-c.github.io/2019/01/11/jcvi-MCscan/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市皿淋,隨后出現(xiàn)的幾起案子招刹,更是在濱河造成了極大的恐慌,老刑警劉巖沥匈,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蔗喂,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡高帖,警方通過查閱死者的電腦和手機(jī)缰儿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)散址,“玉大人乖阵,你說(shuō)我怎么就攤上這事≡铮” “怎么了瞪浸?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)吏祸。 經(jīng)常有香客問我对蒲,道長(zhǎng),這世上最難降的妖魔是什么贡翘? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任蹈矮,我火速辦了婚禮,結(jié)果婚禮上鸣驱,老公的妹妹穿的比我還像新娘泛鸟。我一直安慰自己,他們只是感情好踊东,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布北滥。 她就那樣靜靜地躺著刚操,像睡著了一般。 火紅的嫁衣襯著肌膚如雪再芋。 梳的紋絲不亂的頭發(fā)上菊霜,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音祝闻,去河邊找鬼占卧。 笑死,一個(gè)胖子當(dāng)著我的面吹牛联喘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播辙纬,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼豁遭,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了贺拣?” 一聲冷哼從身側(cè)響起蓖谢,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎譬涡,沒想到半個(gè)月后闪幽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡涡匀,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年盯腌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片陨瘩。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡腕够,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出舌劳,到底是詐尸還是另有隱情帚湘,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布甚淡,位于F島的核電站大诸,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏贯卦。R本人自食惡果不足惜资柔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望脸侥。 院中可真熱鬧建邓,春花似錦、人聲如沸睁枕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至注簿,卻和暖如春契吉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背诡渴。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工捐晶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人妄辩。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓惑灵,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親眼耀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子英支,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容