尋找同源基因工具OrthoMCL與OrthoFinder的安裝與使用

比較基因組學

????????簡單介紹一下比較基因組學酱讶,Comparative genomics是基于基因組圖譜和測序技術(shù)瓷式,對已知的基因特征和基因組結(jié)構(gòu)進行比較以了解基因功能、表達機制和不同物種親緣關(guān)系的生物學研究。

????????通過對不同親緣關(guān)系物種的基因組序列比較捅僵,能夠鑒定出編碼序列钱反、非編碼序列及給定物種獨有的序列掖看。而基因組范圍內(nèi)的序列比對,可以了解不同物種核苷酸組成面哥、同/共線性關(guān)系和基因順序異同哎壳,有助于理解基因分析定位、系統(tǒng)發(fā)育關(guān)系尚卫。

????????其中归榕,比較基因組學的重要一部分正是系統(tǒng)進化關(guān)系的研究,由此對基因家族分析吱涉,基于單拷貝基因的串聯(lián)比對分析構(gòu)建系統(tǒng)進化樹是其中的一環(huán)刹泄。所以,下面簡單介紹基因家族分析的重要程序OrthoMCL和OrthoFinder怎爵。

OrthoMCL (http://orthomcl.org/orthomcl/) 尋找同源基因工具

????????OrthoMCL (http://orthomcl.org/orthomcl/) 是現(xiàn)在用的最多的一款來找直系同源基因(Orthologs)以及旁系同源基因 (Paralog) 的軟件 特石,同源基因的定位和注釋在對基因組后續(xù)分析中至關(guān)重要。它主要在比較完整的基因組之間找直系同源基因鳖链。OrthoMCL的使用主要有13步姆蘸,官方在2013年公布OrthoMCL v2.0版本就很久沒有更新過。從v1.4最初版本說明文檔可以了解OrthoMCL的使用步驟,大體有Mysql數(shù)據(jù)庫配置乞旦、修改OrthoMCL配置文件贼穆、轉(zhuǎn)換序列格式、過濾兰粉、比對故痊、解析結(jié)果和聚類等步驟,特別麻煩玖姑。并且由于MySql數(shù)據(jù)庫的安裝和配置的過程也需要管理員權(quán)限愕秫。

????????Github上的一款工具OrthoMCL Pipeline (https://github.com/apetkau/orthomcl-pipeline) 能夠很好的解決這些繁瑣的步驟和分析過程中的繁瑣參數(shù)設(shè)置。這個工具的安裝過程雖然復雜焰络,但是在最后的使用是舒爽的很戴甩。

OrthoMCL-pipline工具

OrthoMCL-pipline的安裝、配置及其使用

????OrthoMCL-pipline的安裝不僅需要工具OrthoMCL所依賴的MySql數(shù)據(jù)庫外還需要工具所必須的perl模塊環(huán)境闪彼,在對MySql數(shù)據(jù)庫的搭建成功后甜孤,才可以對接下來的pipline工具進行配置。

? ??主要安裝步驟如下:

????????1.在VMware上安裝Ubuntu系統(tǒng)

? ? ? ? 由于MySql數(shù)據(jù)庫的搭建和配置需要管理員權(quán)限畏腕,并且處于對實驗室服務(wù)器的保護缴川,我自己在電腦上安裝了虛擬機進行操作。對于VMware的安裝描馅、Ubuntu的安裝把夸,此處略過。

? ? ? ? 2. Mysql數(shù)據(jù)庫的安裝及其配置

? ? ? ? 由于對于老版本的OrthoMCL的執(zhí)拗铭污,之前一直嘗試利用源碼在Ubuntu上安裝MySql數(shù)據(jù)庫恋日,以便能夠修改MySql配置滿足OrthoMCl應用。最后通過MySql的官方網(wǎng)站和看了些資料認識到可以直接下載MySql-Server解決問題嘹狞,不用從源碼安裝MySql這么費時費力岂膳,最新版MySql8.0版本的安裝可以按照官方指導安裝:https://websiteforstudents.com/install-mysql-8-0-on-ubuntu-16-04-17-10-18-04/。但是我們要按照其中這個連接中的方法安裝5.7版本磅网,而不是最新版MySQL闷营,因為最新版本會在orthomcl第十部報錯。

? ? ????按照鏈接中的教程安裝MySQL知市,在如下這一步確定之后,記得選擇5.7的版本速蕊,最新版本與老版本orthomcl會在第十步?jīng)_突嫂丙。


選擇第一項,然后選擇5.7

3. 安裝OrthoMCL-pipline的依賴perl模塊和配置

? ? ? ? 安裝好mysql5.7后规哲,就是一些模塊的安裝跟啤。

????????git獲得pipline工具

? $ git clone https://github.com/apetkau/orthomcl-pipeline.git

? ? ? ? ?需要的perl依賴模塊:? BioPerl、DBD::mysql、DBI隅肥、Parallel::ForkManager竿奏、Schedule::DRMAAc、YAML::Tiny腥放、Set::Scalar泛啸、Text::Table、Moose秃症、SVG候址、Algorithm::Combinatorics。這些包可以通過cpanm(建議)下載安裝

?$ sudo apt-get perlbrew install-cpanm? ? ?##獲得cpanm軟件(Ubuntu系統(tǒng)中沒有的時候需要安裝)

? ? ? ? 然后通過cpanm獲得如上的依賴包

$ cpanm BioPerl DBD::mysql DBI Parallel::ForkManager YAML::Tiny Set::Scalar Text::Table Exception::Class Test::Most Test::Warn Test::Exception Test::Deep Moose SVG Algorithm::Combinatorics

? ? ? ? ?在安裝這些perl模塊時种柑,可能會遇到報錯說模塊找不到的問題岗仑,這時候可以通過命令單獨安裝報錯的模塊,比如報錯中提到需要安裝Algorithm::Combinatorics模塊

$ cpanm?Algorithm::Combinatorics??

? ? ? ? ?但有時運行如上命令還會報錯聚请,這是需要加上 --force 參數(shù)嘗試重新安裝荠雕,或者可以直接在開始就加上 --force 參數(shù)。運行結(jié)果如下驶赏,說明安裝正確炸卑。

cpanm安裝單獨模塊

? ? ? ? 在安裝perl模塊時,我遇到一個xlocale.h的報錯問題母市,google之后解決了問題矾兜。

$ sed -i 's/xlocale/locale' /path/to/perl.h

? ? ? ? 還有可能遇到的幾個常見模塊安裝問題:

第一個bioperl:解決辦法 sudo apt-get install bioperl 或者 conda install perl-bioperl

第二個DBD:mysql 解決辦法 sudo apt-get install libdbd-mysql-perl 或者 conda install perl-dbd-mysql

其余模塊基本都可以用cpanm或者cpan安裝成功,如果不可以就下載源碼包make install安裝患久,或者sudo apt-get install或者conda安裝椅寺,最終都會解決perl模塊問題。

4. 安裝BLAST2(v2.2.26)蒋失、MCL及OrthMC軟件

? ? ? ?????下載編譯安裝MCL (http://www.micans.org/mcl/src/mcl-latest.tar.gz)

? ? ? ? ? ?下載編譯安裝OrthoMCL (http://orthomcl.org/common/downloads/software/v2.0/orthomclSoftware-v2.0.9.tar.gz)

? ? ? ? ? ?下載BLAST2 v2.2.26(包含blastall和formatdb)

BLAST一定要安裝v2.2.26版本返帕,我上傳到云,可以直接下載(失效的話請告知謝謝~)

鏈接: https://pan.baidu.com/s/1T7tBDFifOS7-sKKqVUC7aA 提取碼: v7ug

? ? ? ? ? ? 下載好依賴的三個軟件篙挽,將三個軟件加入環(huán)境變量并保存荆萤。

$ vim? ?~/.bashrc

在打開文件的最后一行加入路徑。

export PATH=$PATH:/path/to/blast-2.2.26/bin

export PATH=$PATH:?/usr/local/bin/mcl

export PATH=$PATH:/path/to/orthomcl/bin

修改好后保存退出铣卡,并激活環(huán)境链韭。

$ source ~/.bashrc

? ? ? ? ? ? ? ? 安裝好perl依賴模塊和依賴的blast、orthomcl工具后煮落,可以檢查依賴內(nèi)容是否齊全,運行出現(xiàn)以下內(nèi)容說明依賴內(nèi)容正確敞峭。

$ cd /path/to/orthomcl-pipline

$ perl scripts/orthomcl-pipeline-setup.pl

Checking for Software dependencies...

Checking for OthoMCL ... OK

Checking for formatdb ... OK

Checking for blastall ... OK

Checking for mcl ... OK

Wrote new configuration to orthomcl-pipeline/scripts/../etc/orthomcl-pipeline.conf

Wrote executable file to orthomcl-pipeline/scripts/../bin/orthomcl-pipeline

Please add directory orthomcl-pipeline/scripts/../bin to PATH?

? ? ? ? ? ? ? ? 5.依賴MySql數(shù)據(jù)庫配置orthomcl數(shù)據(jù)庫

? ? ? ? ? ? ? ? 配置orthomcl數(shù)據(jù)庫(MySql8.0與老版不同,建立新的用戶需要CREAT USER而不再單單是GRANT)

$?mysql -u root -p

Enter password:?

mysql> CREAT USER 'orthomcl'@'localhost' identified by 'your_password';? #設(shè)置用戶密碼

mysql> GRANT ALL PRIVILEGES on *.* to 'orthomcl'@'localhost' WITH GRANT OPTION;? #創(chuàng)建用戶并授權(quán)

mysql> quit;

? ? ? ? ? ? ? ? 建好orthomcl數(shù)據(jù)庫后用perl腳本配置蝉仇,當出現(xiàn)一下運行結(jié)果說明配置成功旋讹。

$ cd /path/to/orthomcl-pipline

$ perl?scripts/orthomcl-setup-database.pl --user orthomcl --password your_password --host localhost --database orthomcl --outfile orthomcl.conf

Connecting to mysql and creating database **orthmcldb** on host orthodb with user orthomcl ...OK

database orthmcl created ...OK

Config file **orthomcl.conf** created.

? ? ? ? ? ? ? ? 運行后腳本會生成orthomcl.conf配置文件殖蚕。

coOrthologTable=CoOrtholog

dbConnectString=dbi:mysql:orthomcl:localhost:mysql_local_infile=1

dbLogin=orthomcl

dbPassword=your_password

dbVendor=mysql

evalueExponentCutoff=-5

inParalogTable=InParalog

interTaxonMatchView=InterTaxonMatch

oracleIndexTblSpc=NONE

orthologTable=Ortholog

percentMatchCutoff=50

similarSequencesTable=SimilarSequences

? ? ? ? ? ? ? ? 6. 經(jīng)過以上依賴模塊、軟件和數(shù)據(jù)庫的配置后沉迹,就可以測試piipline是否可以正常工作了睦疫,運行perl腳本后出現(xiàn)如下內(nèi)容說明正常。

?$ cd /path/to/orthomcl-pipline

$ perl t/test_pipeline.pl -m orthomcl.conf -s fork -t /tmp

Test using scheduler fork

TESTING NON-COMPLIANT INPUT

TESTING FULL PIPELINE RUN 3

README:

Tests case of one gene (in 1.fasta and 2.fasta) not present in other files.

ok 1 - Expected matched returned groups file

...

? ? ? ? ? ? ? ? 7.終于經(jīng)過及其繁瑣的安裝鞭呕、配置和調(diào)試蛤育,我們終于可以運用orthomcl-pipline直接加入輸入文件就可以得到同源基因信息了。

運行orthomcl-pipline查看相關(guān)使用參數(shù)琅拌。

$ cd /path/to/orthomcl-pipline

$ ./bin/orthomcl-pipeline


orthomcl-pipline相關(guān)參數(shù)

? ? ? ? ? ? ? ? 8.示例運行

$ ./bin/orthomcl-pipeline -i /path/to/input.fasta -o /path/to/outdir -m /path/to/orthomcl.conf --nocompliant

????????其中缨伊,需要注意的地方是輸入文件必須是fasta格式的蛋白序列文件,所有軟件分析得到的結(jié)果进宝,包括聚類完成的groups文件刻坊,orthologs文件,inparalogs文件以及coorthologs文件都會輸出到輸出目錄下党晋,參數(shù) --nocompliant 表示不顯示提示信息谭胚。

? ? ? ? 在運行中可能遇到連接MySQL數(shù)據(jù)庫和similarsuquences文件過大的問題,解決辦法:

1 文件過大:修改/etc/mysql/mysql.conf.d/mysql.conf 下的[mysqld] 內(nèi)的innodb_buffer_pool_size參數(shù)改大未玻,比如改成8g灾而。

2 連接超時:登陸mysql -> SET @@GLOBAL.wait_timeout = 315360; (注意修改完不要重啟mysql,否則會恢復原始值扳剿!) -> SHOW GLOBAL VARIABLES LIKE "wait_timeout";(查看是否修改成功)

至此旁趟,利用orthomcl尋找同源基因的便捷軟件orthomcl-pipline安裝完成,orthomcl-pipline工具能在滿足使用最新版orthomcl工具分析的基礎(chǔ)上庇绽,既能省去了官方orthomcl的使用就需要13個過程的復雜步驟锡搜,通過帶入輸入文件就可以直接得到想要的信息,而且極大程度上節(jié)省了時間瞧掺,雖然安裝繁瑣耕餐,但是使用起來很方便簡單。


OrthoFinder的安裝與使用

? ? ? ? 在前面介紹過比較舊版本的但引用hin高的orthmcl之后辟狈,我們來介紹一款引用雖然沒有orthomcl那么高肠缔,但是依然熱門的程序orthofinder。OrthoFinder(文章鏈接)同樣是尋找同源基因的利器哼转,優(yōu)勢在于版本較新明未,應用方便,相關(guān)介紹可在github查看

? ? ? ? 安裝壹蔓,直接conda安裝即可

$conda install -y orthofinder

? ? ? ? orthofinder的參數(shù)寫的很詳細亚隅,自己查看選擇即可。其中有個說明就是在比對和建樹是的e值和bootstrap的設(shè)置庶溶,可以在anaconda/bin/config.json下修改相應程序的參數(shù)煮纵,添加e值和bootstrap的值。

? ? ? ? 示例使用:

$orthofinder -f /path/to/input -t 24

$orthofinder -f /path/to/input -M msa -T iqtree -t 24?

? ? ? ? orthofinder會自動生成orthomcl格式的結(jié)果文件偏螺,除此之外還會生成單拷貝基因文件及其樹文件行疏。過程的程序選擇相比orthomcl更多樣,結(jié)果更直接套像。

? ? ? ? orthofinder的介紹很少酿联,但是安裝和使用很方便、很直觀夺巩。(強推U耆谩)

參考內(nèi)容:

比較基因組wiki

快速尋找同源基因---自動化運行OrthoMCL - 簡書

OrthoMCL 安裝配置與使用-Bluesky's blog柳譬;

MySql的官方安裝方法:https://websiteforstudents.com/install-mysql-8-0-on-ubuntu-16-04-17-10-18-04/喳张;

VMware Ubuntu安裝詳細過程(非常靠譜) - stpeace的專欄 - CSDN博客美澳;

Bioperl的安裝(一) - 高錦的博客 - CSDN博客销部;

orthomcl-pipeline/INSTALL.md at master · apetkau/orthomcl-pipeline · GitHub.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市制跟,隨后出現(xiàn)的幾起案子舅桩,更是在濱河造成了極大的恐慌,老刑警劉巖雨膨,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件擂涛,死亡現(xiàn)場離奇詭異,居然都是意外死亡聊记,警方通過查閱死者的電腦和手機撒妈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來甥雕,“玉大人踩身,你說我怎么就攤上這事∩缏叮” “怎么了挟阻?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長峭弟。 經(jīng)常有香客問我附鸽,道長,這世上最難降的妖魔是什么瞒瘸? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任坷备,我火速辦了婚禮,結(jié)果婚禮上情臭,老公的妹妹穿的比我還像新娘省撑。我一直安慰自己赌蔑,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布竟秫。 她就那樣靜靜地躺著娃惯,像睡著了一般。 火紅的嫁衣襯著肌膚如雪肥败。 梳的紋絲不亂的頭發(fā)上趾浅,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音馒稍,去河邊找鬼皿哨。 笑死,一個胖子當著我的面吹牛纽谒,可吹牛的內(nèi)容都是我干的证膨。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼佛舱,長吁一口氣:“原來是場噩夢啊……” “哼椎例!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起请祖,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤订歪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后肆捕,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刷晋,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年慎陵,在試婚紗的時候發(fā)現(xiàn)自己被綠了眼虱。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡席纽,死狀恐怖捏悬,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情润梯,我是刑警寧澤过牙,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站纺铭,受9級特大地震影響寇钉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜舶赔,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一扫倡、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧竟纳,春花似錦撵溃、人聲如沸疚鲤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽石咬。三九已至,卻和暖如春卖哎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背删性。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工亏娜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蹬挺。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓维贺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親巴帮。 傳聞我的和親對象是個殘疾皇子溯泣,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容