寫在前面
基因組測(cè)序項(xiàng)目已然是幾乎所有課題組都可以負(fù)擔(dān)的水平。相比于幾年前火爆的通過轉(zhuǎn)錄組測(cè)序挖掘生物學(xué)問題策略谷徙,通過基因組拒啰,尤其是比較基因組分析,往往可以給我們帶來更多確定性結(jié)果完慧,如相比于近源物種A為何物種B的果皮更紅谋旦?這完全有可能是特定家族成員擴(kuò)張導(dǎo)致。這些問題屈尼,轉(zhuǎn)錄組常常無法告訴我們册着,而基因組可以。接下來推出兩份教程脾歧,來自課題組成員的投稿甲捏。我個(gè)人感覺還不錯(cuò)。與大伙一起學(xué)習(xí)鞭执。
同源基因分析介紹
開展生物信息數(shù)據(jù)分析的關(guān)鍵司顿,并不在于軟件使用,而在于了解自己在做什么兄纺。我們先厘清一些概念大溜。
Q:什么是同源基因?
A:同源基因(homologs)主要分為直系同源(orthologs)和旁系同源(paralogs)估脆。在遠(yuǎn)古時(shí)候钦奋,祖先物種只帶有一個(gè)珠蛋白基因(early globin genes),經(jīng)過N年的環(huán)境選擇疙赠,現(xiàn)存的物種都具有兩個(gè)珠蛋白基因付材,分別為α-鏈和β-鏈的類型。青蛙-人類-鼠的α-鏈球蛋白基因圃阳,三個(gè)并稱為直系同源基因,而蛙的α鏈和β鏈球蛋白基因則稱作旁系同源基因裸弦。
Q: 同源基因分析可以做什么?
A: 較短時(shí)間下豌熄,獲得同源基因集合(Orthogroups)和 有根物種樹(基于Orthogroups內(nèi)基因推斷的)的信息巷折。具有這些信息,后續(xù)可以物種分歧時(shí)間預(yù)測(cè)、基因家族收縮擴(kuò)張和WGD事件預(yù)測(cè)等血巍。
分析的軟件與策略
直系同源基因分析常見兩個(gè)軟件:Orthofinder和OrthoMCL,本系列教程使用Orthofinder-(嘿螟炫,主要是這個(gè)軟件安裝和運(yùn)行的十分簡單)波附。
Orthofinder工作原理:
從Orthofinder發(fā)表的工作流程(上圖),我們可以理解為進(jìn)行了五個(gè)主要步驟:
- (a)推斷同源基因集合(Orthogroup)昼钻,主要是通過序列比對(duì)和調(diào)用MCL聚類實(shí)現(xiàn)同源分類掸屡;
- (b)基于每個(gè)同源基因集合進(jìn)行構(gòu)建基因的進(jìn)化樹;
- (c/d)基于所有的同源基因的進(jìn)化樹的情況然评,推斷物種的有根樹仅财。基于STAG(Species Tree Inference from All Genes)算法從無根基因樹上構(gòu)建無根物種樹沾瓦,再使用STRIDE(Species Tree Root Inference from Gene Duplication Events)算法構(gòu)建有根物種樹满着;
- (e)通過有根物種樹的情況,重新對(duì)基因的樹定根贯莺;
- (f-h)對(duì)有根物種樹基因的復(fù)制-丟失-整合分析(duplication-loss-coalescence, DLC)风喇,識(shí)別同源基因集合或者基因復(fù)制事件。
軟件安裝
軟件安裝是相對(duì)比較簡單缕探。
- 超級(jí)方便("無腦")conda 安裝
conda install -c bioconda -y orthofinder
- 自行編譯安裝
環(huán)境已經(jīng)安裝了python魂莫,并具有numpy和scipy庫,下載OrthoFinder_source.tar.gz
爹耗;
如果沒有耙考,則下載 OrthoFinder.tar.gz
#安裝了git
git clone https://github.com/davidemms/OrthoFinder.git
##直接wget下載安裝包
wget https://github.com/davidemms/OrthoFinder/releases/download/2.5.2/OrthoFinder_source.tar.gz
tar -xzf OrthoFinder_source.tar.gz
cd OrthoFinder_source/
#進(jìn)入目錄,運(yùn)行orthofinder.py潭兽,嘗試能否彈出幫助信息倦始。
python orthofinder.py
orthofinder 也可以在windows下進(jìn)行安裝和運(yùn)行,不過需要借助Docker(一般不推薦....)山卦。
安裝完成后鞋邑,建議添加到環(huán)境變量。比如導(dǎo)進(jìn)路徑
export PATH=$PATH:目錄到OrthoFinder_source
#若是常用軟件账蓉,可以寫進(jìn).bashrc
寫在最后
篇幅有限枚碗,今天先介紹到這里。在下一篇铸本,我們將分享如何運(yùn)行這個(gè)軟件肮雨,并進(jìn)行結(jié)果解讀。
Emms DM, Kelly S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biol. 2019 Nov 14;20(1):238.
https://github.com/davidemms/OrthoFinder