? ? ? ? 尋找同源蛋白家族用的比較多的是Orthomcl疲恢,但是該軟件多年前已經(jīng)停止更新遇八,且使用的時(shí)候需要安裝和使用MySQL,操作起來比較繁瑣读规。因此OrthoFinder應(yīng)運(yùn)而生怕敬,并且更新到版本2。后者不但可以尋找同源家族桑驱,并且可以構(gòu)建基因家族進(jìn)化樹押框。
1.?OrthoFinder及依賴包的安裝
wget?https://github.com/davidemms/OrthoFinder/releases/download/v2.2.7/OrthoFinder-2.2.7.tar.gz
解壓
tar zxvf?OrthoFinder-2.2.7.tar.gz
安裝(加入環(huán)境變量即可)
vim ~/.bashrc
i
export PATH=$PATH:$HOME/tools/OrthoFinder-2.2.7
Esc
shift + ;
wq!
source?~/.bashrc
依賴包
(1)DIAMOND
Available here: https://github.com/bbuchfink/diamond/releases
? ? ? ? 下載對(duì)應(yīng)版本,解壓并將主程序拷貝至存在于環(huán)境變量的目錄下或?qū)⑵渌诘哪夸浖尤氕h(huán)境變量:
wget https://github.com/bbuchfink/diamond/releases/download/v0.9.24/diamond-linux64.tar.gz
tar xzf diamond-linux64.tar.gz
sudo cp diamond /usr/local/bin
沒有root權(quán)限的可以把diamond所在目錄加入環(huán)境變量肋联。
(2) MMseqs2
Available here: https://github.com/soedinglab/MMseqs2/releases
? ? ? ? 下載對(duì)應(yīng)版本鼎天,解壓并將主程序拷貝至存在于環(huán)境變量的目錄下或?qū)⑵渌诘哪夸浖尤氕h(huán)境變量:
wget https://github.com/soedinglab/MMseqs2/releases/download/7-4e23d/MMseqs2-Linux-AVX2.tar.gz
tar xzf MMseqs2-Linux-AVX2.tar.gz
sudo cp mmseqs2/bin/mmseqs /usr/local/bin
(3) MCL
Ubuntu, Debian, Linux Mint安裝方法:
sudo apt-get install mcl
Centos, Redhat安裝方法:
wget https://micans.org/mcl/src/mcl-latest.tar.gz
tar zxvf mcl-latest.tar.gz
cd mcl-14-137(視具體情況而定)
./configure
make
make check
sudo make install
(4) FastME
? ? ? ? 下載二進(jìn)制文件,解壓并將主程序拷貝至存在于環(huán)境變量的目錄下或?qū)⑵渌诘哪夸浖尤氕h(huán)境變量:
wget?http://www.atgc-montpellier.fr/download/sources/fastme/fastme-2.1.5.tar.gz
tar zxvf?fastme-2.1.5.tar.gz
sudo cp fastme-2.1.5/binaries/fastme-2.1.5-linux64 /usr/local/bin/fastme
(5) 可選: BLAST+
Ubuntu, Debian, Linux Mint安裝方法:
sudo apt-get install ncbi-blast+
Centos, Redhat安裝方法:
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.8.1+-x64-linux.tar.gz
tar zxvf ncbi-blast-2.8.1+-x64-linux.tar.gz
vim ~/.bashrc
i
export PATH=$PATH:$HOME/tools/ncbi-blast-2.8.1+/bin
Esc
shift + ;
wq!
source ~/.bashrc
2. 運(yùn)行 OrthoFinder
(1) 運(yùn)行示例數(shù)據(jù):
cd OrthoFinder-2.2.7
orthofinder -f ExampleData
運(yùn)行結(jié)果如下烧颖,會(huì)顯示輸出文件的路徑涂圆,表明運(yùn)行成功:
(2) 運(yùn)行自己的數(shù)據(jù):
step1:數(shù)據(jù)準(zhǔn)備
? ? ? ? 下載氨基酸序列,要求為fasta格式,每個(gè)物種一個(gè)文件宴树。將所有fasta文件存于一個(gè)目錄中(如Data目錄)锭吨,如下圖所示塞帐。文件名要簡(jiǎn)潔并有區(qū)分性赎瞎,因?yàn)槲募麜?huì)作為最終的物種ID牌里。
step2:運(yùn)行程序
在Data目錄的上一級(jí)目錄打開終端,運(yùn)行如下命令:
orthofinder -f Data -t 線程數(shù)
3. 結(jié)果解讀
(1) Results Files: Orthogroups
包含一個(gè)主文件“Orthogroups.csv”和兩個(gè)支持文件:
Orthogroups.csv务甥,每一行為一個(gè)group牡辽,每一列為一個(gè)物種,行列交匯處為基因名稱敞临。
Orthogroups_UnassignedGenes.csv态辛,包含所有未分配到任何group的基因名稱。
Orthogroups.txt挺尿,OrthoMCL格式的輸出結(jié)果奏黑,內(nèi)容等同于Orthogroups.csv炊邦。
(2)Results Files: Orthogroup Statistics
包含一些統(tǒng)計(jì)數(shù)據(jù),可用于比較基因組分析熟史、繪圖以及質(zhì)控馁害。
Statistics_Overall.csv和Statistics_PerSpecies.csv,提供基本的描述信息
Orthogroups_SpeciesOverlaps.csv蹂匹,兩兩物種的group共享矩陣
- Species-specific orthogroup:該group僅包含一個(gè)物種的基因碘菜。
- G50:group中的基因數(shù),使得50%的基因處于該大小或更大的group中限寞。
- O50:最小數(shù)量的group忍啸,使得50%的基因處于該大小或更大的group中。
- Single-copy orthogroup:每個(gè)物種中只有一個(gè)基因的group(相當(dāng)于單拷貝核心基因)履植。這些group是構(gòu)建物種樹和許多其他分析的理想選擇计雌。
- Unassigned gene:未與任何其他基因劃分到一個(gè)group的基因。
(3)?Results Files: Orthologues
? ? ? ? 兩兩物種間的直系同源基因玫霎,每一行為一個(gè)group凿滤,第一列為group編號(hào),第二列為第一個(gè)物種的基因鼠渺,第三列為第二個(gè)物種的基因鸭巴。同一物種的基因名以“,”分割。直向同源物可以是一對(duì)一拦盹,一對(duì)多或多對(duì)多鹃祖。
(4)?Results Files: Gene Trees and Species Tree
? ? ? ? 每個(gè)group的基因樹和定根的物種樹以newick格式輸出,可以用各種看樹軟件展示普舆,如MEGA恬口、iTOL、Dendroscope和FigTree等沼侣,個(gè)人推薦用iTOL祖能。
4. 高級(jí)用法
(1)添加新物種到之前的分析(previous_orthofinder_directory指的是包含“SpeciesIDs.txt”的目錄)
orthofinder -b previous_orthofinder_directory -f new_fasta_directory
(2)從之前的分析中移除物種
從輸出目錄下找到工作目錄“WorkingDirectory”中的“SpeciesIDs.txt”文件,在要移除的物種那一行最前面加上一個(gè)“#”并保存蛾洛,然后運(yùn)行(previous_orthofinder_directory指的是包含“SpeciesIDs.txt”的目錄):
orthofinder -b previous_orthofinder_directory
(3)同時(shí)添加和刪除物種
編輯好“SpeciesIDs.txt”后养铸,運(yùn)行:
orthofinder -b previous_orthofinder_directory -f new_fasta_directory
(4)更多高級(jí)功能請(qǐng)閱讀官方文檔,主要包括“Inferring MSA Gene Trees”轧膘、并行計(jì)算钞螟、單獨(dú)運(yùn)行BLAST、使用預(yù)先計(jì)算的BLAST結(jié)果以及回歸檢測(cè)谎碍。