? ??Homolog是同源基因。
? ??Orthologs,Orthologues 直系同源搀捷,是指不同物種之間的基因星掰,起源于共同的祖先,基因功能可能一樣,但又因為進化的關(guān)系氢烘,使得功能有丟失或者增加便斥。如圖 B 所示,在 Human 和 Mouse 間 HuA 與 MoA 是直系同源基因威始,在 Human 和 Chicken 間 HuA 與 ChA1枢纠、ChA2 是直系同源基因。如果有物種 Cattle 且包含 CaA1 和 CaA2 基因黎棠,則在 Cattle 和 Chicken 間 CaA1晋渺、CaA2 與 ChA1、ChA2 是直系同源基因脓斩。直系同源基因存在一對一木西、一對多、多對多三種情況随静。其中一對多八千、多對多也稱為 共直系同源基因(co-orthologs)。每兩對物種間的直系同源基因匯總信息存放在 OrthoFinder 輸出文件夾中的 Orthologues 文件夾中燎猛。
????直系同源組(Orthogroup恋捆,正交群):各物種間 由最近共同祖先(LCA)中某基因 進化 而得到的一組基因。如圖 A 中 HuA重绷、MoA沸停、ChA1、ChA2 都是由同一個基因進化得到昭卓,構(gòu)成直系同源組愤钾。正交群中的所有基因都來自單個祖先基因。因此候醒,正交群中的所有基因都有類似的序列和功能能颁。由于基因重復(fù)和丟失在進化中經(jīng)常發(fā)生,一對一的直系同源物很少見倒淫,通過分析orhtogroup所有直系同源的情況(一對一伙菊,多對一,多對多)昌简,我們可以分析數(shù)據(jù)的所有情況占业。
????Paralogs, Paralogues 旁系同源,是指由于gene duplication產(chǎn)生的纯赎,是同一個物種內(nèi)基因組復(fù)制的產(chǎn)物谦疾,可能進化為不同的功能,也可能成為pseudogene犬金。如圖 C 中 Chicken 內(nèi) ChA1 與 ChA2 是一對旁系同源基因念恍。
OrthoFinder 功能
1.查找直系同源群(orthogroups)和直系同源物(orthologs)
2.推斷所有直系同源群的有根基因樹(rooted gene trees)
3.識別這些基因樹中的所有基因復(fù)制事件(gene duplication events)
4.推斷有根物種樹(rooted species tree)六剥,并將基因復(fù)制事件從基因樹映射到物種樹上
5.為不同物種基因組間的比較分析提供全面的統(tǒng)計信息
通過修改 config.json 文件,OrthoFinder 支持用戶自定義調(diào)用軟件
????-M <opt>:使用 MSA 或 DendroBLAST 基因樹推斷峰伙,opt=msa,dendroblast [默認=dendroblast]
????使用默認選項疗疟,物種樹推斷是為DendroBLAST發(fā)育樹。它使用從支持每個二分的單基因座基因樹派生的物種樹的比例作為其支持的度量瞳氓。也就是根據(jù)序列相似度推斷進化關(guān)系策彤。這是作者推薦的方法,在損失部分準(zhǔn)確性的前提下提高了運算效率匣摘。
????如果改為使用 -M msa 選項店诗,則將使用串聯(lián)的多序列比對代替物種樹推斷,按照極大似然法構(gòu)建系統(tǒng)發(fā)育樹音榜,并且所有二分法的支持度值為 100%(并不都是100%庞瘸,都挺大的倒是)。這樣結(jié)果會更加準(zhǔn)確赠叼,但是代價就是運行時間會更久擦囊。在這種情況下,支持值對應(yīng)于從完整的多基因比對中獲取的引導(dǎo)復(fù)制嘴办,這是完全不同的事情瞬场。這是最常用的支持度量,對于相同的數(shù)據(jù)總是會報告更高的支持值户辞。
????如果先用了默認的DendroBLAST泌类,想測試下傳統(tǒng)的MSA方法癞谒,那么也不需要重頭運行底燎,因為有一個-b參數(shù)可以在復(fù)用之前的比對結(jié)果(xuzhougeng)
????在物種發(fā)育樹的推斷上,OrthoFinder使用STAG算法弹砚,利用所有基因進行構(gòu)建系統(tǒng)發(fā)育樹双仍,而非單拷貝基因。當(dāng)使用MSA方法進行系統(tǒng)發(fā)育樹推斷時桌吃,OrthoFinder為了保證有足夠多的基因(大于100)用于分析朱沃,除了使用單拷貝基因外,還會挑選大部分是單拷貝基因的直系同源組茅诱。這些直系同源組的基因前后相連逗物,用空缺字符表示缺失的基因,如果某一列存在多余50%的空缺字符瑟俭,那么該列被剔除翎卓。最后基于用戶指定的建樹軟件進行系統(tǒng)發(fā)育樹構(gòu)建。結(jié)果在"WorkingDirectory/SpeciesTree_unrooted.txt" 摆寄。使用STRIDE算法從無根樹中推斷出有根樹, 結(jié)果就是"SpeciesTree_rooted.txt"失暴。
????STAG是一種從所有基因推測物種樹的算法坯门,不同于使用單拷貝的直系同源基因進行進化樹構(gòu)建。
????OrthoFinder默認用mafft進行多序列聯(lián)配逗扒,用fasttree進行進化樹推斷古戴。多序列聯(lián)配軟件還支持muscle, 進化樹推斷軟件還支持iqtree, raxml-ng, raxml。例如參數(shù)可以設(shè)置為-M msa -A mafft -T raxml.并行化參數(shù): -t參數(shù)指定序列搜索時的線程數(shù)矩肩,-a指的是序列搜索后分析的CPU數(shù)现恼。
OrthoFinder 分析過程:
分為如下幾步:
1.BLAST all-vs-all搜索。使用BLASTP以evalue=10e-3進行搜索黍檩,尋找潛在的同源基因述暂。(除了BLAST, 還可以選擇DIAMOND和MMSeq2)
2.基于基因長度和系統(tǒng)發(fā)育距離對BLAST bit得分進行標(biāo)準(zhǔn)化。
3.使用RBNHs確定同源組序列性相似度的閾值
4.構(gòu)建直系同源組圖(orthogroup graph)建炫,用作MCL的輸入
5.使用MCL(Markov Cluster Algorithm)對基因進行聚類畦韭,劃分直系同源組
????其中每個 orthogroup 的蛋白及序列信息存放在 Orthogroup_Sequences 文件夾中,單拷貝 orthogroup 的蛋白及序列信息存放在 Single_Copy_Orthologue_Sequences 文件夾中肛跌,orthogroup 的統(tǒng)計信息存放在 Comparative_Genomics_Statistics艺配、Orthogroups 文件夾中。如 OrthoFinder 自帶案例(ExampleData)中總共包含 2733 個基因衍慎,MCL 將 2202 個基因劃分為 604 個 orthogroups(gene_num > 2)转唉,剩余 531 個基因為離散點(每個基因獨立成組)。
????使用 FastMe 軟件 對每個 orthogroup(gene_num >= species_num)構(gòu)建 無根基因樹(gene tree)稳捆。如自帶案例中總共生成 324 個基因樹文件赠法。
????使用 STAG(Species Tree Inference from All Genes)軟件 根據(jù) orthogroups(包含所有物種,如自帶案例推斷出的 604 個 orthogroups 中只有 316 個 orthogroups 中的同源基因在所有物種中均有分布)推斷 無根物種樹(species tree)乔夯。
????通過參數(shù) -M dendroblast 或 -M msa砖织,OrthoFinder 可以調(diào)用 STAG 中兩種構(gòu)建物種樹的方法:DendroBLAST(默認) 和 CMSA(Concatenated Multiple Sequence Alignment,聯(lián)合多序列比對)末荐。
????使用 STRIDE(Species Tree Root Inference from Gene Duplication Events) 通過基因復(fù)制事件的不可逆性為無根物種樹侧纯、無根基因樹賦根,得到有根物種樹甲脏、有根基因樹眶熬、基因間的直系同源關(guān)系、基因復(fù)制事件块请。結(jié)果存放在文件夾 Species_Tree娜氏、Gene_Tree、Orthologues墩新、Gene_Duplication_Events贸弥、Comparative_Genomics_Statistics 中。
具體的分析和參數(shù)解釋還可見中文 生信技術(shù)公眾號 https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw?
運行結(jié)果存放在文件夾:....../OrthoFinder/Results_日期
????標(biāo)準(zhǔn)OrthoFinder運行會生成一組文件抖棘,這些文件描述了直系同源群茂腥,直系同源狸涌,基因樹,解析基因樹最岗,有根物種樹帕胆,基因復(fù)制事件以及所分析物種集的比較基因組統(tǒng)計數(shù)據(jù)。
(1)直系同源群(Orthogroups)目錄
????Orthogroups.tsv:一個制表符分隔的文本文件般渡,每行包含屬于單個直系同源群的基因懒豹。來自每個直系同源群(Orthogroup,OGXXXX)基因被組織成列驯用,每個物種一列脸秽。
????Orthogroups_UnassignedGenes.tsv:一個制表符分隔的文本文件,其格式與Orthogroups.csv相同蝴乔,但包含未分配給任何直系同源群的所有基因记餐。
????Orthogroups.txt(傳統(tǒng)格式):包含Orthogroups.tsv文件中描述的直系同源群,但使用OrthoMCL輸出格式薇正。(方便需求)
????Orthogroups.GeneCount.tsv:一個制表符分隔的文本文件片酝,其格式與Orthogroups.csv相同,記錄了每個 Orthogroup 中基因在物種間的分布情況挖腰,可以用于分析同源基因在物種間的收縮和擴張雕沿。
????Orthogroups_SingleCopyOrthologues.txt:單拷貝直系同源組。每個物種正好包含一個基因的直系同源群列表猴仑,即它們包含一對一的直系同源物审轮。它們非常適合進行種間比較和種樹推斷。(實際使用時候可以根據(jù)需求挑選)辽俗。建樹選擇物種太多時疾渣,可能文件為空。
(2)直系同源物(Orthologues)目錄
????以物種為單位榆苞,記錄了每個物種與其他物種間的直系同源基因稳衬。
????直系同源物目錄為每個物種包含一個子目錄,該子目錄又包含本物種與其他所有物種的成對比較文件坐漏,列出該物種對之間的直系同源物(Orthogroup)。直系同源物可以是一對一碧信,一對多或多對多赊琳,這取決于直系同源物分化后的基因復(fù)制事件。文件中的每一行都包含一個物種中的基因砰碴,而該基因是另一物種中該基因的直系同源物躏筏,并且每一行都被交叉引用到包含這些基因的直系群中。
????簡單點說直系同源物(Orthologues)目錄能夠找到倆倆物種間的所有直系同源基因呈枉。
(3)基因樹(Gene Trees)目錄
?????每個 直系同源群orthogroup(gene_num >= 4)的有根基因樹結(jié)構(gòu)趁尼。默認基因樹沒有支持值埃碱,OrthoFinder 為了節(jié)省計算時間沒算了,有方法獲取支持值(沒去學(xué))酥泞。
(4)解析的基因樹( Resolved Gene Trees)目錄
????為每個直系同源群推斷出有根的系統(tǒng)發(fā)育樹砚殿,使用 OrthoFinder復(fù)制損失合并模型 進行解析。(根據(jù)需求用)
詳細說明可見?https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw
(5)物種樹(Species Tree)目錄
????SpeciesTree_rooted.txt:從所有包含STAG支持的直系同源組推斷的STAG物種樹芝囤,此文件有bootstrap值似炎。
????SpeciesTree_rooted_node_labels.csv:與上述相同的樹,但是節(jié)點被賦予標(biāo)簽(而不是支持值)悯姊,用于解釋基因重復(fù)數(shù)據(jù)羡藐。
????Orthogroups_for_concatenated_alignment.txt:僅在 -M msa 模式下輸出,列出了所有串聯(lián)起來用于推斷物種樹的 orthogroup ID
?(6)比較基因組統(tǒng)計(Comparative_Genomics_Statistics)目錄
????Duplications_per_Orthogroup.tsv:記錄了每個 orthogroup 中推斷出的基因重復(fù)事件數(shù)量悯许。
????Duplications_per_Species_Tree_Node.tsv:記錄了物種樹中每個節(jié)點仆嗦、物種中發(fā)生基因重復(fù)事件的數(shù)量。
????Orthogroups_SpeciesOverlaps.tsv:每個物種對之間共享的 orthogroup 直系同源群(以方矩陣形式)先壕。不同物種間的同源基因的交集
????OrthologuesStats _ *.tsv:是制表符分隔的文本文件欧啤,其中包含矩陣,這些矩陣給出了每對物種之間一對一启上,一對多和多對多關(guān)系的直系同源物數(shù)量邢隧。
????Statistics_Overall.tsv:記錄了有關(guān) orthogroup 的常規(guī)統(tǒng)計信息。
????Statistics_PerSpecies.tsv:以物種為單位冈在,記錄了有關(guān) orthogroup 的常規(guī)統(tǒng)計信息倒慧。
????OrthologuesStats _ *:記錄了每對物種之間一對一、一對多和多對多關(guān)系的直向同源物數(shù)量包券。
????在Statistics_Overall.csv 和Statistics_PerSpecies.csv中的一些名詞:
Species-specific orthogroup:完全由一個物種的基因組成的直系同源群纫谅。
G50和O50,指的是當(dāng)你直系同源組按照基因數(shù)從大到小進行排列溅固,然后累加付秕,當(dāng)加入某個組后,累計基因數(shù)大于50%的總基因數(shù)侍郭,那么所需要的直系同源組的數(shù)目就是O50询吴,該組的基因數(shù)目就是G50。
Single-copy orthogroup: 單拷貝直系同源群亮元,每個物種中僅有一個基因的直系同源群猛计。這些直系同源群是推斷物種樹和許多其他分析的理想選擇。
Unassigned gene: 未分配的基因爆捞,無法與任何其他基因放入直系同源群的基因奉瘤,無法和其他基因進行聚類的基因。
(7)基因復(fù)制事件(Gene Duplication Events)目錄
????擁有基因樹意味著 OrthoFinder 可以識別發(fā)生的所有基因復(fù)制事件煮甥。OrthoFinder 在文件Species_Tree/ SpeciesTree_rooted_node_labels.txt?中標(biāo)記物種樹的節(jié)點盗温。
????基因復(fù)制(Gene Duplication):基因在物種進化過程中發(fā)生了復(fù)制藕赞。一般根據(jù)每個 orthogroup 的基因樹結(jié)構(gòu),通過每次分枝后左卖局、右枝間是否包含旁系同源基因來確定 基因復(fù)制 事件斧蜕。
? ? 注意!OrthoFinder 只統(tǒng)計記錄支持值(Support) >= 50% 的的復(fù)制事件吼驶。支持值是指復(fù)制后兩個基因副本未被丟失的比例孕索,Support >= 50% 表示復(fù)制后至少有一半基因在演化中保留了下來捂敌。
????下圖為自帶案例中直系同源組 OG0000006 的有根基因樹結(jié)構(gòu)申鱼。首先分析 N16(node 16)英妓,其左右枝 N10、N11 是旁系同源(agal)酒请,說明 N16 發(fā)生了一次基因復(fù)制骡技。不斷遞歸可以發(fā)現(xiàn),N19 后發(fā)生了 4 次基因復(fù)制羞反。同理分析 N15布朦,其中 N2、N4昼窗、N6 為旁系同源(geni)是趴,說明 N15 后發(fā)生了 2 次基因復(fù)制。結(jié)合 N15澄惊、N19唆途,說明 N20 后發(fā)生了 6 次基因復(fù)制。由于 agal掸驱、geni 中基因與 N1 均不是旁系同源肛搬,所以 OG0000006 中總共發(fā)生了 6 次基因復(fù)制事件。
????Duplications.tsv:記錄了程序推測出的所有基因復(fù)制事件的信息毕贼。其中 Species Tree Node 表示基因復(fù)制事件發(fā)生時所對應(yīng)的物種樹節(jié)點(即復(fù)制是在該物種內(nèi)發(fā)生的)温赔;Gene tree node 表示基因復(fù)制事件發(fā)生時所對應(yīng)的基因樹節(jié)點與基因復(fù)制事件對應(yīng)的節(jié)點;Support 表示復(fù)制后兩個基因副本未被丟失的比例鬼癣;Type 中 Terminal 表示重復(fù)發(fā)生在物種樹的末端分支上陶贼,Non-Terminal 表示重復(fù)發(fā)生在物種樹的內(nèi)部分支上,被多個物種共享扣溺;Genes 1骇窍、Genes 2 為基因列表,其中 Genes 1 表示來自復(fù)制后基因的一個副本锥余;Genes 2 表示來自復(fù)制后基因的另一個副本。
????SpeciesTree_Gene_Duplications_0.5_Support.txt :記錄了物種樹每個節(jié)點痢掠、分枝上包含的基因復(fù)制事件的總和驱犹,格式為節(jié)點或物種名 + 數(shù)字(基因復(fù)制事件數(shù)量)嘲恍。
????以上給出了基因復(fù)制事件的Summary。其中每個節(jié)點顯示節(jié)點名稱雄驹,后跟一個下劃線佃牛,然后是映射到物種樹中每個節(jié)點充分支持的基因復(fù)制事件的數(shù)量。如果至少 50% 的后代物種保留了復(fù)制基因的兩個拷貝医舆,則基因復(fù)制事件被認為是“得到充分支持的”俘侠。例:對于四足動物的共同祖先?N1,有?2458?個得到充分支持的基因復(fù)制事件蔬将。
?(8)直系同源群(Orthogroups sequences)序列
????????每個直系同源群的FASTA文件給出了每個直系同源群中每個基因的氨基酸序列爷速。
?(9)單拷貝的直系同源群序列(Single copy orthologue sequences)
????????與直系同源群序列目錄相同的文件,但僅限于每個物種僅包含一個基因的直系同源群霞怀。
(10)MultipleSequenceAlignments 文件夾
????此文件夾僅在 -M msa 模式下輸出惫东,均為 FASTA 格式文件。
? ? 1.記錄了每個 orthogroup 中序列間的多序列比對結(jié)果毙石。
? ? 2.記錄了程序通過 CMSA 算法過濾后的 orthogroup 中各序列串聯(lián)后的多序列比對結(jié)果廉沮,同時比對結(jié)果中空位數(shù) > 50% 的列已被刪除。
還會有一個名為WorkingDirectory的目錄徐矩,其中包含運算過程的中間文件滞时,例如blast結(jié)果,DIAMOND 比對結(jié)果滤灯,STAG 輸出的無根物種樹等坪稽。2.3.12版本還生成了一些其他文件夾,沒看了
畫系統(tǒng)發(fā)育樹:
1.基因樹(Gene Trees):根據(jù)每個直系同源群推斷的系統(tǒng)發(fā)育樹力喷。
????基因樹:指基于單個同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹刽漂。這種樹代表的僅僅是單個基因的進化歷史,而不是它所在物種的進化歷史弟孟。
????Orthogroups_SingleCopyOrthologues.txt:用來看畫基因樹應(yīng)該選擇哪一個直系同源群的文件贝咙。該文件中每個物種正好包含一個基因的直系同源群列表,即它們包含一對一的直系同源物拂募。它們非常適合進行種間比較和種樹推斷庭猩。
2.解析的基因樹(Resolved Gene Trees):為每個直系同源群推斷出有根的系統(tǒng)發(fā)育樹,使用OrthoFinder復(fù)制損失合并模型進行解析陈症。
3.物種樹(Species Tree):從所有直系同源群推斷出的STAG物種樹蔼水,包含內(nèi)部節(jié)點上的STAG支持值,并以STRIDE為根(-M dendroblast)录肯。
大部分都是摘抄的趴腋,記錄有錯的地方,麻煩批評指正了。
看得頭暈优炬,挺多還沒理解颁井,后面弄WGD再來看看
聲明:本篇多為資料整理總結(jié),僅用于自學(xué)記錄蠢护,侵刪雅宾,謝謝。感謝作者大大們分享:
OrthoFinder????https://github.com/davidemms/OrthoFinder
xuzhougeng????http://www.reibang.com/p/16e0bbb2ba19
濃香鴨腿面????https://blog.csdn.net/sinat_41621566/article/details/112320002
bclhx????火星的后裔????https://mp.weixin.qq.com/s/Jny5cTHqQh9yQx-cKQTWbA#tocbar--ebkh9l
生信技術(shù)????https://mp.weixin.qq.com/s/eeaTOQUHh6zuhYbbLA_Lnw