1 介紹
· 基因家族(Gene family)昧互,是來源于同一個(gè)祖先,由一個(gè)基因通過基因復(fù)制或者加 倍而產(chǎn)生兩個(gè)或更多的拷貝而構(gòu)成的一組基因薪介,它們在結(jié)構(gòu)和功能上具有明顯的相似性祠饺,編 碼相似的蛋白質(zhì)產(chǎn)物。
基因家族的遺傳進(jìn)化
· 協(xié)同進(jìn)化( Concerted Evolution ) 兩個(gè)相互作用的物種在進(jìn)化過程中發(fā)展的相互適應(yīng)的共同進(jìn)化汁政。一個(gè)物種由于另一物種影響而發(fā)生遺傳進(jìn)化的進(jìn)化類 型道偷。例如植物由于病原菌所施加的壓力而與抗性基因表現(xiàn)出協(xié)同進(jìn)化關(guān)系。
· 無功能化( Degeneration ) 由于有害突變的(非同義突變记劈,可變剪切突變等等)不斷積累勺鸦,導(dǎo)致基因功能喪失,例如一些假基因目木。
· 新功能化( Subfunctionalization ) 基因在復(fù)制的過程中通過突變换途,遺傳漂變等等使得一些基因有了新的功能。
2 分析流程
首先獲得想要預(yù)測基因家族的基因以及序列刽射,通過pfam
獲得已知蛋白保守結(jié)構(gòu)域的隱馬爾科夫模型军拟,通過hmmsearch
構(gòu)建已知蛋白序列的結(jié)構(gòu)域模型,初步篩選相關(guān)的家族基因,之后通過bedtools
的getfasta
獲得初步篩選的蛋白序列fasta信息誓禁,合并到一個(gè)fasta文件中并進(jìn)入CDD
或者pfam
按照關(guān)聯(lián)結(jié)構(gòu)域?qū)易宓鞍走M(jìn)行進(jìn)一步篩選懈息。
在獲得了我們想要進(jìn)行分析的家族蛋白之后我們就要開始進(jìn)行后續(xù)的構(gòu)樹和可視化等分析,首先我們需要使用mega
對這一組蛋白序列進(jìn)行clustalw
多序列比對 现横,隨后構(gòu)建系統(tǒng)發(fā)育樹漓拾,構(gòu)樹方法有鄰接法(Neighbor-Joining, NJ),最大似然法(Maximum likelihood戒祠,ML)骇两,最大簡約法(Maximum parsimony,MP)和貝葉斯法(Bayesian inference, BI)不同方法各有優(yōu)劣姜盈。在獲得進(jìn)化樹之后可以使用在線工具EvolView
對進(jìn)化樹進(jìn)行美化低千,添加一些參數(shù)使其展示的內(nèi)容更加豐富。
得到了進(jìn)化樹我們就需要對其中的家族蛋白進(jìn)行基因結(jié)構(gòu)分析,這里我主要使用TBtools
,首先下載對應(yīng)物種的基因組fasta文件以及基因組注釋gtf/gff3文件導(dǎo)入TBtools
,
之后使用Gene Structure Shower
模塊根據(jù)自己喜好構(gòu)建并修改基因結(jié)構(gòu)圖示血。(很厲害的軟件棋傍,基本上圖中所有東西都可以按照自己興趣調(diào)節(jié))
得到基因結(jié)構(gòu)圖以后我們就要開始對基因家族的motif進(jìn)行分析,
? motif是蛋白質(zhì)分子具有特定功能的或者作為一個(gè)獨(dú)立結(jié)構(gòu)域一部分相近的二級結(jié)構(gòu)聚合體难审;
? 基因保守域結(jié)構(gòu)主要通過MEME在線網(wǎng)站分析(http://meme-suite.org/)瘫拣;也可以通過SMART、MOTIF Search告喊;
? MEME在線網(wǎng)站進(jìn)行兩種分析: 1麸拄、MEME分析(重在發(fā)掘新的motif,比較敏感黔姜,是由序列查找motif的過程)拢切; 2、Mast分析(重在確定motif的存在秆吵,較全面淮椰,是由motif查找domain的過程);
? MEME輸出的圖形無法直接導(dǎo)出纳寂,只能通過截圖軟件進(jìn)行主穗,得到圖的分辨率不佳 ? TBtools能識別MEME網(wǎng)站中輸出的XML文件,并能導(dǎo)出矢量圖毙芜,提高圖形質(zhì)量黔牵。
得到進(jìn)化樹以及MEME圖之后我們可以對其進(jìn)行合并展示。如果之后我們想要再進(jìn)一步進(jìn)行分析的話爷肝,我們可以從基因家族的染色體定位入手猾浦,繪制基因家族在染色體中的定位圖并且可以分析其上下游的調(diào)控元件或者判斷是否有選擇壓力作用于這個(gè)蛋白質(zhì)的編碼基因,從而了解基因進(jìn)化速度灯抛。
染色體定位可以根據(jù)測序文件金赦,確定各條染色體大小,基因存 在于那條染色體上对嚼,并確定該基因在染色體的哪個(gè)區(qū)域夹抗, 使用map gene to chromosome( http://mg2c.iask.in/mg2c_v2.0/)等軟件進(jìn)行繪制。
調(diào)控元件的分析可以使用TBtools
通過gff3/gtf注釋文件使用Gtf/Gff3 Sequence Extractor
模塊獲取上下游指定長度bp的序列并認(rèn)定這其中可能包括有該基因的調(diào)控元件并進(jìn)行進(jìn)一步分析纵竖。
3 結(jié)果展示
3.1 構(gòu)建模型
首先獲取目的基因所在物種的參考蛋白序列以及目的基因蛋白的隱馬爾科夫模型漠烧,可在ncbi
和Pfam
獲得,不再過多贅述靡砌,之后構(gòu)建家族模型已脓。
#一般尋找基因家族,都可以通過保守結(jié)構(gòu)域來預(yù)測通殃,從而找到物種的某一基因家族度液,從#而進(jìn)行之后的分析。 這里就需要用到HMMER,來鑒定物種某一基因家族堕担。
#在鑒定基因家族時(shí)已慢,常用到的工具是hmmsearch,里面常用的算法有三種霹购。一般我們使#用--cut_tc算法對隱 馬可夫模型進(jìn)行搜索佑惠,tc算法是使用pfam提供的hmm文件中trusted #cutoof的值進(jìn)行篩選,相對比較可靠齐疙。
hmmsearch Hsp20.hmm protein.fa > out
##Nramp.hmm 是上一步下載到的模型文件 protein.fa是全基因組蛋白序列文件兢仰,out是重##定向的輸出的文件,把質(zhì)量比較高的基因家族候選基因篩選出來E-value?<?1 × 10e20
根據(jù)初步結(jié)果獲得蛋白我們獲取其fasta序列剂碴,根據(jù)Sequence
列獲得蛋白序列id我們使用bedtools
等工具獲取其fasta序列,合并并保存在一個(gè)fasta序列中轻专。
隨后可以使用ncbi的CD-search工具鑒定蛋白質(zhì)或者核酸序列內(nèi)的保守結(jié)構(gòu)域或功能單位 或者使用Pfam
的Batch search
忆矛。
主要看
from
和to
兩列,代表了關(guān)聯(lián)結(jié)構(gòu)域的長度请垛,按照一定閾值篩選催训,這里排除了500個(gè)氨基酸以下的蛋白。
3.2 構(gòu)建系統(tǒng)發(fā)育樹
導(dǎo)入前面得到的fasta文件之后宗收,使用Align by clustalW
對fasta中的蛋白序列進(jìn)行多序列比對(ctrl+a選取所有網(wǎng)格使用默認(rèn)參數(shù)即可)漫拭,之后導(dǎo)出并存為.meg格式。
之后將.meg格式重新導(dǎo)入回mega中混稽,使用最大似然法構(gòu)建系統(tǒng)發(fā)育樹(使用默認(rèn)參數(shù)即可)采驻。
針對導(dǎo)出結(jié)果還可以使用Evolview
美化發(fā)育樹結(jié)果。