基因家族分析

1 介紹

· 基因家族(Gene family)昧互,是來源于同一個(gè)祖先,由一個(gè)基因通過基因復(fù)制或者加 倍而產(chǎn)生兩個(gè)或更多的拷貝而構(gòu)成的一組基因薪介,它們在結(jié)構(gòu)和功能上具有明顯的相似性祠饺,編 碼相似的蛋白質(zhì)產(chǎn)物。

基因家族的遺傳進(jìn)化
· 協(xié)同進(jìn)化( Concerted Evolution ) 兩個(gè)相互作用的物種在進(jìn)化過程中發(fā)展的相互適應(yīng)的共同進(jìn)化汁政。一個(gè)物種由于另一物種影響而發(fā)生遺傳進(jìn)化的進(jìn)化類 型道偷。例如植物由于病原菌所施加的壓力而與抗性基因表現(xiàn)出協(xié)同進(jìn)化關(guān)系。
· 無功能化( Degeneration ) 由于有害突變的(非同義突變记劈,可變剪切突變等等)不斷積累勺鸦,導(dǎo)致基因功能喪失,例如一些假基因目木。
· 新功能化( Subfunctionalization ) 基因在復(fù)制的過程中通過突變换途,遺傳漂變等等使得一些基因有了新的功能。

2 分析流程

首先獲得想要預(yù)測基因家族的基因以及序列刽射,通過pfam獲得已知蛋白保守結(jié)構(gòu)域的隱馬爾科夫模型军拟,通過hmmsearch構(gòu)建已知蛋白序列的結(jié)構(gòu)域模型,初步篩選相關(guān)的家族基因,之后通過bedtoolsgetfasta獲得初步篩選的蛋白序列fasta信息誓禁,合并到一個(gè)fasta文件中并進(jìn)入CDD或者pfam按照關(guān)聯(lián)結(jié)構(gòu)域?qū)易宓鞍走M(jìn)行進(jìn)一步篩選懈息。

常規(guī)分析流程

在獲得了我們想要進(jìn)行分析的家族蛋白之后我們就要開始進(jìn)行后續(xù)的構(gòu)樹和可視化等分析,首先我們需要使用mega對這一組蛋白序列進(jìn)行clustalw多序列比對 现横,隨后構(gòu)建系統(tǒng)發(fā)育樹漓拾,構(gòu)樹方法有鄰接法(Neighbor-Joining, NJ),最大似然法(Maximum likelihood戒祠,ML)骇两,最大簡約法(Maximum parsimony,MP)和貝葉斯法(Bayesian inference, BI)不同方法各有優(yōu)劣姜盈。在獲得進(jìn)化樹之后可以使用在線工具EvolView對進(jìn)化樹進(jìn)行美化低千,添加一些參數(shù)使其展示的內(nèi)容更加豐富。

不同方式構(gòu)建進(jìn)化樹

得到了進(jìn)化樹我們就需要對其中的家族蛋白進(jìn)行基因結(jié)構(gòu)分析,這里我主要使用TBtools,首先下載對應(yīng)物種的基因組fasta文件以及基因組注釋gtf/gff3文件導(dǎo)入TBtools,
之后使用Gene Structure Shower模塊根據(jù)自己喜好構(gòu)建并修改基因結(jié)構(gòu)圖示血。(很厲害的軟件棋傍,基本上圖中所有東西都可以按照自己興趣調(diào)節(jié))

TBtools分析流程

得到基因結(jié)構(gòu)圖以后我們就要開始對基因家族的motif進(jìn)行分析,
? motif是蛋白質(zhì)分子具有特定功能的或者作為一個(gè)獨(dú)立結(jié)構(gòu)域一部分相近的二級結(jié)構(gòu)聚合體难审;
? 基因保守域結(jié)構(gòu)主要通過MEME在線網(wǎng)站分析(http://meme-suite.org/)瘫拣;也可以通過SMART、MOTIF Search告喊;
? MEME在線網(wǎng)站進(jìn)行兩種分析: 1麸拄、MEME分析(重在發(fā)掘新的motif,比較敏感黔姜,是由序列查找motif的過程)拢切; 2、Mast分析(重在確定motif的存在秆吵,較全面淮椰,是由motif查找domain的過程);
? MEME輸出的圖形無法直接導(dǎo)出纳寂,只能通過截圖軟件進(jìn)行主穗,得到圖的分辨率不佳 ? TBtools能識別MEME網(wǎng)站中輸出的XML文件,并能導(dǎo)出矢量圖毙芜,提高圖形質(zhì)量黔牵。

motif分析流程

得到進(jìn)化樹以及MEME圖之后我們可以對其進(jìn)行合并展示。如果之后我們想要再進(jìn)一步進(jìn)行分析的話爷肝,我們可以從基因家族的染色體定位入手猾浦,繪制基因家族在染色體中的定位圖并且可以分析其上下游的調(diào)控元件或者判斷是否有選擇壓力作用于這個(gè)蛋白質(zhì)的編碼基因,從而了解基因進(jìn)化速度灯抛。

染色體定位可以根據(jù)測序文件金赦,確定各條染色體大小,基因存 在于那條染色體上对嚼,并確定該基因在染色體的哪個(gè)區(qū)域夹抗, 使用map gene to chromosome( http://mg2c.iask.in/mg2c_v2.0/)等軟件進(jìn)行繪制。

調(diào)控元件的分析可以使用TBtools通過gff3/gtf注釋文件使用Gtf/Gff3 Sequence Extractor模塊獲取上下游指定長度bp的序列并認(rèn)定這其中可能包括有該基因的調(diào)控元件并進(jìn)行進(jìn)一步分析纵竖。

3 結(jié)果展示

3.1 構(gòu)建模型

首先獲取目的基因所在物種的參考蛋白序列以及目的基因蛋白的隱馬爾科夫模型漠烧,可在ncbiPfam獲得,不再過多贅述靡砌,之后構(gòu)建家族模型已脓。

#一般尋找基因家族,都可以通過保守結(jié)構(gòu)域來預(yù)測通殃,從而找到物種的某一基因家族度液,從#而進(jìn)行之后的分析。 這里就需要用到HMMER,來鑒定物種某一基因家族堕担。
#在鑒定基因家族時(shí)已慢,常用到的工具是hmmsearch,里面常用的算法有三種霹购。一般我們使#用--cut_tc算法對隱 馬可夫模型進(jìn)行搜索佑惠,tc算法是使用pfam提供的hmm文件中trusted #cutoof的值進(jìn)行篩選,相對比較可靠齐疙。

hmmsearch Hsp20.hmm protein.fa > out
##Nramp.hmm 是上一步下載到的模型文件 protein.fa是全基因組蛋白序列文件兢仰,out是重##定向的輸出的文件,把質(zhì)量比較高的基因家族候選基因篩選出來E-value?<?1 × 10e20

out輸出文件

根據(jù)初步結(jié)果獲得蛋白我們獲取其fasta序列剂碴,根據(jù)Sequence列獲得蛋白序列id我們使用bedtools等工具獲取其fasta序列,合并并保存在一個(gè)fasta序列中轻专。

隨后可以使用ncbi的CD-search工具鑒定蛋白質(zhì)或者核酸序列內(nèi)的保守結(jié)構(gòu)域或功能單位 或者使用PfamBatch search忆矛。


主要看fromto兩列,代表了關(guān)聯(lián)結(jié)構(gòu)域的長度请垛,按照一定閾值篩選催训,這里排除了500個(gè)氨基酸以下的蛋白。

3.2 構(gòu)建系統(tǒng)發(fā)育樹

導(dǎo)入前面得到的fasta文件之后宗收,使用Align by clustalW對fasta中的蛋白序列進(jìn)行多序列比對(ctrl+a選取所有網(wǎng)格使用默認(rèn)參數(shù)即可)漫拭,之后導(dǎo)出并存為.meg格式。

clustalW選項(xiàng)

之后將.meg格式重新導(dǎo)入回mega中混稽,使用最大似然法構(gòu)建系統(tǒng)發(fā)育樹(使用默認(rèn)參數(shù)即可)采驻。

構(gòu)樹選項(xiàng)

針對導(dǎo)出結(jié)果還可以使用Evolview美化發(fā)育樹結(jié)果。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末匈勋,一起剝皮案震驚了整個(gè)濱河市礼旅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌洽洁,老刑警劉巖痘系,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異饿自,居然都是意外死亡汰翠,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門昭雌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來复唤,“玉大人,你說我怎么就攤上這事烛卧」赌拢” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長雳旅。 經(jīng)常有香客問我跟磨,道長,這世上最難降的妖魔是什么攒盈? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任抵拘,我火速辦了婚禮,結(jié)果婚禮上型豁,老公的妹妹穿的比我還像新娘僵蛛。我一直安慰自己,他們只是感情好迎变,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布充尉。 她就那樣靜靜地躺著,像睡著了一般衣形。 火紅的嫁衣襯著肌膚如雪驼侠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天谆吴,我揣著相機(jī)與錄音倒源,去河邊找鬼。 笑死句狼,一個(gè)胖子當(dāng)著我的面吹牛笋熬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播腻菇,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼胳螟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了筹吐?” 一聲冷哼從身側(cè)響起旺隙,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎骏令,沒想到半個(gè)月后蔬捷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡榔袋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年周拐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片凰兑。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡妥粟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出吏够,到底是詐尸還是另有隱情勾给,我是刑警寧澤滩报,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站播急,受9級特大地震影響脓钾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜桩警,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一可训、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧捶枢,春花似錦握截、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蒜鸡,卻和暖如春胯努,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背术瓮。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贰健,地道東北人胞四。 一個(gè)月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像伶椿,于是被迫代替她去往敵國和親辜伟。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353