寫在前面
以前總看到問題是,基因結(jié)構(gòu)可視化的問題厕吉;現(xiàn)在則變成了啟動子元件的預測或者說可視化酱固。這本身比較簡單,也比較玄乎赴涵,所以我一直不是太樂意與別人討論媒怯。但學院今天斷網(wǎng),手上的工作無法正常開展髓窜。正好有舊友也問起扇苞,那么我就寫寫。
其實寄纵,有了TBtools鳖敷,這些分析,所有人都可以極其快速的完成
順勢作用元件分析的顧慮
之所以說這個分析玄乎程拭,在于他真的玄乎定踱。順勢作用元件,基于其定義恃鞋,并不一定就是啟動子區(qū)域崖媚,也可以在內(nèi)含子里面,還可以在鄰近的基因里面恤浪。所以他跟啟動子似乎并沒有直接關(guān)系畅哑。只是,啟動子從定義上來談水由,就是RNA聚合酶(如pol II)被招募并結(jié)合的區(qū)域附近荠呐。這一區(qū)域應是有較多的轉(zhuǎn)錄因子(反式作用因子)和轉(zhuǎn)錄調(diào)節(jié)子,所以自然是存在較多的順勢作用元件。
說到這里泥张,那么啟動子區(qū)域的邊界如何確定呵恢,又是玄乎的事情。幾乎所有物種里面的UTR注釋都是不全的媚创,即使是擬南芥或者水稻渗钉,更或者人類。原因有很多钞钙。再從另一個方面來說晌姚。即使是同一個基因(locus),不同的轉(zhuǎn)錄本會有不同的轉(zhuǎn)錄起始位點歇竟,那么這個時候,哪一個TSS之上是所謂真實的啟動子抵恋?
總而言之焕议,存在一個約定俗成(也就是大家都是看破不說破)的做法,取翻譯起始密碼子(ATG)上游1kb弧关,或者2kb盅安,或者更長一些。那么本文的做法就是世囊,取2kb(注意别瞭,這個做法明顯就是會包括一些UTR,然而似乎沒有更好的做法)
實踐一番
1.提取所有基因的啟動子區(qū)域
首先是準備好輸入文件
- 基因組序列株憾,即fasta序列
- 基因結(jié)構(gòu)注釋信息蝙寨,如gff文件
打開TBtools,使用gff3 序列提取工具嗤瞎,并設置到墙歪,只提取CDS上游2000bp的參數(shù),如下
于是得到了擬南芥所有基因的CDS上游2kb(已經(jīng)自動處理正反鏈)
2.提取目標基因集合的啟動子序列
這一步比較簡單贝奇,直接使用TBtools
查看下提取出來的文件信息是否正確
數(shù)目沒錯虹菲,長度沒錯,不過都是小寫的掉瞳。
3.將序列全部轉(zhuǎn)換成大寫
4.提交到PlantCare網(wǎng)站進行順勢作用元件預測
http://bioinformatics.psb.ugent.be/webtools/plantcare/html/
設置郵箱毕源,選擇要上傳的文件(如果超過100kb,就用TBtools的Fasta Split 分割文件陕习,逐個提交)霎褐,點擊上傳,靜等郵件
4. 整理和簡化PlantCare分析結(jié)果
大概過了15min之后衡查,郵箱提示收到郵件瘩欺,是一個壓縮包,解壓即是
每一個序列對應了一個網(wǎng)頁可交互的結(jié)果,而我們直接查看匯總文件即可
使用Excel打開俱饿,基于表格中的信息歌粥,如最后一列,篩選并保留有一定查看目的元件拍埠,如響應類元件
篩選后
剩下900多個元件失驶,還是很多,接下來充分利用Excel的篩選工具(或者自己手動逐個修改)將同一類的響應類元件給與同樣的標簽枣购,大概花了10來分鐘....
接下來整理成適合于TBtools可視化的文本信息
5.使用TBtools對順勢作用元件進行可視化
首先需要準備一個序列長度文件嬉探,所有都是2000bp的啟動子序列
隨后是使用上一步得到的順勢作用元件位置信息,打開TBtools進行可視化
設置輸入信息
點擊Start即可得到圖片...不過默認輸出的圖片有點長棉圈,基于JIGplot的特點涩堤,自己拖拽幾下即可得到下圖
可以看到,似乎有一個序列是AT1G35240.1帶有明顯增多的生長素響應元件分瘾?胎围!具體生物學問題還是看做這個家族的人了。
6. 進化往往能告訴我們更多信息
于是我們把基于蛋白序列做的進化樹也加上去
然后德召,如果你對TBtools的JIGplot引擎熟悉的話白魂,直接用panelEditor調(diào)整兩個Panel即可,如果不熟悉上岗,那就福荸。。肴掷。手動拖吧
可以得到下圖
如果關(guān)注某個元件敬锐,如生長素響應,或者其他捆等?
作者:生信藥丸
鏈接:http://www.reibang.com/p/f5ac1c21c202
來源:簡書
著作權(quán)歸作者所有滞造。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處栋烤。