寫在前面
半個(gè)月前,我推了一個(gè)《任何人都能掌握-基因家族分析》的騰訊課程(原本事實(shí)是開給課題組)叨叙。在熱身課程(完全免費(fèi))中,將我個(gè)人對基因家族分析的認(rèn)知和其意義均做了說明斧拍,感興趣的可見 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一點(diǎn)拧抖,即是讶凉,基因家族分析中一個(gè)常常被忽略甚至忽視的畏浆,對科研可能有所貢獻(xiàn)的步驟(可能很多培訓(xùn)公司并不會涉及)鉴扫,那就是矯正基因結(jié)構(gòu)注釋。
為什么要矯正基因結(jié)構(gòu)注釋
基因組味悄,尤其是植物基因組草戈,從測序,到組裝侍瑟,到注釋唐片,每一個(gè)都不簡單。甚至存在一種說法涨颜,一篇基因組文章费韭,一個(gè)組裝算法。而事實(shí)上庭瑰,注釋也是類似的星持。即使是擬南芥或者水稻這兩個(gè)模式生物,都不能保證所有基因的結(jié)構(gòu)都被注釋出來弹灭。更何況剛發(fā)表的基因組督暂?
在基因家族分析講演中,有這么一個(gè)圖
從圖中可以很直接的看出來穷吮,明顯至少有那三個(gè)基因是缺胳膊少腿
那么逻翁,怎么辦?當(dāng)然是選擇矯正他啊
基因家族分析捡鱼,是一個(gè)常規(guī)工作八回,既然有意要做這個(gè)工作,那么就不應(yīng)該簡單的過家家驾诈。我覺得既然要做缠诅,就做好他。所以翘鸭,開著基因家族分析滴铅,其實(shí)是一個(gè)比較好的機(jī)會,同時(shí)完成對應(yīng)的家族基因的結(jié)構(gòu)注釋矯正就乓。
如何矯正
在半個(gè)月前的講演中,其實(shí)也已經(jīng)講過了拱烁,用在線網(wǎng)頁工具softberry就可以了生蚁,以上圖的 Aco005453.1為例,基于motif pattern和domain info戏自,可以明顯地看出來邦投,其缺少的是5端,GRAS結(jié)構(gòu)域也被截?cái)嗔耍?strong>注意擅笔,這個(gè)在幾乎所有物種的基因組結(jié)構(gòu)注釋文件都會出現(xiàn)志衣,因?yàn)檐浖肋h(yuǎn)不可能保證絕對的準(zhǔn)確屯援,至少目前這個(gè)事情上是的,而菠蘿基因組已經(jīng)做得很優(yōu)秀了念脯。)
操作步驟
1.首先狞洋,獲得這個(gè)基因的位置信息
使用TBtools的gff3 gene info工具
打開這個(gè)gene info文件即可找到基因的坐標(biāo)信息
可以看得出來,就是在LG1上
2.提取該基因當(dāng)前區(qū)間绿店,以及上下游5000bp
這個(gè)時(shí)候我們就得到了這部分序列
3.基于文本直接預(yù)測基因模型
打開softberry網(wǎng)頁工具 http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
把上述獲得的序列黏貼進(jìn)去
點(diǎn)擊search吉懊,很快就可以得到結(jié)果
4.查看是否已經(jīng)補(bǔ)全
上述已經(jīng)預(yù)測除了一個(gè)新的基因模型,同樣是包含了兩個(gè)外顯子假勿,進(jìn)行校驗(yàn)
將序列直接提交到NCBI CDD-search
這時(shí)借嗽,我們得到一個(gè)驚喜
我們得到的新的序列,已經(jīng)補(bǔ)全了CDS转培,GRAS結(jié)構(gòu)域已經(jīng)補(bǔ)全恶导,同時(shí)還預(yù)測出來得了DELLA結(jié)構(gòu)域,說明這個(gè)丟失了5端的序列浸须,本身應(yīng)該是GRAS中DELLA分支的成員甲锡,這是不錯(cuò)的結(jié)果。
But羽戒,矯正結(jié)構(gòu)注釋還差一步缤沦!
5.重新生成gff3注釋文本
上述是通過軟件直接預(yù)測的,而事實(shí)也可以直接通過race實(shí)驗(yàn)并做sanger測序完成易稠。無論如何缸废,我們得到的終歸是Fasta序列,而對于日后還需要做的各種分析驶社,我們需要的是GFF3或者GTF類的文件企量,那么怎么辦?
用TBtools巴龅纭届巩!在很久以前,我就已經(jīng)實(shí)現(xiàn)了這個(gè)功能份乒,一個(gè)目前來說算是老朋友的需求恕汇,由于他文章遲遲沒有發(fā),我還是決定開放這個(gè)工具或辖,事實(shí)也不會影響他的東西瘾英。
操作起來很簡單
找到并打開這個(gè)工具
黏貼新構(gòu)建成的CDS序列,設(shè)置對應(yīng)的DNA序列(也就是剛才的5000bp上下游)颂暇,點(diǎn)擊Start即可缺谴。這樣重構(gòu)的gff3文本最準(zhǔn)確。But耳鸯!生成之后可能需要自己調(diào)整下坐標(biāo)湿蛔,還是比較麻煩膀曾。所以我一般是,DNA序列直接用genome代替(TBtools已經(jīng)盡可能地考慮了各種比對問題阳啥,hsp overlap添谊,末端比對不上等等...),所以這里具體操作是
很快苫纤,TBtools就重構(gòu)出對應(yīng)等等gff3文本
OK碉钠,重構(gòu)出來的gff3文本跟softberry上面的fgensh的結(jié)果一直,是兩個(gè)exons
說明TBtools這個(gè)重構(gòu)gff3文本的工具卷拘,還是可以使用的喊废,具體處理了較多的問題
6.將重構(gòu)的gff3文本,黏貼替換原始對應(yīng)的gff3文本的數(shù)行
這一步手動操作栗弟,不過需要注意污筷,我們預(yù)測出來的基因結(jié)構(gòu),其實(shí)存在一定小問題乍赫,也就是瓣蛀,其實(shí)。雷厂。惋增。我們從一開始截取序列就截取錯(cuò)了
我們預(yù)測成,這個(gè)序列了改鲫。怪我诈皿!。像棘。稽亏。坐標(biāo)選大了
恩,隨意選的一個(gè)基因缕题,果然是給我自己下套
后面的這個(gè)基因截歉,已經(jīng)不大可能是真實(shí)的基因(無可救藥,應(yīng)該丟掉烟零,可能即使是基于RNAseq數(shù)據(jù)查看都救不過過來瘪松,因?yàn)橐呀?jīng)是Overlap了,當(dāng)然可以考慮或許存在不大可能存在的可變剪切瓶摆?或者是兩個(gè)GRAS domain凉逛?)
- 小結(jié)
恩。群井。。我又試了幾個(gè)基因毫胜,基本無解书斜∥鼙玻或者是正好基因與上下游有overlap,或者是基因結(jié)構(gòu)預(yù)測后并沒有太大的改善荐吉。不過似乎也OK焙糟,畢竟我們大概可以知道其中兩個(gè)基因并不真實(shí)。
如果要證明他們是否真實(shí)样屠,可能還是需要RNAseq數(shù)據(jù)輔助穿撮,或者事實(shí)上,需要race實(shí)驗(yàn)痪欲。得到序列之后悦穿,再按照上述操作,用TBtools重構(gòu)gff3即可业踢。
寫在最后
嗯栗柒,意料之外,情理之中知举。
據(jù)我個(gè)人了解瞬沦,菠蘿基因組應(yīng)也是經(jīng)過了基因結(jié)構(gòu)注釋的人工矯正。所以從某個(gè)角度來說雇锡,大部分基因結(jié)構(gòu)應(yīng)是正確逛钻。可能單純從文本預(yù)測上锰提,確實(shí)無法改善結(jié)構(gòu)注釋信息曙痘。而只能發(fā)現(xiàn)一些確實(shí)有問題的序列。對于這些序列欲账,或者是事實(shí)并不存在的假基因屡江,或者是需要race實(shí)驗(yàn)做進(jìn)一步獲取。
無論哪一種途徑赛不,得到序列之后可以直接用TBtools重構(gòu)gff3信息惩嘉,并修改原始gff3文件。做進(jìn)一步分析踢故。