矯正基因結(jié)構(gòu)注釋 - 做有良心的基因家族分析

寫在前面

半個(gè)月前,我推了一個(gè)《任何人都能掌握-基因家族分析》的騰訊課程(原本事實(shí)是開給課題組)叨叙。在熱身課程(完全免費(fèi))中,將我個(gè)人對基因家族分析的認(rèn)知和其意義均做了說明斧拍,感興趣的可見 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一點(diǎn)拧抖,即是讶凉,基因家族分析中一個(gè)常常被忽略甚至忽視的畏浆,對科研可能有所貢獻(xiàn)的步驟(可能很多培訓(xùn)公司并不會涉及)鉴扫,那就是矯正基因結(jié)構(gòu)注釋

為什么要矯正基因結(jié)構(gòu)注釋

基因組味悄,尤其是植物基因組草戈,從測序,到組裝侍瑟,到注釋唐片,每一個(gè)都不簡單。甚至存在一種說法涨颜,一篇基因組文章费韭,一個(gè)組裝算法。而事實(shí)上庭瑰,注釋也是類似的星持。即使是擬南芥或者水稻這兩個(gè)模式生物,都不能保證所有基因的結(jié)構(gòu)都被注釋出來弹灭。更何況剛發(fā)表的基因組督暂?
在基因家族分析講演中,有這么一個(gè)圖


從圖中可以很直接的看出來穷吮,明顯至少有那三個(gè)基因是缺胳膊少腿
那么逻翁,怎么辦?當(dāng)然是選擇矯正他啊
基因家族分析捡鱼,是一個(gè)常規(guī)工作八回,既然有意要做這個(gè)工作,那么就不應(yīng)該簡單的過家家驾诈。我覺得既然要做缠诅,就做好他。所以翘鸭,開著基因家族分析滴铅,其實(shí)是一個(gè)比較好的機(jī)會,同時(shí)完成對應(yīng)的家族基因的結(jié)構(gòu)注釋矯正就乓。

如何矯正

在半個(gè)月前的講演中,其實(shí)也已經(jīng)講過了拱烁,用在線網(wǎng)頁工具softberry就可以了生蚁,以上圖的 Aco005453.1為例,基于motif pattern和domain info戏自,可以明顯地看出來邦投,其缺少的是5端,GRAS結(jié)構(gòu)域也被截?cái)嗔耍?strong>注意擅笔,這個(gè)在幾乎所有物種的基因組結(jié)構(gòu)注釋文件都會出現(xiàn)志衣,因?yàn)檐浖肋h(yuǎn)不可能保證絕對的準(zhǔn)確屯援,至少目前這個(gè)事情上是的,而菠蘿基因組已經(jīng)做得很優(yōu)秀了念脯。)

操作步驟

1.首先狞洋,獲得這個(gè)基因的位置信息
使用TBtools的gff3 gene info工具


打開這個(gè)gene info文件即可找到基因的坐標(biāo)信息

可以看得出來,就是在LG1上
2.提取該基因當(dāng)前區(qū)間绿店,以及上下游5000bp

這個(gè)時(shí)候我們就得到了這部分序列
3.基于文本直接預(yù)測基因模型
打開softberry網(wǎng)頁工具 http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
把上述獲得的序列黏貼進(jìn)去

點(diǎn)擊search吉懊,很快就可以得到結(jié)果

4.查看是否已經(jīng)補(bǔ)全
上述已經(jīng)預(yù)測除了一個(gè)新的基因模型,同樣是包含了兩個(gè)外顯子假勿,進(jìn)行校驗(yàn)
將序列直接提交到NCBI CDD-search

這時(shí)借嗽,我們得到一個(gè)驚喜

我們得到的新的序列,已經(jīng)補(bǔ)全了CDS转培,GRAS結(jié)構(gòu)域已經(jīng)補(bǔ)全恶导,同時(shí)還預(yù)測出來得了DELLA結(jié)構(gòu)域,說明這個(gè)丟失了5端的序列浸须,本身應(yīng)該是GRAS中DELLA分支的成員甲锡,這是不錯(cuò)的結(jié)果。
But羽戒,矯正結(jié)構(gòu)注釋還差一步缤沦!
5.重新生成gff3注釋文本
上述是通過軟件直接預(yù)測的,而事實(shí)也可以直接通過race實(shí)驗(yàn)并做sanger測序完成易稠。無論如何缸废,我們得到的終歸是Fasta序列,而對于日后還需要做的各種分析驶社,我們需要的是GFF3或者GTF類的文件企量,那么怎么辦?
用TBtools巴龅纭届巩!在很久以前,我就已經(jīng)實(shí)現(xiàn)了這個(gè)功能份乒,一個(gè)目前來說算是老朋友的需求恕汇,由于他文章遲遲沒有發(fā),我還是決定開放這個(gè)工具或辖,事實(shí)也不會影響他的東西瘾英。
操作起來很簡單
找到并打開這個(gè)工具

黏貼新構(gòu)建成的CDS序列,設(shè)置對應(yīng)的DNA序列(也就是剛才的5000bp上下游)颂暇,點(diǎn)擊Start即可缺谴。這樣重構(gòu)的gff3文本最準(zhǔn)確。But耳鸯!生成之后可能需要自己調(diào)整下坐標(biāo)湿蛔,還是比較麻煩膀曾。所以我一般是,DNA序列直接用genome代替(TBtools已經(jīng)盡可能地考慮了各種比對問題阳啥,hsp overlap添谊,末端比對不上等等...),所以這里具體操作是

很快苫纤,TBtools就重構(gòu)出對應(yīng)等等gff3文本

OK碉钠,重構(gòu)出來的gff3文本跟softberry上面的fgensh的結(jié)果一直,是兩個(gè)exons
說明TBtools這個(gè)重構(gòu)gff3文本的工具卷拘,還是可以使用的喊废,具體處理了較多的問題

6.將重構(gòu)的gff3文本,黏貼替換原始對應(yīng)的gff3文本的數(shù)行
這一步手動操作栗弟,不過需要注意污筷,我們預(yù)測出來的基因結(jié)構(gòu),其實(shí)存在一定小問題乍赫,也就是瓣蛀,其實(shí)。雷厂。惋增。我們從一開始截取序列就截取錯(cuò)了
我們預(yù)測成,這個(gè)序列了改鲫。怪我诈皿!。像棘。稽亏。坐標(biāo)選大了

恩,隨意選的一個(gè)基因缕题,果然是給我自己下套

后面的這個(gè)基因截歉,已經(jīng)不大可能是真實(shí)的基因(無可救藥,應(yīng)該丟掉烟零,可能即使是基于RNAseq數(shù)據(jù)查看都救不過過來瘪松,因?yàn)橐呀?jīng)是Overlap了,當(dāng)然可以考慮或許存在不大可能存在的可變剪切瓶摆?或者是兩個(gè)GRAS domain凉逛?)

  1. 小結(jié)

恩。群井。。我又試了幾個(gè)基因毫胜,基本無解书斜∥鼙玻或者是正好基因與上下游有overlap,或者是基因結(jié)構(gòu)預(yù)測后并沒有太大的改善荐吉。不過似乎也OK焙糟,畢竟我們大概可以知道其中兩個(gè)基因并不真實(shí)。
如果要證明他們是否真實(shí)样屠,可能還是需要RNAseq數(shù)據(jù)輔助穿撮,或者事實(shí)上,需要race實(shí)驗(yàn)痪欲。得到序列之后悦穿,再按照上述操作,用TBtools重構(gòu)gff3即可业踢。

寫在最后

嗯栗柒,意料之外,情理之中知举。
據(jù)我個(gè)人了解瞬沦,菠蘿基因組應(yīng)也是經(jīng)過了基因結(jié)構(gòu)注釋的人工矯正。所以從某個(gè)角度來說雇锡,大部分基因結(jié)構(gòu)應(yīng)是正確逛钻。可能單純從文本預(yù)測上锰提,確實(shí)無法改善結(jié)構(gòu)注釋信息曙痘。而只能發(fā)現(xiàn)一些確實(shí)有問題的序列。對于這些序列欲账,或者是事實(shí)并不存在的假基因屡江,或者是需要race實(shí)驗(yàn)做進(jìn)一步獲取。
無論哪一種途徑赛不,得到序列之后可以直接用TBtools重構(gòu)gff3信息惩嘉,并修改原始gff3文件。做進(jìn)一步分析踢故。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末文黎,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子殿较,更是在濱河造成了極大的恐慌耸峭,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淋纲,死亡現(xiàn)場離奇詭異劳闹,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門本涕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來业汰,“玉大人,你說我怎么就攤上這事菩颖⊙幔” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵晦闰,是天一觀的道長放祟。 經(jīng)常有香客問我,道長呻右,這世上最難降的妖魔是什么跪妥? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮窿冯,結(jié)果婚禮上骗奖,老公的妹妹穿的比我還像新娘。我一直安慰自己醒串,他們只是感情好执桌,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著芜赌,像睡著了一般仰挣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上缠沈,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天膘壶,我揣著相機(jī)與錄音,去河邊找鬼洲愤。 笑死颓芭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的柬赐。 我是一名探鬼主播亡问,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼肛宋!你這毒婦竟也來了州藕?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤酝陈,失蹤者是張志新(化名)和其女友劉穎床玻,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體沉帮,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡锈死,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年贫堰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片馅精。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡严嗜,死狀恐怖粱檀,靈堂內(nèi)的尸體忽然破棺而出洲敢,到底是詐尸還是另有隱情,我是刑警寧澤茄蚯,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布压彭,位于F島的核電站,受9級特大地震影響渗常,放射性物質(zhì)發(fā)生泄漏壮不。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一皱碘、第九天 我趴在偏房一處隱蔽的房頂上張望询一。 院中可真熱鬧,春花似錦癌椿、人聲如沸健蕊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缩功。三九已至,卻和暖如春都办,著一層夾襖步出監(jiān)牢的瞬間嫡锌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工琳钉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留势木,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓歌懒,卻偏偏與公主長得像啦桌,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子歼培,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容