什么惭聂?基因注釋文件出錯(cuò)窗声?
往下看!
有時(shí)候在做進(jìn)化樹+結(jié)構(gòu)域這種組合圖時(shí)辜纲,會(huì)發(fā)現(xiàn)偶爾有個(gè)別基因的結(jié)構(gòu)域與同一基因家族的其他成員相比笨觅,會(huì)出現(xiàn)“缺胳膊短腿”的情況。
比如下面這種情況:
找了半天也沒找到合適的例子耕腾,那就采用CJ在推文中用到的GRAS基因家族见剩。由于我沒下載菠蘿基因組信息,所以就在擬南芥試試看扫俺。
花了幾分鐘苍苞,搞出來這個(gè)組合圖。大致就是下面這個(gè)樣子狼纬。但具體是不是我想要描述的問題羹呵,現(xiàn)在還不知道。
接下來試試看畸颅。從下圖可以看出担巩,AT5G67411.1這個(gè)基因的GRAS結(jié)構(gòu)域明顯比其他成員要短半截方援,對(duì)應(yīng)到motif没炒,應(yīng)該是N端和C端都缺了一段。
那這是由什么原因造成的呢?
(當(dāng)然送火,這個(gè)現(xiàn)象不是個(gè)別拳话,是普遍)
大致就是兩個(gè)原因:
要么就是注釋文件出錯(cuò)了!導(dǎo)致該基因兩端缺失种吸。
要么就是它本身就是一個(gè)假基因弃衍,不應(yīng)該被列入后續(xù)的分析。
更多內(nèi)容請(qǐng)關(guān)注微信公眾號(hào):今日之森坚俗。
下面我們具體看看镜盯,到底是注釋文件錯(cuò)了還是這個(gè)基因本身就是假基因呢?
如果注釋文件錯(cuò)了猖败,那我們就需要矯正它速缆!如果本身就是假基因,那就需要舍棄它恩闻!
1艺糜、簡單粗暴從gff文件獲取AT5G67411.1的位置信息。
2幢尚、提取AT5G67411.1上下游5000bp內(nèi)的序列破停。
3、提交序列至softberry網(wǎng)站
http://www.softberry.com/berry.phtml?topic=fgenesh&group=programs&subgroup=gfind
打開這個(gè)網(wǎng)站還比較費(fèi)勁尉剩。
結(jié)果如下:
我們直接打開PDF報(bào)告真慢,可以看到具體的編碼情況。
但是仔細(xì)看起來還是比較頭疼理茎。
4晤碘、我們直接把剛才的mRNA序列依次提交到NCBI CDD-search
最終發(fā)現(xiàn),將這段長1179bp的序列提交后功蜓,結(jié)果如下:
然后我們?cè)侔焉鲜鲂蛄刑峤恢罰fam园爷。結(jié)果一致:
這個(gè)結(jié)果有什么用呢?其實(shí)還是讓人有點(diǎn)小驚喜式撼。
仔細(xì)看會(huì)發(fā)現(xiàn)童社,第一張圖中AT5G67411.1的GRAS結(jié)構(gòu)域只有約200aa。而其他成員均在350-370aa著隆。
現(xiàn)在我們已經(jīng)得到了AT5G67411.1基因的新序列扰楼,至少補(bǔ)全了GRAS結(jié)構(gòu)域。所以還是有所改善的美浦。
那么既然得到了新的序列弦赖,下一步該怎么辦呢?
也許這個(gè)結(jié)果只是一個(gè)坑浦辨,如果不是坑蹬竖,那我們需要矯正注釋文件。
那這里如果有坑,會(huì)有幾個(gè)坑呢币厕?
坑一:
剛才我們選取了基因本身的序列及上下游各5000bp列另,那么剛才預(yù)測得到的長1179 bp的基因是在AT5G67411.1基礎(chǔ)上向5‘端延伸了幾百bp呢?還是只是另外一個(gè)基因呢旦装?
坑二:
這里假設(shè)1179bp的新序列是在AT5G67411.1基礎(chǔ)上向5‘端延伸了幾百bp后補(bǔ)全了页衙,那么有沒有和其他基因有overlap呢?
帶著這些問題,那我們繼續(xù)阴绢。
先不著急對(duì)注釋文件進(jìn)行注釋店乐。我們先來看看剛才選取的序列有沒有overlap。其實(shí)這一步在剛提取序列的時(shí)候就該考慮呻袭,既然剛才沒有考慮响巢。那現(xiàn)在就來看看。
果不其然棒妨,前后都有overlap踪古。
那怎么辦呢?那就不要在上下游取5000了券腔,縮短一點(diǎn)再試試伏穆。
那就取剛剛不overlap的區(qū)間。AT5G67411.1 ?? 26897680??? 26903865
結(jié)果如下:
看到這個(gè)結(jié)果就放心了纷纫。說明剛才我們選取的長度為1179的序列是沒問題的枕扫。
好,到這里辱魁,就算對(duì)AT5G67411.1這個(gè)基因的GRAS結(jié)構(gòu)域進(jìn)行了完善烟瞧。
我們?cè)賮肀葘?duì)一下完善之前和完善之后的序列。
可以看到染簇,我們對(duì)5'和3'都進(jìn)行了補(bǔ)充参滴。
到這里,我們的分析就告一段落了锻弓±猓基本可以確定這個(gè)基因的注釋信息有些問題,那我們發(fā)現(xiàn)之后就需要對(duì)原始的注釋文件進(jìn)行矯正青灼。
既然寫到這里了暴心,那就一氣呵成。
下面開始對(duì)注釋文件進(jìn)行矯正杂拨。
最后只需要將矯正后的注釋文件粘貼進(jìn)原始gff文件即可专普。
題外話:
說到gff文件,大家都感到陌生弹沽。其實(shí)到底是什么檀夹,我們打開看看就知道了筋粗。
比如:
很清楚。應(yīng)該不需要解釋吧击胜。