葉綠體/線粒體在線注釋網(wǎng)站GeSeq
上篇介紹了一個線粒體在線注釋網(wǎng)站数焊,MITOS升筏,今天呢白魚小編繼續(xù)給大家推薦另一個在線注釋網(wǎng)站,GeSeq锭沟。該網(wǎng)站即可用于注釋線粒體祭衩,也可用于葉綠體诵竭。GeSeq主要以同源注釋的方式环形,快速準(zhǔn)確地實(shí)現(xiàn)細(xì)胞器基因組的注釋总寻,特別是葉綠體基因組汗销。
GeSeq網(wǎng)站鏈接: https://chlorobox.mpimp-golm.mpg.de/geseq.html GeSeq主要依據(jù)的同源比對的方法犹褒,即根據(jù)參考葉綠體/線粒體序列中的結(jié)構(gòu)區(qū),和我們上傳的基因組進(jìn)行blast大溜、hmmer等同源比對化漆,在我們的基因組中尋找相似的區(qū)域,由此實(shí)現(xiàn)編碼基因钦奋、非編碼RNA等的“同步轉(zhuǎn)移”座云,從而實(shí)現(xiàn)對基因組的注釋。 因此付材,在使用該網(wǎng)站對我們的葉綠體/線粒體進(jìn)行注釋時朦拖,必需提供同種或近緣物種葉綠體/線粒體的參考序列(至少需要一個),根據(jù)同源注釋的方法厌衔,獲得的結(jié)果通常也很準(zhǔn)確璧帝。 但若不存在近緣的參考基因組,則將無法準(zhǔn)確識別基因組中的結(jié)構(gòu)區(qū)富寿,這點(diǎn)特別體現(xiàn)在植物線粒體睬隶、葉綠體的注釋中,所以植物基因組的注釋页徐,即便是小基因組的注釋也一直是一件很讓人頭痛的事情苏潜。 目前在GeSeq中,蛋白編碼基因只能通過這種同源比對的方式獲得变勇; 對于基因組中的非編碼RNA區(qū)恤左,除了以同源比對的方式注釋外,GeSeq還提供了從頭預(yù)測的方法搀绣,即結(jié)合了tRNAscan-SE飞袋、ARAGORN等工具,可在缺乏近緣參考基因組的前提下盡可能注釋得到更多的非編碼RNA區(qū)链患。 除了結(jié)構(gòu)區(qū)注釋巧鸭,GeSeq還提供了繪制細(xì)胞器基因組圈圖的功能。 這樣麻捻,我們在拿到注釋結(jié)果后蹄皱,即可繼續(xù)使用它提供的功能繪制基因組圈圖览闰,方便快捷,且效果不輸circos巷折。
GeSeq使用簡介
GeSeq界面功能
打開GeSeq網(wǎng)站鏈接: https://chlorobox.mpimp-golm.mpg.de/geseq.html压鉴,上傳序列,調(diào)節(jié)參數(shù)锻拘。 以下是對GeSeq界面的基本簡介油吭。
左側(cè)上傳序列(fasta文件),并選擇基本選項(xiàng)署拟,包括序列類型婉宰、注釋類型并設(shè)置參數(shù)信息等。
GeSeq主要依靠同源注釋推穷,將你上傳的基因組序列和參考基因組序列作比對心包,來確定你的基因組中的結(jié)構(gòu)區(qū)。同源比對的方法有blast和hmmer兩種馒铃,參考基因組很近緣的情況下蟹腾,blast足夠使用了。
blast和hmmer既能注釋蛋白編碼區(qū)(cds區(qū))区宇,也能注釋非編碼RNA區(qū)(tRNA娃殖、rRNA)。蛋白編碼cds區(qū)目前只能通過同源注釋獲得议谷。對于非編碼RNA區(qū)炉爆,除了同源比對,GeSeq還提供了3種從頭預(yù)測非編碼RNA的方法卧晓,其實(shí)就是調(diào)用3種非編碼RNA預(yù)測軟件來實(shí)現(xiàn)芬首。如果同源比對未能找到全部的非編碼RNA,那么就可以通過這3種方法來嘗試獲取逼裆。
正常情況下郁稍,先將這3種方法關(guān)閉,若同源注釋缺少結(jié)果時再行開啟也不遲波附。有一點(diǎn)需注意,這3種方法之間相互獨(dú)立昼钻,和同源注釋方法也獨(dú)立掸屡,若開啟多種功能時,就會導(dǎo)致出現(xiàn)重復(fù)的RNA區(qū)域(因?yàn)楦鬈浖髯元?dú)立運(yùn)行獲得結(jié)果然评,GeSeq自己并不會去重)仅财,這時候還需手動在結(jié)果文件中刪除重復(fù)、冗余的結(jié)果碗淌。
中間部分盏求,導(dǎo)入?yún)⒖蓟蚪M序列(同種或近緣物種的葉綠體/線粒體基因組序列)抖锥。若想保證GeSeq正常運(yùn)行,這里必需要載入至少一個參考基因組碎罚。
GeSeq提供了在線導(dǎo)入和本地導(dǎo)入兩種方式磅废。 無論使用哪種,參考基因組肯定是越近緣越好荆烈,這樣就能保證準(zhǔn)確性和完整性拯勉; 否則結(jié)果中將會出現(xiàn)很多基因無法準(zhǔn)確注釋,主要體現(xiàn)在邊界區(qū)無法準(zhǔn)確確定憔购,覆蓋度不完全宫峦,長度過短,未得到有效的編碼氨基酸序列等(這時候你還需要手動去鑒定玫鸟,會很麻煩导绷,這也是很多測序公司不愿意接收缺乏近緣參考基因組的細(xì)胞器的注釋項(xiàng)目的原因,注釋繁瑣是一方面屎飘,有時候可能連基因組組裝都是問題)妥曲。
GeSeq和NCBI的數(shù)據(jù)庫相連的,所以一般來講我們輸入的參考基因組的NCBI登記號能夠很輕易找到并在線導(dǎo)入枚碗。
前面的選項(xiàng)設(shè)置好之后逾一,若無問題,右側(cè)點(diǎn)擊提交肮雨,等待一會兒即可出結(jié)果遵堵。注釋結(jié)果會在服務(wù)器中保存一段時間(時間不是長達(dá)幾周,或者你沒有手動刪除的話)怨规,期間若你瀏覽器關(guān)閉后再次打開GeSeq網(wǎng)站陌宿,會自動加載來的結(jié)果。
序列上傳注釋及結(jié)果說明
下面我們以某植物葉綠體基因組為例波丰,演示該網(wǎng)站的使用壳坪。該基因組以fasta格式存儲,文件名稱“test.fasta”掰烟,里面包含一條完整的環(huán)狀葉綠體序列爽蝴,序列id為contig1。(我這兒就不把這段序列上傳了纫骑,后面的步驟蝎亚,大家使用自己的序列模仿著來即可;若是覺得葉綠體注釋繁瑣先馆,可以換個動物線粒體嘗試)
對于該葉綠體序列发框,我們的參數(shù)設(shè)置如下。
最后提交煤墙,等待出結(jié)果梅惯。
點(diǎn)擊查看文件宪拥,在打開的文件中點(diǎn)擊“Download”可將結(jié)果下載到本地。
Genbank注釋結(jié)果文件铣减。
GFF注釋結(jié)果文件她君。
基因核酸序列fasta文件。
檢查結(jié)果的完整性徙歼,以及后續(xù)調(diào)整
是不是覺得注釋完成了犁河?不,我們還需檢查結(jié)果的完整性魄梯、可靠性桨螺。
GeSeq的結(jié)果文件需要后續(xù)調(diào)整后才能使用,不信你運(yùn)行一個后點(diǎn)開gff文件查看酿秸,里面的順序亂糟糟的灭翔,你得調(diào)整……不過這倒不是主要的問題,首先要查看的就是我們的基因組中辣苏,蛋白編碼基因和非編碼RNA區(qū)域是否有遺漏的肝箱,或者沒注釋完全的。
就我個人而言稀蟋,我習(xí)慣下載下來Genbank注釋文件后煌张,在Genbank文件中修改。因?yàn)镚enbank文件中的內(nèi)容全面退客,而且改好這一個后可以直接基于gbk文件再轉(zhuǎn)成gff文件骏融、基因核酸序列fasta文件、基因編碼氨基酸序列fasta文件萌狂、上傳NCBI用的tbl文件等档玻。這樣也就相當(dāng)于對其它的文件同時作修改了,就無須再單獨(dú)修改原始的gff茫藏、fasta文件之類的了误趴,快捷而高效。
我繼續(xù)舉一些經(jīng)驗(yàn)例子吧务傲。我習(xí)慣的做法凉当,打開參考基因組的gbk文件,以及GeSeq注釋得到的gbk售葡、文件看杭,兩者之間相互比較(眼睛看,嗯嗯天通,一定要仔細(xì)啊)泊窘,看自己的注釋結(jié)果和參考基因組的在哪里出現(xiàn)了不同熄驼。
備注:為了更方便比較像寒,推薦在基因組注釋前烘豹,將你的葉綠體基因組序列的起點(diǎn)調(diào)整為與參考基因組序列一致。(調(diào)整起點(diǎn)只對環(huán)狀序列適用)
一般來講诺祸,近源物種的葉綠體基因組還是非常保守的(無論種類還是堿基組成)携悯,所以大部分基因、RNA等位置都是一致的筷笨。對于不一致的區(qū)域憔鬼,根據(jù)注釋得到的基因(或RNA)名稱,看參考基因組中這段位置是否是這個基因胃夏,以及上下游的基因是否一致轴或。如果這兒缺少基因了,不妨重新調(diào)整參數(shù)注釋(比方說blast參數(shù)調(diào)寬松一些仰禀,開啟hmmer比對照雁,若有未得到的RNA,還可啟用從頭預(yù)測的方法)答恶;不行的話還需結(jié)合其它的細(xì)胞器注釋工具獲得(GeSeq網(wǎng)站中也列出了一系列可用的替代工具饺蚊,https://chlorobox.mpimp-golm.mpg.de/Alternative-Tools.html),或者手動查找悬嗓,比方說本地blast等污呼,雖然繁瑣但也是沒辦法的事情。若出現(xiàn)多出來的基因包竹,先看下這個基因的blast結(jié)果是否嚴(yán)謹(jǐn)燕酷,如果coverage也就40%的那種,那么基本就可斷定這條注釋是錯誤的映企,需要剔除悟狱。
經(jīng)常會出現(xiàn)相差一些堿基的情形,對于非編碼RNA還好說(這個只需找到核酸序列就行了)堰氓,相差幾個堿基也能說得過去挤渐;關(guān)鍵在于蛋白編碼基因區(qū)域的確定(這個還需給出完整的編碼氨基酸序列,需要明確起始双絮、終止密碼子的位置)浴麻,這個就嚴(yán)格了,相差幾個堿基就得不到有效的編碼產(chǎn)物囤攀。GeSeq注釋結(jié)果中软免,經(jīng)常會遇到這樣的情形。參考基因組與你的基因組親緣關(guān)系越遠(yuǎn)焚挠,就越容易出現(xiàn)未能注釋完全的基因結(jié)構(gòu)膏萧,如下示例就是其中情形之一。
那么,碰到這種情況時榛泛,怎么手動補(bǔ)全呢蝌蹂?我繼續(xù)分享經(jīng)驗(yàn)。
這個時候曹锨,我們就要根據(jù)參考基因組和自己基因組中這個基因的位置孤个,手動推測基因邊界,并作鑒定沛简。就以上圖為例吧齐鲤,參考基因組中,該基因“rpl16”的cds區(qū)所在區(qū)域?yàn)椤癹oin(182497..182505,183506..183904)”椒楣,長度為“9bp+399bp”给郊;我們的基因組中,得到的“rpl16”的cds區(qū)位于“183624..184022”捧灰,長度為“399bp”丑罪。這時候我們就很容易推測,GeSeq注釋時只注釋到了后面那一段cds區(qū)域凤壁,未能有效識別前一段cds以及內(nèi)含子結(jié)構(gòu)吩屹,很可能由于這段cds區(qū)長度過短所致。由于葉綠體基因組非常保守(至少近緣物種的是這樣拧抖,變異很小)煤搜,這就很有利于我們準(zhǔn)確推測前面那小段cds區(qū)的位置:對于后面那一段cds區(qū),參考基因組中的位置為“183506..183904”唧席,我們的基因組中的位置為“183624..184022”擦盾,起始和終止位置“相差118bp”,即可知淌哟,前面小段cds區(qū)的“相差間隔”可能也是118bp迹卢,根據(jù)參考基因組中的位置“182497..182505”,推測其在我們的基因組中的位置“182615..182623”徒仓。
好了腐碱,這只是推測,怎么作驗(yàn)證呢掉弛? 最簡單的方法就是把參考基因組中“join(182497..182505,183506..183904)”症见,以及我們的基因組中“join(182615..182623, 183624..184022)”這兩段序列截取下來,比較堿基組成是否一致殃饿。 samtools是個非常不錯的工具谋作,可以在這里用于截取fasta文件中特定位置的序列。
綜上乎芳,我們就明確了基因“rpl16”在我們的基因組中的準(zhǔn)確位置“join(182615..182623, 183624..184022)”遵蚜,然后在GeSeq注釋結(jié)果gbk文件中修改即可帖池。對于蛋白編碼的氨基酸序列,如果基因核酸序列組成和參考基因組一致吭净,這種情況下直接復(fù)制參考基因組該基因編碼的氨基酸序列就可以了(近緣物種葉綠體基因組非常保守碘裕,因此絕大多數(shù)情況下是一樣的);如果有幾個堿基不一致攒钳,這時還得借助其它工具完成翻譯(基因組同源度不高時需要注意,這時候還可能產(chǎn)生提前終止等特殊的情形)雷滋。
好了不撑,上述展示了其中一種需要手動確定基因位置的情況,更多情況因篇幅原因就不再舉例了晤斩』烂剩總之記得,GeSeq的原始注釋結(jié)果一定要檢查的澳泵,可謂是小問題多多实愚。這個過程還是非常麻煩的,而且需要極大的耐心……最后兔辅,你得到了一個校正后的Genbank注釋文件腊敲,你確定無誤了后,就可以將它作個轉(zhuǎn)化了维苔。比如說轉(zhuǎn)成gff文件碰辅、fasta文件、tbl文件等介时,以用于后續(xù)特殊的需要没宾。這種情況下,只對的Genbank注釋文件作調(diào)整沸柔,然后再轉(zhuǎn)化得到其他文件還是蠻省事的循衰,這樣就不用再單獨(dú)對GeSeq注釋所得的原始gff等文件作調(diào)整了。
BioPerl褐澎、Biopython等工具包提供了這類的轉(zhuǎn)化腳本会钝,使用起來很方便,就不多提了工三。大不了使用前搜素一下“genbank轉(zhuǎn)tbl”之類的顽素,網(wǎng)上的方法多的很。
GeSeq的其它功能徒蟆,如基因組圈圖繪制
GeSeq網(wǎng)站中還提供了繪制細(xì)胞器基因組圈圖的界面胁出,GeSeq繪制的圈圖也非常的漂亮。
GeSeq基因組圈圖繪制界面:https://chlorobox.mpimp-golm.mpg.de/OGDraw.html
在該界面中段审,我們上傳一個葉綠體/線粒體基因組gbk文件全蝶,然后調(diào)整好作圖參數(shù)后,提交,等待一會兒便可得到圈圖結(jié)果抑淫。如下示例绷落。
示例圈圖結(jié)果如下,還挺好看的吧始苇。如果你也覺得這張圖挺漂亮的砌烁,那么倒也不必再費(fèi)時間額外使用circos、circlize催式、cgview等工具繪制基因組圈圖了函喉。
————————————————
版權(quán)聲明:本文為CSDN博主「思默的天空」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議荣月,轉(zhuǎn)載請附上原文出處鏈接及本聲明管呵。
原文鏈接:https://blog.csdn.net/weixin_42571476/article/details/112381767