基因組注釋(Genome annotation) 是利用生物信息學方法和工具匈庭,對基因組所有基因的生物學功能進行高通量注釋蜂筹,是當前功能基因組學研究的一個熱點檐束。de novo組裝得到的基因組進行的下一步分析就是基因組注釋误算,通常注釋內(nèi)容主要包括以下四個方面:基因結構注釋妒茬、基因功能注釋担锤、重復序列分析、非編碼RNA注釋乍钻。本文主要介紹真核生物中的基因組注釋方法肛循。
(1)基因結構注釋
基因結構預測包括預測基因組中的基因位點、開放性閱讀框架(ORF)银择、翻譯起始位點和終止位點多糠、內(nèi)含子和外顯子區(qū)域、啟動子和終止子浩考、可變剪切位點以及蛋白編碼序列(CDS)等夹孔。需要指出,真核生物基因結構注釋難度較大析孽,主要因為真核生物中的啟動子和終止子等信號位點較為復雜搭伤,且存在廣泛的可變剪切現(xiàn)象,預測真核生物的基因結構常用隱馬科夫模型袜瞬。
基因結構注釋采用從頭測序闷畸,同源預測和基于RNA-Seq的證據(jù)支持預測相結合的方法。利用物種已發(fā)表的基因序列吞滞,蛋白序列佑菩,mRNA/ESTs序列集構建物種的基因結構模型;同時采用從頭測序方法對初始預測模型進行自我訓練裁赠,通過多輪訓練和優(yōu)化殿漠,獲得從頭預測的基因結構模型;利用RNA-Seq數(shù)據(jù)通過Tophat比對得到基因組的內(nèi)含子結構模型及基因側翼序列信息佩捞;最后對上述不同方法預測的結構模型進行整合和優(yōu)化獲得最終的基因結構模型绞幌。
其中,從頭預測主要應用軟件有Augustus一忱、Genscan莲蜘、Glimmer等;同源預測代表軟件包括Genewise(動物)帘营;而基于轉錄組數(shù)據(jù)預測則是由常見的Tophat+cufflinks軟件完成票渠。
圖1. 真核基因結構示意圖
(2)基因功能注釋
全基因組測序將產(chǎn)生大量數(shù)據(jù),此前普遍采用比對方法對對預測出來的編碼基因進行功能注釋芬迄,通過與各種功能數(shù)據(jù)庫(NR问顷、Swiss-Prot 、GO、KOG杜窄、KEGG)進行蛋白質(zhì)比對肠骆,獲取該基因的功能信息。其中GO和KEGG數(shù)據(jù)庫分別在基因功能和代謝通路研究中占據(jù)重要地位塞耕。
圖2. 基因功能注釋
(3)重復序列分析
重復序列廣泛存在于真核生物基因組中蚀腿,這些重復序列或集中成簇,或分散在基因之間扫外,根據(jù)分布把重復序列分為分散重復序列(Interpersed repeat)和串聯(lián)重復序列(Tendam repeat)唯咬。重復序列的注釋主要通過同源注釋和從頭注釋兩種方式進行預測。同源注釋采用RepeatMasker通過與Repbase數(shù)據(jù)庫進行比對尋找基因組中的重復區(qū)域畏浆,并對其進行分類胆胰;從頭注釋采用RepeatModler鑒定重復元件,最后通過整合獲得全基因組的重復序列注釋刻获,從頭注釋能夠發(fā)現(xiàn)未知的新的轉座子元件蜀涨。
圖3.重復序列種類
(4)非編碼RNA注釋
非編碼RNA,指不翻譯成蛋白質(zhì)的RNA蝎毡,如tRNA厚柳,rRNA等。利用tRNAscan-SE對全基因組進行tRNA預測沐兵;利用RNAmmer預測全基因的核糖體RNA别垮;利用Rfam數(shù)據(jù)庫通過cmscan鑒定全基因組non-coding RNA(ncRNA)。
通過基因組注釋獲得的信息可進一步用于后續(xù)比較基因組分析扎谎,例如系統(tǒng)發(fā)育分析碳想、基因家族分析、歷史群體結構分析等毁靶,重復序列的注釋則通畴时迹可用于全基因組加倍事件分析。但我們目前的大部分注釋工作主要建立在與已有數(shù)據(jù)庫的比對基礎上,因此,對某些研究較少的物種限制很大捡鱼。另一方面,序列相似并不表示實際生物學功能相似岩遗,這對于基因功能注釋時會造成較大影響,仍需要進一步完善基因功能注釋工作凤瘦。