一直很好奇GO注釋文件中的信息是如何得到的驼抹,終于在《The Gene Ontology Handbook》中找到了答案。
GO的原始文件可以分為兩部分:ontology和association files。
1术荤、ontology
該文件以obo格式儲(chǔ)存萝玷,每個(gè)詞條都以樹狀結(jié)構(gòu)表示著和其他詞條的關(guān)系,具體內(nèi)容可以從GO網(wǎng)站中找到蹦浦,其中的元素和邏輯關(guān)系可以簡(jiǎn)單參考上幾篇文章扭吁。主要編輯工具有g(shù)o-basic、go和go-plus三個(gè)。
2侥袜、association files
這部分文件主要是關(guān)于GO詞條的具體功能信息蝌诡,以及相關(guān)的支撐信息,以GAF或GPAD格式儲(chǔ)存枫吧。
如何對(duì)基因進(jìn)行注釋
目前對(duì)基因的注釋主要有兩種手段:人工注釋和機(jī)器注釋浦旱。
1、人工注釋
人工注釋由專業(yè)人士(biocurators)通過(guò)閱讀九杂,提取和轉(zhuǎn)化文獻(xiàn)中的實(shí)驗(yàn)結(jié)果來(lái)對(duì)基因進(jìn)行注釋颁湖。人工注釋費(fèi)時(shí)費(fèi)力,但他們的努力非常重要例隆,因?yàn)槿斯ぷ⑨尩臏?zhǔn)確性是其他注釋的基石甥捺,目前有20個(gè)團(tuán)隊(duì)為GO的人工注釋貢獻(xiàn)力量。
2镀层、機(jī)器注釋
機(jī)器注釋主要兩大類方法:根據(jù)序列進(jìn)行注釋和文本挖掘的方法注釋镰禾。
1、根據(jù)序列信息進(jìn)行注釋:
annotation transfers from Homologous proteins
annotation transfers from Orthologous proteins
annotation transfers from Protein families
2唱逢、文本挖掘注釋
Automatic text categorization
Lexical approaches
k-Nearest neighbors
Properties of Lexical and k-NN categorizers
Inter-annotator agreement
每種方法的具體解釋參考《The Gene Ontology Handbook》的相關(guān)章節(jié)吴侦。