what is Gene Ontology ?——基因本體論
1 , 什么是本體論咪笑?
簡(jiǎn)單來(lái)說(shuō)可帽,就是我們對(duì)一個(gè)具體事物進(jìn)行分類(lèi)并予以描述。
例如:貓是一種哺乳動(dòng)物/貓是貓科動(dòng)物/貓是一種生活在陸地的生物等等窗怒。對(duì)于一事物映跟,我們可以用不同的分類(lèi)加以描述。因此扬虚,對(duì)于gene的本體論努隙,是對(duì)gene的一種描述。而對(duì)gene的描述大概分三種:
① Cellular component 簡(jiǎn)稱CC
② Biological process 簡(jiǎn)稱BP
③ Molecular Function 簡(jiǎn)稱MF
下面一一進(jìn)行介紹
① 主要是看gene存在在哪辜昵,比如存在在細(xì)胞質(zhì)還是細(xì)胞核荸镊,假如存在在細(xì)胞質(zhì),又存在在哪個(gè)細(xì)胞器呢堪置?亦或者存在在線粒體中躬存,是在線粒體膜上,還是線粒體機(jī)制中舀锨。
②指它能參與哪些生物學(xué)過(guò)程岭洲,比如說(shuō)能夠參與RNA的加工,DNA復(fù)制等
③指從分子層面的功能是什么坎匿,比如說(shuō)它具有什么催化功能分子功能等
所以盾剩, 我們可以從這三個(gè)方面得到基因的注釋信息雷激。
2, 讓我們來(lái)捋一捋具體的思路:
① RNA-Seq 一般分為處理組和對(duì)照組 彪腔, 即contral 和 treatment , 然后根據(jù)ctrl 和 treatment的表達(dá)譜進(jìn)行比較找出來(lái)DEG(differential expression gene : 差異表達(dá)基因侥锦,后續(xù)會(huì)更新怎么找出差異基因)。
② 我們得到DEG后德挣,對(duì)其進(jìn)行GO annotation (GO 注釋恭垦,即上面介紹的對(duì)gene 的描述), 我們期望可以在這三方面找到我們想要的以及未知的發(fā)現(xiàn)。
③那么下面一步就略微難理解格嗅, 比如說(shuō)番挺,我有200個(gè)DEG ,100個(gè)在細(xì)胞核中,那么我們可以說(shuō)基因富集在了細(xì)胞核嗎屯掖?所以引出另外一個(gè)問(wèn)題玄柏,How to test the GO is enriched ? 所以就有了GO 富集分析。對(duì)于模式生物(比如人)贴铜,GO注釋已經(jīng)有了完備的數(shù)據(jù)庫(kù)可以使用粪摘。
個(gè)人通俗理解:從2000個(gè)基因碰到注釋為通路A的概率為1/20 , 而500個(gè)差異基因里就有300個(gè)脚牍,概率為3/5,所以說(shuō)明跟這條通路可能有關(guān)系巢墅,當(dāng)然具體還是要算P值诸狭。
⑤GSEA分析:Gene Set Enrichment Analysis (基因集富集分析)評(píng)估一個(gè)預(yù)先定義的基因集的基因在與表型相關(guān)度排序的基因表中的分布趨勢(shì),從而判斷其對(duì)表型的貢獻(xiàn)砂缩。需要輸入DEG基因集 作谚,還有其表達(dá)矩陣三娩,R會(huì)基因根據(jù)其于表型的關(guān)聯(lián)度(可以理解為表達(dá)值的變化)從大到小排序庵芭,然后判斷基因集內(nèi)每條注釋下的基因是否富集于表型相關(guān)度排序后基因表的上部或下部,從而判斷此基因集內(nèi)基因的協(xié)同變化對(duì)表型變化的影響雀监。與前面的GO和KEGG富集分析不同,GO和KEGG富集分析是設(shè)置閾值篩選差異基因双吆,再判斷差異基因在哪些注釋的通路存在富集眨唬;這涉及到閾值的設(shè)定,存在一定主觀性并且只能用于表達(dá)變化較大的基因好乐。而GSEA則不局限于差異基因匾竿,從基因集的富集角度出發(fā),可以包括我們篩選掉的表達(dá)變化小卻對(duì)通路細(xì)微作用和協(xié)調(diào)功能的基因蔚万。