一睛约、基本內(nèi)容回顧:
1哭尝、基因本體論(GO)主要用于幫助我們理解高通量組學(xué)實(shí)驗(yàn)結(jié)果哥攘,把那些差異表達(dá)的基因整理成一組具有相似功能的基因。然而,GO本身是分層次的逝淹,這就導(dǎo)致我們得到的富集結(jié)果往往會(huì)重復(fù)耕姊,有時(shí)很難理解。為了讓這些結(jié)果更簡(jiǎn)潔清晰栅葡,我們可以通過比較術(shù)語之間的語義相似性茉兰,把相似的術(shù)語歸為一組,從而減少冗余并更容易解釋欣簇,實(shí)現(xiàn)GO功能降維聚類规脸。
2、GO圖是用有向無環(huán)圖表示生物學(xué)術(shù)語之間的層次關(guān)系熊咽,節(jié)點(diǎn)代表術(shù)語莫鸭,邊表示術(shù)語之間的不同關(guān)系,計(jì)算術(shù)語相似性則是衡量基因功能相似性的基礎(chǔ)横殴。
4被因、計(jì)算GO術(shù)語相似性的方法最早借鑒了文本分析中的語義相似性度量。2003年衫仑,Lord等人首次使用Resnik方法計(jì)算GO術(shù)語的相似性梨与。經(jīng)過多年的發(fā)展,學(xué)者們提出了四種主要的計(jì)算方法:基于路徑距離文狱、基于信息量粥鞋、基于向量空間和基于融合的方法。
二瞄崇、上手操作
1呻粹、接下來,我們通過兩種R語言方法包實(shí)現(xiàn)基因功能相似性分析苏研,并進(jìn)行功能聚類或術(shù)語概括尚猿。
不用準(zhǔn)備數(shù)據(jù),本次用內(nèi)置數(shù)據(jù)操作楣富。
(1) 基于ClusterProfiler包
以下是出圖以及完整的R代碼,包含了數(shù)據(jù)加載伴榔、GO富集分析纹蝴、術(shù)語相似性計(jì)算、聚類和可視化的步驟踪少√涟玻可以使用它來進(jìn)行基因功能相似性分析,并將結(jié)果保存為PNG和PDF文件援奢。
注:
在ClusterProfiler包中兼犯,`treeplot()`函數(shù)可以用來執(zhí)行GO富集術(shù)語的層次聚類。它依賴于`pairwise_termsim()`函數(shù)計(jì)算GO術(shù)語的成對(duì)相似性,默認(rèn)使用Jaccard相似性指數(shù)(JC)切黔,但也可以選擇使用語義相似度值砸脊。?
`treeplot()`的默認(rèn)聚類方法是`ward.D`,用戶可以通過`hclust_method`參數(shù)選擇其他方法纬霞,如“average”凌埂、“complete”、“median”诗芜、“centroid”等瞳抓。?
`treeplot()`函數(shù)將聚類結(jié)果以樹狀圖的形式展示,并可以通過`nCluster`參數(shù)(默認(rèn)值為5)將樹切割成多個(gè)子樹伏恐,并為每個(gè)子樹標(biāo)記高頻詞組孩哑,從而減少GO富集結(jié)果的復(fù)雜性。
(2) 基于rrvgo包
rrvgo包可以像ClusterProfiler包一樣進(jìn)行GO功能富集分析的聚類翠桦,關(guān)鍵是它使用GO術(shù)語而不是基因來進(jìn)行分析横蜒。
首先,從一個(gè)富含感興趣基因的列表開始秤掌,使用GO術(shù)語進(jìn)行富集分析愁铺。rrvgo處理的輸入是GO術(shù)語和(可選的)分?jǐn)?shù)。如果沒有分?jǐn)?shù)闻鉴,rrvgo會(huì)用術(shù)語大小作為默認(rèn)分?jǐn)?shù)茵乱。然后,它會(huì)計(jì)算術(shù)語之間的相似度矩陣孟岛,并通過降維方法來簡(jiǎn)化分析瓶竭。
2荧恍、進(jìn)行可視化分析
生物信息學(xué)領(lǐng)域非常廣泛第练,難以一次說盡阔馋。我們下次繼續(xù)更新,一起深入學(xué)習(xí)生物信息學(xué)的內(nèi)容娇掏!
喜歡的寶子們點(diǎn)個(gè)贊吧~碼字不易呕寝,且行且珍惜~