前言
對于很多小伙伴來說宣蠕,剛?cè)胧稚艜r接觸最多的就是差異分析脖捻,即在基因組層面可以算突變率差異,轉(zhuǎn)錄組層面可以算基因表達水平差異论巍,表觀組可以觀察甲基化水平差異烛谊,蛋白質(zhì)組/代謝組可以看蛋白/代謝物豐度差異,甚至是宏基因組也可以比較菌群的豐度嘉汰。事實上丹禀,在分子水平的最終落腳點都是在生物學中心法則的核酸水平,確切的說是在基因水平鞋怀,但是基因的種類有很多双泪,包括蛋白編碼基因(mRNA)、非編碼基因(miRNA密似、lncRNA焙矛、snRNA等),理解這些基因所代表的生物學意義的最佳途徑就是基因富集分析残腌。
因此村斟,本文的重點就是圍繞富集分析展開,并主要從以下四個問題講起抛猫,即:什么是富集分析蟆盹?富集分析能用來干什么?富集分析有幾種類型闺金?如何在SCI文章中實現(xiàn)高質(zhì)量富集分析逾滥?
主要內(nèi)容
什么是富集分析?
富集分析的原理其實就是一個生物過程通常是由一組基因共同參與掖看,而不是由單個基因獨自完成匣距。富集分析的基本前提假設(shè)是,如果一個生物學過程在已知的研究中發(fā)生異常哎壳,則共同發(fā)揮功能的基因極可能被選擇出來作為一個與這一過程相關(guān)的基因集合毅待。基因集富集分析(Gene Set Enrichment Analysis, GSEA)通常是分析一組基因在某個功能節(jié)點上是否相比于隨機水平過于出現(xiàn)(over-presentation)归榕。富集分析原理可以由單個基因的簡單注釋尸红,擴展到多個基因集合的成組分析。
富集分析能用來干什么刹泄?
富集分析的作用外里。一組基因直接注釋的結(jié)果是得到大量的功能節(jié)點,這些功能具有概念上的交疊現(xiàn)象特石,導致分析結(jié)果冗余盅蝗,不利于進一步的精細分析,所以研究人員希望對得到的功能節(jié)點加以過濾和篩選姆蘸,以便獲得更有意義的功能信息墩莫。目前最常用的方法是基于GO和KEGG的富集分析芙委。首先通過多種方法多的大量的感興趣的基因,例如差異表達基因集狂秦、共表達基因模塊灌侣、蛋白質(zhì)復合物基因簇等,然后尋找這些感興趣基因集顯著富集的GO節(jié)點或者KEGG通路裂问,這有助于進一步深入細致的實驗研究侧啼。總而言之堪簿,富集分析是用來解讀一組基因背后所代表的生物學知識痊乾,揭示其在細胞內(nèi)或細胞外扮演了什么樣的角色。
富集分析中常用的統(tǒng)計方法有累計超幾何分布戴甩、Fisher精確檢驗等符喝。由于在進行富集分析時通常需要同時進行大量檢驗(多重檢驗),所以需要采用多重檢驗校正的方法對檢驗結(jié)果進行校正甜孤,常用的校正方法包括Bonferroni校正、Benjiamini false discovery rate校正畏腕。利用富集分析方法缴川,對基因注釋數(shù)據(jù)庫做生物信息學研究產(chǎn)生了很多富集分析工具,例如DAVID在線分析工具描馅、R clusterProfiler包把夸、Metascape等,這些工具對促進基因功能分析以及研究高通量測序技術(shù)產(chǎn)生的生物學知識數(shù)據(jù)發(fā)揮了關(guān)鍵作用铭污。因為網(wǎng)絡(luò)上相關(guān)的教程有很多恋日,本初不再贅述,大家可以自行檢索嘹狞,文末列舉了幾個小編認為適合上手的教程岂膳。
富集分析有幾種類型?
依據(jù)富集分析過程中基因選擇磅网、注釋數(shù)據(jù)庫的不同谈截,常用的富集分析可以分為以下四種類型:GO term功能富集、KEGG pathway通路富集涧偷、MSigDB基因集富集和單基因富集等等簸喂。
GO term功能富集
基因本體(gene ontology, GO)數(shù)據(jù)庫是GO組織在2000年構(gòu)建的一個結(jié)構(gòu)化的標準生物學模型燎潮,涵蓋了細胞組分喻鳄、分子功能、生物學過程三個方面确封,是目前應(yīng)用最廣泛的基因注釋體系之一除呵。GO的注釋體系是一個有向無環(huán)圖再菊,包含三個分支,注釋系統(tǒng)中每一個節(jié)點都是基因或蛋白質(zhì)的一種描述竿奏,節(jié)點之間保持嚴格的“父子”關(guān)系袄简。因此,一個基因或蛋白質(zhì)可以從三個層面得到注釋泛啸。
KEGG pathway通路富集
京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes, KEGG)是系統(tǒng)分析基因功能绿语、基因組信息的數(shù)據(jù)庫,整合了基因組學候址、生物化學及系統(tǒng)功能組學的信息吕粹,有助于研究者把基因及表達信息作為一個整體進行研究。目前KEGG共包含了19個子數(shù)據(jù)庫岗仑,富集分析常用在KEGG Pathway通路中匹耕。
MSigDB基因集富集
MSigDB數(shù)據(jù)庫定義了已知的基因集合,包括H和C1-C7八個系列(Collection)荠雕。H: hallmark gene sets (效應(yīng))特征基因集合稳其,共50組;C1: positional gene sets 位置基因集合炸卑,根據(jù)染色體位置既鞠,共326個;C2: curated gene sets:(專家)共識基因集合盖文,基于通路嘱蛋、文獻等,包括KEGG五续;C3: motif gene sets:模式基因集合洒敏,主要包括microRNA和轉(zhuǎn)錄因子靶基因兩部分;C4: computational gene sets:計算基因集合疙驾,通過挖掘癌癥相關(guān)芯片數(shù)據(jù)定義的基因集合凶伙;C5: GO gene sets:Gene Ontology 基因本體論;C6: oncogenic signatures:癌癥特征基因集合荆萤,大部分來源于NCBI GEO 未發(fā)表芯片數(shù)據(jù)镊靴;C7: immunologic signatures: 免疫相關(guān)基因集合×淳拢可以從中獲取大量的已知基因集合從而進行富集分析偏竟。
單基因富集
單基因富集分析并不是說拿單個基因來進行富集分析,一個基因根本沒法進行統(tǒng)計檢驗敞峭。而是基于單個基因來抓取與其相關(guān)的基因踊谋,然后用這些相關(guān)的基因來進行功能富集,有兩種方法:差異法和相關(guān)法旋讹。
差異法:根據(jù)給定的一個基因的表達值對樣本進行分組殖蚕,然后計算組間的差異表達基因轿衔,進而利用差異基因進行富集分析。
相關(guān)法:計算給定的一個基因的表達值與其他基因之間的相關(guān)性睦疫,將具有顯著相關(guān)的基因作為一個集合進行富集分析害驹。
如何在SCI文章中實現(xiàn)高質(zhì)量富集分析?
接下來從三篇SCI文章當中看一下如何將其應(yīng)用蛤育。
(一)富集分析揭示腫瘤亞型
2021年8月份發(fā)表在JCI Insight(IF=8.311)上的研究Key molecular alterations in endothelial cells in human glioblastoma uncovered through single-cell RNA sequencing宛官,從單細胞角度對膠質(zhì)母細胞瘤中的內(nèi)皮譜系細胞進行的降維、聚類瓦糕,識別到五個亞群底洗,通過計算亞群特異的差異表達基因,進而使用差異表達基因針對GO進行功能富集分析咕娄,揭示了這5個亞群特異的生物學功能亥揖,進而完成了膠質(zhì)母細胞瘤的亞型區(qū)分,后續(xù)進行亞型刻畫及生存預(yù)后分析圣勒。
(二)富集分析常見套路
2020年12月份發(fā)表在Medicine (Baltimore) (IF=1.880)的文章Screening and identification of key genes between liver hepatocellular carcinoma (LIHC) and cholangiocarcinoma (CHOL) by bioinformatic analysis费变,從GEO數(shù)據(jù)庫搜索相關(guān)數(shù)據(jù),一共找到三套數(shù)據(jù)圣贸,分別下載整理進行差異分析胡控,對三套數(shù)據(jù)分析得到的差異基因取交集,一共得到170個差異基因旁趟,將上述得到的170個差異基因進行GO富集分析、KEGG富集分析庇绽,揭示關(guān)鍵功能锡搜。后續(xù)進行hub基因識別、生存分析驗證瞧掺,足以發(fā)SCI文章耕餐。
(三)富集分析常見用法
2021年4月發(fā)表在Medicine (Baltimore) (IF=1.880)的文章Identification and analysis of key genes associated with acute myocardial infarction by integrated bioinformatics methods。
基本思路是差異分析辟狈、GO和KEGG富集分析肠缔、PPI分析、篩選hub基因哼转。通過進行差異分析明未,分別從GSE66360成功鑒定出289個上調(diào)的DEG和62個下調(diào)的DEG。并且它們主要在富集在嗜中性粒細胞活化壹蔓,免疫反應(yīng)趟妥,細胞因子,核因子κB(NF-κB)信號通路佣蓉,IL-17信號通路和腫瘤壞死因子(TNF)信號通路披摄。根據(jù)蛋白質(zhì)間相互作用(PPI)的數(shù)據(jù)亲雪,對排名前10位的hub基因進行了排序,包括白介素8(CXCL8)疚膊,TNF义辕,N-甲酰基肽受體2(FPR2)寓盗,生長調(diào)節(jié)型α蛋白(CXCL1)灌砖,轉(zhuǎn)錄因子AP-1(JUN),白介素1β(IL1B)贞让,血小板堿性蛋白(PPBP)周崭,基質(zhì)金屬蛋白酶9(MMP9),toll樣受體2(TLR2)和高親和力免疫球蛋白ε受體亞基γ( FCER1G)喳张。此外续镇,相關(guān)分析的結(jié)果表明,這10個hub基因之間存在正相關(guān)销部。
小結(jié)
事實上摸航,富集分析的本質(zhì)就是聚類分析,即是把眾多基因根據(jù)它們承擔的功能進行分類舅桩,或者說承擔類似功能的基因更容易被分到一起酱虎,這也是基因集概念提出的初衷。但是需要注意的是擂涛,不同基因組合在不同生物背景下可能承擔不同的功能读串,因此也造就了用于描述不同功能的眾多基因集。特別是主要揭示免疫系統(tǒng)功能的C7數(shù)據(jù)集撒妈,其包含的主要基因集就是不同處理或者處理時間下基因的改變恢暖。
因此,在實際應(yīng)用中狰右,我們需要根據(jù)需要選擇相應(yīng)的基因集的集合去篩選和我們研究對象相關(guān)的功能變化杰捂。從而將眾多差異基因進行歸類,最終將和假說相關(guān)的備選基因挑選出來進行后續(xù)實驗的驗證棋蚌。
好啦嫁佳,本期分享到這就結(jié)束啦,我們下期再會~~