一文理清常見的基因富集分析

前言

對于很多小伙伴來說宣蠕，剛?cè)胧稚艜r接觸最多的就是差異分析脖捻，即在基因組層面可以算突變率差異，轉(zhuǎn)錄組層面可以算基因表達水平差異论巍，表觀組可以觀察甲基化水平差異烛谊，蛋白質(zhì)組/代謝組可以看蛋白/代謝物豐度差異，甚至是宏基因組也可以比較菌群的豐度嘉汰。事實上丹禀，在分子水平的最終落腳點都是在生物學中心法則的核酸水平，確切的說是在基因水平鞋怀，但是基因的種類有很多双泪，包括蛋白編碼基因（mRNA）、非編碼基因（miRNA密似、lncRNA焙矛、snRNA等），理解這些基因所代表的生物學意義的最佳途徑就是基因富集分析残腌。

因此村斟，本文的重點就是圍繞富集分析展開，并主要從以下四個問題講起抛猫，即：什么是富集分析蟆盹？富集分析能用來干什么？富集分析有幾種類型闺金？如何在SCI文章中實現(xiàn)高質(zhì)量富集分析逾滥？

主要內(nèi)容

什么是富集分析？

富集分析的原理其實就是一個生物過程通常是由一組基因共同參與掖看，而不是由單個基因獨自完成匣距。富集分析的基本前提假設(shè)是，如果一個生物學過程在已知的研究中發(fā)生異常哎壳，則共同發(fā)揮功能的基因極可能被選擇出來作為一個與這一過程相關(guān)的基因集合毅待。基因集富集分析（Gene Set Enrichment Analysis, GSEA）通常是分析一組基因在某個功能節(jié)點上是否相比于隨機水平過于出現(xiàn)（over-presentation）归榕。富集分析原理可以由單個基因的簡單注釋尸红，擴展到多個基因集合的成組分析。

富集分析能用來干什么刹泄？

富集分析的作用外里。一組基因直接注釋的結(jié)果是得到大量的功能節(jié)點，這些功能具有概念上的交疊現(xiàn)象特石，導致分析結(jié)果冗余盅蝗，不利于進一步的精細分析，所以研究人員希望對得到的功能節(jié)點加以過濾和篩選姆蘸，以便獲得更有意義的功能信息墩莫。目前最常用的方法是基于GO和KEGG的富集分析芙委。首先通過多種方法多的大量的感興趣的基因，例如差異表達基因集狂秦、共表達基因模塊灌侣、蛋白質(zhì)復合物基因簇等，然后尋找這些感興趣基因集顯著富集的GO節(jié)點或者KEGG通路裂问，這有助于進一步深入細致的實驗研究侧啼。總而言之堪簿，富集分析是用來解讀一組基因背后所代表的生物學知識痊乾，揭示其在細胞內(nèi)或細胞外扮演了什么樣的角色。

富集分析中常用的統(tǒng)計方法有累計超幾何分布戴甩、Fisher精確檢驗等符喝。由于在進行富集分析時通常需要同時進行大量檢驗（多重檢驗），所以需要采用多重檢驗校正的方法對檢驗結(jié)果進行校正甜孤，常用的校正方法包括Bonferroni校正、Benjiamini false discovery rate校正畏腕。利用富集分析方法缴川，對基因注釋數(shù)據(jù)庫做生物信息學研究產(chǎn)生了很多富集分析工具，例如DAVID在線分析工具描馅、R clusterProfiler包把夸、Metascape等，這些工具對促進基因功能分析以及研究高通量測序技術(shù)產(chǎn)生的生物學知識數(shù)據(jù)發(fā)揮了關(guān)鍵作用铭污。因為網(wǎng)絡(luò)上相關(guān)的教程有很多恋日，本初不再贅述，大家可以自行檢索嘹狞，文末列舉了幾個小編認為適合上手的教程岂膳。

富集分析有幾種類型？

依據(jù)富集分析過程中基因選擇磅网、注釋數(shù)據(jù)庫的不同谈截，常用的富集分析可以分為以下四種類型：GO term功能富集、KEGG pathway通路富集涧偷、MSigDB基因集富集和單基因富集等等簸喂。

GO term功能富集

基因本體（gene ontology， GO）數(shù)據(jù)庫是GO組織在2000年構(gòu)建的一個結(jié)構(gòu)化的標準生物學模型燎潮，涵蓋了細胞組分喻鳄、分子功能、生物學過程三個方面确封，是目前應(yīng)用最廣泛的基因注釋體系之一除呵。GO的注釋體系是一個有向無環(huán)圖再菊，包含三個分支，注釋系統(tǒng)中每一個節(jié)點都是基因或蛋白質(zhì)的一種描述竿奏，節(jié)點之間保持嚴格的“父子”關(guān)系袄简。因此，一個基因或蛋白質(zhì)可以從三個層面得到注釋泛啸。

KEGG pathway通路富集

京都基因與基因組百科全書（Kyoto encyclopedia of genes and genomes, KEGG）是系統(tǒng)分析基因功能绿语、基因組信息的數(shù)據(jù)庫，整合了基因組學候址、生物化學及系統(tǒng)功能組學的信息吕粹，有助于研究者把基因及表達信息作為一個整體進行研究。目前KEGG共包含了19個子數(shù)據(jù)庫岗仑，富集分析常用在KEGG Pathway通路中匹耕。

MSigDB基因集富集

MSigDB數(shù)據(jù)庫定義了已知的基因集合，包括H和C1-C7八個系列（Collection）荠雕。H: hallmark gene sets （效應(yīng)）特征基因集合稳其，共50組；C1: positional gene sets 位置基因集合炸卑，根據(jù)染色體位置既鞠，共326個；C2: curated gene sets：（專家）共識基因集合盖文，基于通路嘱蛋、文獻等，包括KEGG五续；C3: motif gene sets：模式基因集合洒敏，主要包括microRNA和轉(zhuǎn)錄因子靶基因兩部分；C4: computational gene sets：計算基因集合疙驾，通過挖掘癌癥相關(guān)芯片數(shù)據(jù)定義的基因集合凶伙；C5: GO gene sets：Gene Ontology 基因本體論；C6: oncogenic signatures：癌癥特征基因集合荆萤，大部分來源于NCBI GEO 未發(fā)表芯片數(shù)據(jù)镊靴；C7: immunologic signatures: 免疫相關(guān)基因集合×淳拢可以從中獲取大量的已知基因集合從而進行富集分析偏竟。

單基因富集

單基因富集分析并不是說拿單個基因來進行富集分析，一個基因根本沒法進行統(tǒng)計檢驗敞峭。而是基于單個基因來抓取與其相關(guān)的基因踊谋，然后用這些相關(guān)的基因來進行功能富集，有兩種方法：差異法和相關(guān)法旋讹。

差異法：根據(jù)給定的一個基因的表達值對樣本進行分組殖蚕，然后計算組間的差異表達基因轿衔，進而利用差異基因進行富集分析。

相關(guān)法：計算給定的一個基因的表達值與其他基因之間的相關(guān)性睦疫，將具有顯著相關(guān)的基因作為一個集合進行富集分析害驹。

如何在SCI文章中實現(xiàn)高質(zhì)量富集分析？

接下來從三篇SCI文章當中看一下如何將其應(yīng)用蛤育。

（一）富集分析揭示腫瘤亞型

2021年8月份發(fā)表在JCI Insight（IF=8.311）上的研究Key molecular alterations in endothelial cells in human glioblastoma uncovered through single-cell RNA sequencing宛官，從單細胞角度對膠質(zhì)母細胞瘤中的內(nèi)皮譜系細胞進行的降維、聚類瓦糕，識別到五個亞群底洗，通過計算亞群特異的差異表達基因，進而使用差異表達基因針對GO進行功能富集分析咕娄，揭示了這5個亞群特異的生物學功能亥揖，進而完成了膠質(zhì)母細胞瘤的亞型區(qū)分，后續(xù)進行亞型刻畫及生存預(yù)后分析圣勒。

圖片

（二）富集分析常見套路

2020年12月份發(fā)表在Medicine (Baltimore) （IF=1.880）的文章Screening and identification of key genes between liver hepatocellular carcinoma (LIHC) and cholangiocarcinoma (CHOL) by bioinformatic analysis费变，從GEO數(shù)據(jù)庫搜索相關(guān)數(shù)據(jù)，一共找到三套數(shù)據(jù)圣贸，分別下載整理進行差異分析胡控，對三套數(shù)據(jù)分析得到的差異基因取交集，一共得到170個差異基因旁趟，將上述得到的170個差異基因進行GO富集分析、KEGG富集分析庇绽，揭示關(guān)鍵功能锡搜。后續(xù)進行hub基因識別、生存分析驗證瞧掺，足以發(fā)SCI文章耕餐。

圖片

（三）富集分析常見用法

2021年4月發(fā)表在Medicine (Baltimore) （IF=1.880）的文章Identification and analysis of key genes associated with acute myocardial infarction by integrated bioinformatics methods。

基本思路是差異分析辟狈、GO和KEGG富集分析肠缔、PPI分析、篩選hub基因哼转。通過進行差異分析明未，分別從GSE66360成功鑒定出289個上調(diào)的DEG和62個下調(diào)的DEG。并且它們主要在富集在嗜中性粒細胞活化壹蔓，免疫反應(yīng)趟妥，細胞因子，核因子κB（NF-κB）信號通路佣蓉，IL-17信號通路和腫瘤壞死因子（TNF）信號通路披摄。根據(jù)蛋白質(zhì)間相互作用（PPI）的數(shù)據(jù)亲雪，對排名前10位的hub基因進行了排序，包括白介素8（CXCL8）疚膊，TNF义辕，N-甲酰基肽受體2（FPR2）寓盗，生長調(diào)節(jié)型α蛋白（CXCL1）灌砖，轉(zhuǎn)錄因子AP-1（JUN），白介素1β（IL1B）贞让，血小板堿性蛋白（PPBP）周崭，基質(zhì)金屬蛋白酶9（MMP9），toll樣受體2（TLR2）和高親和力免疫球蛋白ε受體亞基γ（ FCER1G）喳张。此外续镇，相關(guān)分析的結(jié)果表明，這10個hub基因之間存在正相關(guān)销部。

圖片

小結(jié)

事實上摸航，富集分析的本質(zhì)就是聚類分析，即是把眾多基因根據(jù)它們承擔的功能進行分類舅桩，或者說承擔類似功能的基因更容易被分到一起酱虎，這也是基因集概念提出的初衷。但是需要注意的是擂涛，不同基因組合在不同生物背景下可能承擔不同的功能读串，因此也造就了用于描述不同功能的眾多基因集。特別是主要揭示免疫系統(tǒng)功能的C7數(shù)據(jù)集撒妈，其包含的主要基因集就是不同處理或者處理時間下基因的改變恢暖。

因此，在實際應(yīng)用中狰右，我們需要根據(jù)需要選擇相應(yīng)的基因集的集合去篩選和我們研究對象相關(guān)的功能變化杰捂。從而將眾多差異基因進行歸類，最終將和假說相關(guān)的備選基因挑選出來進行后續(xù)實驗的驗證棋蚌。

好啦嫁佳，本期分享到這就結(jié)束啦，我們下期再會~~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末谷暮，一起剝皮案震驚了整個濱河市蒿往，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌坷备，老刑警劉巖熄浓，帶你破解...
沈念sama閱讀 216,324評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡赌蔑，警方通過查閱死者的電腦和手機俯在，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,356評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來娃惯，“玉大人跷乐，你說我怎么就攤上這事≈呵常” “怎么了愕提？”我有些...
開封第一講書人閱讀 162,328評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長皿哨。經(jīng)常有香客問我浅侨，道長，這世上最難降的妖魔是什么证膨？我笑而不...
開封第一講書人閱讀 58,147評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任如输，我火速辦了婚禮，結(jié)果婚禮上央勒，老公的妹妹穿的比我還像新娘不见。我一直安慰自己，他們只是感情好崔步，可當我...
茶點故事閱讀 67,160評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布稳吮。她就那樣靜靜地躺著，像睡著了一般井濒。火紅的嫁衣襯著肌膚如雪灶似。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,115評論 1贊 296
城市分裂傳說
那天瑞你，我揣著相機與錄音喻奥，去河邊找鬼。笑死捏悬，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的润梯。我是一名探鬼主播过牙，決...
沈念sama閱讀 40,025評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼纺铭！你這毒婦竟也來了寇钉？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,867評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤舶赔，失蹤者是張志新（化名）和其女友劉穎扫倡，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,307評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡撵溃，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,528評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年疚鲤，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缘挑。...
茶點故事閱讀 39,688評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡集歇，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出语淘，到底是詐尸還是另有隱情诲宇，我是刑警寧澤，帶...
沈念sama閱讀 35,409評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布惶翻，位于F島的核電站姑蓝，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏吕粗。R本人自食惡果不足惜纺荧，卻給世界環(huán)境...
茶點故事閱讀 41,001評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望溯泣。院中可真熱鬧虐秋，春花似錦、人聲如沸垃沦。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,657評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽肢簿。三九已至靶剑，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間池充，已是汗流浹背桩引。一陣腳步聲響...
開封第一講書人閱讀 32,811評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留收夸，地道東北人坑匠。一個月前我還...
沈念sama閱讀 47,685評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像卧惜，于是被迫代替她去往敵國和親厘灼。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,573評論 2贊 353