bulk轉(zhuǎn)錄組最主要的作用就是根據(jù)基因表達(dá)的變化找到其中蘊(yùn)含的通路機(jī)制
常規(guī)的GO和KEGG分析苍息,屬于超幾何富集算法缩幸,使用的基因數(shù)據(jù)源是我們根據(jù)實(shí)驗(yàn)組vs對(duì)照組所獲得的差異基因壹置,其中差異基因則需要根據(jù)設(shè)置的閾值進(jìn)行判斷,具有一定的主觀性表谊。并且在進(jìn)行DEseq2差異表達(dá)分析時(shí)钞护,低表達(dá)基因的真實(shí)信號(hào)較弱,容易被技術(shù)變異和背景噪聲所覆蓋爆办,從而不被認(rèn)為成差異表達(dá)基因难咕。
而基因富集分析GSEA(gene-set enrichment analysis)無需做差異分析,直接拿所有基因的表達(dá)量即可找到實(shí)驗(yàn)組和對(duì)照組有一致性差異的感興趣的通路。好處就是余佃,不經(jīng)過差異基因篩選暮刃,保留了這些關(guān)鍵信息,進(jìn)而找到那些差異不很明顯但是基因差異趨勢(shì)很一致的功能基因集爆土。
做GSEA富集分析需要準(zhǔn)備兩個(gè)輸入文件椭懊,一個(gè)是基因表達(dá)數(shù)據(jù)文件,另外一個(gè)是實(shí)驗(yàn)設(shè)計(jì)數(shù)據(jù)文件步势,表達(dá)數(shù)據(jù)文件就是基因在每個(gè)樣品里面的一個(gè)表達(dá)量氧猬,這就是RNA-seq標(biāo)準(zhǔn)化處理后的表達(dá)矩陣,即DESeq2分析后導(dǎo)出的“normalized_count.txt”文件坏瘩。
它的第一行是固定格式#1.2盅抚。第二行是基因的數(shù)目和樣品的數(shù)目。第三行是樣品的名稱倔矾,建議順序按照組別進(jìn)行放置妄均。Description這一列必須有可以復(fù)制前面基因名一列。
行是樣本破讨,列是基因名(之間不能有空格)命名不能是“-1”可以是下劃線“_1”
所有基因的表達(dá)矩陣需要去除沒有表達(dá)的基因行丛晦,即表達(dá)值全為0的
基因表達(dá)數(shù)據(jù)文件中的基因名稱形式需要與使用的GMT基因集中的基因名稱一致
先以制表符分隔的.txt作為保存文件的類型,然后修改后綴為.gct
實(shí)驗(yàn)設(shè)計(jì)數(shù)據(jù)文件提陶,第一行分別是樣本數(shù)烫沙,分組數(shù),1隙笆。第二列是 # 兩個(gè)分組名稱锌蓄。第三列是根據(jù)基因表達(dá)數(shù)據(jù)中樣本的順序,0 0 0代表對(duì)照組 1 1 1代表實(shí)驗(yàn)組撑柔。所有間隔以tab鍵分隔瘸爽,不要有多余的間隔。修改后綴為.cls铅忿。
下載GSEA v4.3.3 for Windows本地軟件剪决,先點(diǎn)擊load data,將兩個(gè)輸入文件拖入灰色框內(nèi)檀训,點(diǎn)擊load these files柑潦,顯示There were NO errors即表示文件沒有問題。
然后點(diǎn)擊Run GSEA峻凫,設(shè)置參數(shù)渗鬼,選擇剛剛上傳的表達(dá)數(shù)據(jù)集,選擇參考基因集數(shù)據(jù)庫荧琼,例如我進(jìn)行小鼠的GO bp分析譬胎,選擇m5.go.bp.v2023.2.Mm.symbols.gmt差牛。
Number of permutations:設(shè)置置換次數(shù),通常為1000堰乔。置換次數(shù)越多偏化,結(jié)果越穩(wěn)定但計(jì)算時(shí)間越長(zhǎng)。
Phenotype labels:輸入實(shí)驗(yàn)設(shè)計(jì)文件镐侯,用于定義分組信息夹孔。哪個(gè)樣品在前面,富集結(jié)果就和哪個(gè)組呈正相關(guān)
Collapse/Remap to gene symbols:是否將探針名轉(zhuǎn)化為gene symbol析孽。由于我輸入的是gene symbol搭伤,所以是false
Permutation type(置換類型):這是決定置換時(shí)使用的參考類型⊥嗨玻可以選擇按表型(phenotype)置換或按基因集(gene set)置換怜俐。當(dāng)有兩個(gè)或多個(gè)不同的樣本組(例如對(duì)照組和處理組)時(shí),想要比較處理組和對(duì)照組之間基因表達(dá)的差異邓尤,選擇表型置換拍鲤。當(dāng)有一個(gè)單獨(dú)的樣本組,但想評(píng)估基因集的顯著性時(shí)汞扎,選擇基因集置換季稳。
Chip platform:Collapse/Remap to gene symbols為TRUE才選擇,否則留空
Enrichment statistic:選擇用哪種方法來計(jì)算富集得分澈魄,如weighted景鼠,使用加權(quán)方法。
Metric for ranking genes:選擇哪種方法來對(duì)基因進(jìn)行排序痹扇。Signal2Noise適用于有兩個(gè)對(duì)比組(對(duì)照組和處理組)铛漓,每個(gè)組必須至少有三個(gè)重復(fù),基于兩個(gè)組之間的平均值差異和標(biāo)準(zhǔn)差比值來排序基因鲫构。信號(hào)越大浓恶,噪聲越小,得分越高结笨。tTest:適用于兩個(gè)對(duì)比組的情況包晰,類似于Signal2Noise,使用t檢驗(yàn)統(tǒng)計(jì)量對(duì)基因進(jìn)行排序炕吸,反映兩個(gè)組之間的差異顯著性伐憾。
Gene list sorting mode:基因列表的排序模式。real算途,表示使用真實(shí)值排序塞耕。
Gene list ordering mode:descending蚀腿,表示降序排列嘴瓤。
Max size: exclude larger sets:排除包含基因數(shù)量超過這個(gè)值的基因集扫外。
Min size: exclude smaller sets:排除包含基因數(shù)量少于這個(gè)值的基因集。
Save results in this folder:選擇保存分析結(jié)果的文件夾路徑廓脆。
Collapsing mode for probe sets => 1 gene:在有多個(gè)探針對(duì)應(yīng)同一基因時(shí)筛谚,選擇使用哪一個(gè)探針的數(shù)據(jù)。Max_probe:使用探針集中表達(dá)值最高的探針來代表該基因停忿。
Normalization mode(歸一化模式):meandiv:基于均值和方差進(jìn)行歸一化
Seed for permutation(置換的種子):timestamp:使用時(shí)間戳作為隨機(jī)種子
Randomization mode(隨機(jī)化模式):選擇是否在隨機(jī)化過程中保持組間的平衡驾讲。no_balance:不進(jìn)行平衡隨機(jī)化。
Create GCT files(創(chuàng)建GCT文件):false:不創(chuàng)建GCT文件席赂;Create SVG plot images(創(chuàng)建SVG繪圖):false
Omit features with no symbol match:true:省略沒有匹配到基因符號(hào)的特征(基因)吮铭。
Make detailed gene set report:true:生成詳細(xì)報(bào)告。
Median for class metrics:選擇是否使用中值作為計(jì)算類度量(如富集分?jǐn)?shù))的統(tǒng)計(jì)量
Number of markers:指定要顯示的標(biāo)記基因的數(shù)量颅停。默認(rèn)值為100谓晌。
Plot graphs for the top sets of each phenotype:指定要為每個(gè)表型繪制圖表的top基因集數(shù)量,默認(rèn)值為20癞揉。
Save random ranked lists:選擇是否保存基于隨機(jī)置換生成的基因排序列表纸肉。默認(rèn)false
Make a zipped file with all reports:默認(rèn)false不生成壓縮文件。
Alternate delimiter:指定用于解析輸入文件的備用分隔符喊熟。通常默認(rèn)不需要設(shè)置柏肪。
點(diǎn)擊下方的Run運(yùn)行,點(diǎn)擊最下方可以看到程序運(yùn)行的過程和狀態(tài)
數(shù)據(jù)集介紹
MH: hallmark gene sets
這些基因集總結(jié)并代表了特定生物過程或功能的基因表達(dá)模式芥牌。它們是通過計(jì)算方法從其他基因集集合中提取并映射到小鼠基因的版本烦味。
M1: positional gene sets
這些基因集是按照小鼠染色體的位置分組的。每個(gè)基因集對(duì)應(yīng)于染色體上的一個(gè)特定區(qū)域壁拉,用于研究與染色體特定區(qū)域相關(guān)的基因和功能拐叉。
M2: curated gene sets
這些基因集是從多個(gè)來源整理出來的,包括在線數(shù)據(jù)庫扇商、PubMed文獻(xiàn)以及專家的知識(shí)凤瘦。它們代表了經(jīng)過深入研究的生物通路和功能。M2基因集分為兩個(gè)子集:
CGP (chemical and genetic perturbations):基因表達(dá)特征與化學(xué)或基因干擾相關(guān)案铺。
CP (canonical pathways):經(jīng)典通路蔬芥。
M3: regulatory target gene sets
這些基因集包含與轉(zhuǎn)錄因子或miRNA調(diào)控有關(guān)的目標(biāo)基因。它們是根據(jù)基因在非編碼區(qū)中的相似性來預(yù)測(cè)可能的調(diào)控關(guān)系控汉。M3基因集有兩個(gè)子集:
miRDB gene sets:基于miRDB數(shù)據(jù)庫中高置信度的miRNA靶標(biāo)預(yù)測(cè)笔诵。
GTRD gene sets:基于GTRD數(shù)據(jù)庫的轉(zhuǎn)錄因子結(jié)合位點(diǎn)預(yù)測(cè)。
M5: ontology gene sets
這些基因集按照Gene Ontology(GO)分類姑子。GO是一個(gè)生物學(xué)數(shù)據(jù)庫乎婿,分為以下幾個(gè)部分:
BP (Biological Process):生物過程。
CC (Cellular Component):細(xì)胞成分街佑。
MF (Molecular Function):分子功能谢翎。
M8: cell type signature gene sets
這些基因集包括了通過單細(xì)胞測(cè)序研究識(shí)別的小鼠組織中特定細(xì)胞類型的標(biāo)記基因捍靠,用于研究不同細(xì)胞類型的表達(dá)特征。
在得到的結(jié)果文件夾中首先找到.index.html文件
Enrichment in Phenotype: 1 (和 Phenotype: 0)
基因集上調(diào)情況:在Phenotype 1(即pehnotype labels中在前面的組森逮,這里是實(shí)驗(yàn)組和Phenotype 0(對(duì)照組)中榨婆,上調(diào)的基因集數(shù)量分別為3633/5325和1692/5325。
FDR小于25%的顯著基因集數(shù)量褒侧。在Phenotype 1中良风,有1029個(gè)基因集,而在Phenotype 0中闷供,有104個(gè)基因集烟央。
Nominal p-value:未調(diào)整的p值。顯示在不同顯著性水平下(如p < 1%和p < 5%)富集的基因集數(shù)量歪脏。在Phenotype 1中吊档,分別有585和1061個(gè)基因集顯著,而在Phenotype 0中唾糯,分別有92和147個(gè)基因集顯著怠硼。
富集結(jié)果的概述,根據(jù)Plot graphs for the top sets of each phenotype設(shè)置的默認(rèn)值20移怯,每個(gè)圖都是可以點(diǎn)進(jìn)去的鏈接
這個(gè)通路的富集結(jié)果展示了GOCC_MITOTIC_SPINDLE_POLE基因集在Phenotype 1中上調(diào)的情況柴底。Enrichment Score (ES): 0.5831028尤筐,這個(gè)值表示在排序列表中,基因集中基因的富集程度。ES值越高末秃,表示基因集在該組中富集的程度越高想幻。排序列表中的基因根據(jù)某種統(tǒng)計(jì)量(例如蛀蜜,t檢驗(yàn)或信噪比)從最顯著上調(diào)到最顯著下調(diào)進(jìn)行排序办斑。富集得分ES反映了基因集中基因在整個(gè)排序列表中是否集中出現(xiàn)在排序列表的頂部(ES正值,表示上調(diào))或底部(ES負(fù)值赖草,表示下調(diào))学少。富集得分的計(jì)算是通過一個(gè)步進(jìn)算法,當(dāng)遇到屬于基因集的基因時(shí)秧骑,ES增加版确;當(dāng)遇到不屬于基因集的基因時(shí),ES減少乎折。因此绒疗,富集得分表示了基因集成員在整個(gè)排序列表中“集中”出現(xiàn)的程度。
Normalized Enrichment Score (NES): 2.18531骂澄,這是標(biāo)準(zhǔn)化后的富集分?jǐn)?shù)吓蘑,用于不同基因集和實(shí)驗(yàn)條件之間的比較。通常坟冲,NES大于1.0被認(rèn)為是顯著富集磨镶。
FWER(Family-Wise Error Rate溃蔫,家族誤差率)是指在多重比較(multiple comparisons)中,至少出現(xiàn)一個(gè)假陽性結(jié)果的概率棋嘲。0.046表示這個(gè)基因集的富集在考慮了多重比較的情況下仍然具有統(tǒng)計(jì)顯著性。
Enrichment Plot:
Running ES Score:綠色曲線表示富集得分的變化矩桂。曲線最高點(diǎn)表示這個(gè)基因集的最大富集得分沸移。Hit Indices:黑色條帶表示基因集的成員在整個(gè)基因排序列表中的位置。條帶集中在哪一部分說明這些基因集成員是哪個(gè)組中是顯著富集的侄榴。Ranking Metric Scores:灰色區(qū)域表示基因排序指標(biāo)得分雹锣。每個(gè)基因在這個(gè)排序列表中都有一個(gè)Ranking Metric Score,它反映了該基因在兩個(gè)組之間的表達(dá)差異的程度和方向癞蚕。正值表示該基因在實(shí)驗(yàn)組中上調(diào)蕊爵,負(fù)值反之¤肷剑灰色區(qū)域的形狀和分布揭示了基因在兩組中的表達(dá)模式攒射。區(qū)域較窄的部分表示這些基因的得分接近0,表明它們?cè)趦蓚€(gè)表型中的表達(dá)差異不大恒水。而較寬的部分表示得分遠(yuǎn)離0会放,表明這些基因在兩個(gè)表型中的表達(dá)差異顯著。如果灰色區(qū)域在排序列表的前端(靠左側(cè))出現(xiàn)正向尖峰钉凌,表示這些基因集的成員在排序列表中排名靠前咧最,并且在實(shí)驗(yàn)組中上調(diào)。反之下調(diào)御雕。
圖表下方的表格列出了基因集中的主要基因矢沿,這些基因?qū)Ω患Y(jié)果的貢獻(xiàn)較大。這些基因被稱為“核心富集”(Core Enrichment)基因酸纲,因?yàn)樗鼈冊(cè)诟患治鲋衅鸬搅岁P(guān)鍵作用捣鲸。
該圖顯示了GOCC_MITOTIC_SPINDLE_POLE基因集的隨機(jī)富集得分(ES)分布,用于評(píng)估該基因集在各組之間的富集情況闽坡。如果實(shí)際的ES值(通常是一個(gè)正值)超過這個(gè)圖中的正ES峰值區(qū)域摄狱,則表明這個(gè)基因集在實(shí)驗(yàn)組中的富集是顯著的,并且不是由于隨機(jī)原因引起的无午。
RANK AT MAX指的是基因集中產(chǎn)生最大富集得分(ES)的基因在整個(gè)排序列表中的位置媒役。
基因標(biāo)記數(shù)目:這里的基因標(biāo)記數(shù)目是指在Phenotype 1和Phenotype 0中與表達(dá)差異相關(guān)的基因數(shù)量。Phenotype 1:有12466個(gè)基因標(biāo)記宪迟,這些基因在Phenotype 1中表現(xiàn)出顯著的表達(dá)變化酣衷。Phenotype 0:有13811個(gè)基因標(biāo)記,這些基因在Phenotype 0中表現(xiàn)出顯著的表達(dá)變化次泽。Phenotype 1的45.1%:表示Phenotype 1中的這些基因標(biāo)記占排序列表中所有基因標(biāo)記的45.1%穿仪。
Rank ordered gene list(基因排序列表)
Dataset details數(shù)據(jù)集中包含26277個(gè)特征(基因
Gene set details基因集篩選:基因集的大小篩選條件(min=15, max=500)席爽,使得5325個(gè)基因集通過篩選被用于分析。
Global statistics and plots全局統(tǒng)計(jì)和繪圖:提供了p-value和NES的分布圖啊片,以及全局ES直方圖只锻。
Other:顯示了進(jìn)行該分析所使用的具體參數(shù)。
Comments時(shí)間戳和隨機(jī)種子:時(shí)間戳和使用的隨機(jī)種子(1720352136232)紫谷,確保結(jié)果的可重復(fù)性齐饮。
還有不太清楚的地方,可以點(diǎn)擊Guide to interpret results進(jìn)行查看