學習基因通路富集分析軟件GSEA

GSEA是一種無閾值方法败明,可根據(jù)其差異表達等級或其他分數(shù)對所有基因進行分析镇匀,無需事先進行基因過濾。當基因組中的所有或大多數(shù)基因(例如,RNA-seq數(shù)據(jù))可獲得rank時推薦使用GSEA進行通路富集分析囊陡, 然而,當僅有一小部分基因具有rank可用時润努,如关斜,在確定顯著突變的癌癥基因的實驗中,GSEA并不合適铺浇。GESA使用基于一個置換矩陣檢驗來分析rank gene list痢畜。GSEA搜索基因在rank gene list的頂部或底部富集通路,這比單憑偶然的機會所能預料到的還要多。 例如丁稀,如果最頂端的差異表達基因參與細胞周期吼拥,這表明細胞周期通路在實驗中受到調(diào)控。相反线衫,如果細胞周期基因在整個rank gene list中隨機分散凿可,則細胞周期途徑可能不會受到顯著調(diào)節(jié)。要計算通路的富集分數(shù)(ES)授账,GSEA逐步從頂部到底部檢測rank list的基因枯跑,如果基因是該通路的一部分則增加ES,否則降低分數(shù)白热。這些運行總和值是加權(quán)的敛助,因此放大了top(和bottom)排序基因的富集,而中等水平基因的富集則沒有被放大屋确。ES分數(shù)被計算為運行總和的最大值并相對于通路大小進行歸一化纳击,從而得到標準化的富集分數(shù)(NES),其反映了列表中通路的富集攻臀。正NES值和負NES值分別表示列表頂部和底部的富集焕数。最后一個基于置換的p值被計算,并用多次測試進行矯正以產(chǎn)生基于置換的錯誤發(fā)現(xiàn)率Q值刨啸,Q值的范圍從0(非常顯著)到1(不顯著)堡赔。從排序基因列表的底部開始進行相同的分析,以鑒定在列表底部富集的通路呜投。使用FDR Q值閾值(例如加匈,Q <0.05)選擇所得到的通路并使用NES進行rank存璃。 此外仑荐,GSEA分析的“l(fā)eading edge”方面確定了對檢測到的通路富集信號最有貢獻的特定基因。

GSEA有兩種確定ES的統(tǒng)計學顯著性(P值)的方法:基因集置換和表型置換纵东。 基因集置換測試需要rank list粘招,并且GSEA將觀察到的通路的ES與通過用隨機取樣的匹配大小的基因集(例如,1,000次)重復分析而獲得的分數(shù)分布進行比較偎球。表型置換測試需要所有樣品的表達數(shù)據(jù)(例如洒扎,生物學重復),以及被稱為“表型”的樣品組衰絮,該方法是彼此之間比較(例如袍冷,病例與對照;腫瘤與正常樣品)。對于具有有限突變和生物學重復的研究(即每種條件2至5次)猫牡,推薦使用基因集置換胡诗。在這種情況下,差異基因表達值應在GSEA之外計算,使用包括方差穩(wěn)定性的方法(例如edgeR 煌恢,DESeq 和limma / voom )骇陈,并在通路分析之前導入GSEA軟件,表型置換應該與使用更多次重復(例如瑰抵,每種條件至少10次)你雌。表型置換方法的主要優(yōu)點在于與基因集置換方法相比,它在排列過程中保持了具有重要生物學意義的相關(guān)性基因的基因組結(jié)構(gòu)二汛。

input data :數(shù)據(jù)是被TCGA鑒定的兩種卵巢癌兩種亞型差異表達的gene list婿崭。該rank先前基于基因表達數(shù)據(jù)分層為四種分子亞型,定義為分化肴颊,免疫反應逛球,間充質(zhì)和增殖。GSEA需要具有基因分數(shù)的RNK文件苫昌,該rnk文件有兩列颤绕,第一列是基因ID,第二列是基因分數(shù)祟身“挛瘢基因組中的所有(或大多數(shù))基因需要具有分數(shù),并且基因ID需要與GMT文件中使用的基因ID匹配袜硫。

Load Data:將需要分析的數(shù)據(jù)加載進來氯葬,同時也將進行通路分析的基因集(GMT)加載進來。


Load Data

在下圖的這個地方就可以看到你加載進來的數(shù)據(jù)

已經(jīng)加載進來的數(shù)據(jù)

點擊左邊工具欄的Run GSEAPreranked


GSEA自己也提供了基因集文件婉陷,可以直接通過MSigDB資源從GSEA端口直接訪問帚称,不需要輸入GSEA中。要定義GMT文件秽澳,可以在Select one or more genesets dialog對話框的第一個選項卡Gene Matrix(from website)中找到MSigDB基因集文件闯睹。如下圖,而我自己提供了GMT文件担神,就選擇Gene matrix (local gmx/gmt)選項卡楼吃,這下面有你在Load data的時候加載進來的GMT文件。

Number of permutations: 這指定了基因集隨機化以創(chuàng)建空分布以計算P值和FDR Q值的次數(shù)妄讯。 使用默認值1,000個排列孩锡。

更多的置換次數(shù)需要更長的計算時間。 為了計算每個gene set的FDR Q值亥贸,通過置換每個基因組中的基因并重新計算隨機組的P值來隨機化數(shù)據(jù)集,此參數(shù)指定完成此隨機化的次數(shù)躬窜。執(zhí)行的隨機化越多,F(xiàn)DR Q值估計就越精確(達到極限炕置,因為最終FDR Q值將穩(wěn)定在實際值)荣挨。?

rank list: 單擊最右側(cè)的箭頭并突出顯示排名文件溜族,選擇排序的基因列表。

單擊Basic fields 的Show可以展示出其他選項:


Basic fields

Analysis name: 默認是‘my_analysis'垦沉,也可以修改為自己想要的煌抒。

Max size: exclude larger sets:默認情況下,GSEA將上限設(shè)置為500厕倍,將此值設(shè)置為200以從分析中刪除較大的集合寡壮。


Max size: exclude larger sets設(shè)置為200

Save results in this folder:默認的結(jié)果保存路徑是:/home/cmy/gsea_home/output/aug25,也就是會默認保存在你的home目錄下讹弯】黾龋可將其改為自定義的路徑


我將其改為自定義路徑

除了上面Basic fields 外,下面還有一個Advanced fields,點擊右邊的show就可以展示出來组民,在這里可以進行一些高級的設(shè)置棒仍。在高級設(shè)置里面我沒有修改,都是GSEA默認的臭胜。

Advance fields

設(shè)置結(jié)束之后點擊下面"run”箭頭按鈕:


最下面右邊有一個run的按鈕

在run的過程中你會看到下圖這個最右邊的數(shù)字會變化莫其,而且左下角的GSEA report 中Status 會變成running. run的時間長短和速度的快慢取決于你的電腦配置。

running


GSEA reports Status

運行結(jié)束之后GSEA report 中Status會從running 狀態(tài)變成success耸三,點擊Success就可以以網(wǎng)頁的形式查看你的結(jié)果乱陡,根據(jù)上調(diào)還是下調(diào)會展示為兩組。結(jié)果文件會保存在Save results in this folder設(shè)置的文件夾中仪壮。


run結(jié)束


web展示的結(jié)果憨颠,上調(diào)為第一組結(jié)果,下調(diào)為第二組展示結(jié)果


設(shè)置的保存結(jié)果的文件夾下會多出兩個結(jié)果文件夾

GSEA分析的結(jié)果通路富集排列在top的genes為上調(diào)的基因积锅, na_pos(na表示'not available'爽彤,因為我沒有將表型標簽的cle格式的文件輸入,因此默認為na缚陷,而pos表示positive,neg:表示下調(diào)(negtive))


上調(diào)與下調(diào)結(jié)果概括

對于上圖的結(jié)果解釋可見下圖:


上調(diào)組基因結(jié)果圖的解釋

點擊enrichment results in html适篙,可以在網(wǎng)頁查看高表達基因集的富集的結(jié)果,如下圖:


enrichment results in html結(jié)果展示

GS:基因集的名字蹬跃,SIZE:基因集下的基因總數(shù)匙瘪,ES:Enrichment score, NES:歸一化后的Enrichment score,? NOM p-val:p-value,表征富集結(jié)果的可信度蝶缀,F(xiàn)DR q-val:q-value, 是多重假設(shè)檢驗矯正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 對結(jié)果進行過濾薄货。

點擊GS DESC可以跳轉(zhuǎn)到每個基因集詳細結(jié)果頁面翁都,如下所示:

GS DESC下的表

首先是一個匯總的結(jié)果,Upregulated in class說明該基因集在na-pos這組中高表達谅猾,其他的信息和上一副圖中的表描述的一樣柄慰,除此之外鳍悠,還有詳細的表格,如下所示:


GS DESC下的表

上表對于該基因集下的每個基因給出了詳細的統(tǒng)計信息坐搔,RANK IN GENE LIST代表該基因在排序號的列表中的位置藏研, RANK METRIC SCORE代表該基因排序量的值,比如foldchange值概行,RUNNIG ES代表累計的Enrichment score, CORE ENRICHMENT代表是否屬于核心基因蠢挡,即對該基因集的Enerchment score做出了主要貢獻的基因。

該表格的基因集對應下面這張圖:

GS DESC下的圖

該圖分為3個部分:

第一部分為基因Enrichment Score的折線圖凳忙,橫軸為該基因集下的每個基因业踏,縱軸為對應的Running ES, 在折線圖中有個峰值,該峰值就是這個基因集的Enrichemnt score涧卵,峰值之前的基因就是該基因集下的核心基因勤家,即對該基因集的Enerchment score做出了主要貢獻的基因。

第二部分為hit柳恐,用黑色線條標記位于該基因集下的基因

第三部分為所有基因的rank值分布圖

從上圖可以看到伐脖,其Enrichment score值全部為正數(shù),對應的在其峰值左側(cè)的基因為該基因集下的核心基因乐设。

在總的html頁面中晓殊,還給出了如下信息:

html頁面結(jié)果下的一些描述信息

Dataset details給出了基因總數(shù),Gene Set details給出了基因集的信息伤提,默認根據(jù)基因集包含的基因個數(shù)是先對基因集進行過濾巫俺,最小15個,最大500個基因肿男,(由于我自己設(shè)置了最大為200個)介汹,所以這里過濾掉了12032個基因集,剩余的 4714 個基因集用于分析舶沛。


學習與參考:

1.https://blog.csdn.net/weixin_43569478/article/details/83745105

2.NCBI - WWW Error Blocked Diagnostic

3.Reimand J, Isserlin R, Voisin V, et al. Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and

EnrichmentMap[J]. Nature Protocols, 2019, 14(2): 482-517.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嘹承,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子如庭,更是在濱河造成了極大的恐慌叹卷,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件坪它,死亡現(xiàn)場離奇詭異骤竹,居然都是意外死亡,警方通過查閱死者的電腦和手機往毡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門蒙揣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人开瞭,你說我怎么就攤上這事懒震≌窒ⅲ” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵个扰,是天一觀的道長瓷炮。 經(jīng)常有香客問我,道長递宅,這世上最難降的妖魔是什么娘香? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮恐锣,結(jié)果婚禮上茅主,老公的妹妹穿的比我還像新娘。我一直安慰自己土榴,他們只是感情好诀姚,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著玷禽,像睡著了一般赫段。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上矢赁,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天糯笙,我揣著相機與錄音,去河邊找鬼撩银。 笑死给涕,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的额获。 我是一名探鬼主播够庙,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼抄邀!你這毒婦竟也來了耘眨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤境肾,失蹤者是張志新(化名)和其女友劉穎剔难,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體奥喻,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡偶宫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了衫嵌。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片读宙。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖楔绞,靈堂內(nèi)的尸體忽然破棺而出结闸,到底是詐尸還是另有隱情,我是刑警寧澤酒朵,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布桦锄,位于F島的核電站,受9級特大地震影響蔫耽,放射性物質(zhì)發(fā)生泄漏结耀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一匙铡、第九天 我趴在偏房一處隱蔽的房頂上張望图甜。 院中可真熱鬧,春花似錦鳖眼、人聲如沸黑毅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽矿瘦。三九已至,卻和暖如春愿卒,著一層夾襖步出監(jiān)牢的瞬間缚去,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工琼开, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留易结,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓柜候,卻偏偏與公主長得像搞动,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子改橘,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容