富集分析簡介
富集分析(Enrichment Analysis)是生物信息學(xué)研究中最常用的統(tǒng)計(jì)方法,主要應(yīng)用于分析高通量實(shí)驗(yàn)(如基因芯片、RNA-Seq、蛋白質(zhì)組學(xué)等)所獲得的基因或蛋白質(zhì)表達(dá)數(shù)據(jù)。其目的是發(fā)現(xiàn)在特定生物學(xué)條件下,哪些基因集或通路表現(xiàn)出顯著的表達(dá)變化厌衙。通過這種方法,研究者可以初步分析基因可能參與的生物學(xué)過程或信號通路,為理解基因功能和疾病機(jī)制提供了重要的視角。
常見的富集分析基因集包括:GO讨衣、KEGG歹茶、Reactome禽作、DO等。富集分析工具包括:DAVID、KOBAS、enrichR、metascape、panther、clusterprofiler等。
富集分析結(jié)果表格一般包括:term名,pvalue/padj裸诽,基因數(shù),ratio/rich factor等列,常以氣泡圖亮航,條形圖展示重抖。
樹圖
今天我們使用漸變樹圖(tree map)來展示富集結(jié)果。
樹圖(treemap)是一種用于展示層次結(jié)構(gòu)數(shù)據(jù)的可視化技術(shù)莫绣。圖中矩形大小表示term的基因數(shù)掩宜;顏色表示-log10(p)慧瘤;矩形的位置顯示了數(shù)據(jù)的層次關(guān)系怔匣,例如粗線將圖分成了左右兩組金闽。由于人們對顏色更加敏感挤庇,將富集term文字和顏色放在一起能夠在一定程度上突出顯著的結(jié)果昆咽。
1汇在,打開作圖URL
https://www.bioinformatics.com.cn/plot_basic_gradient_color_treemap_plot_246
2,示例數(shù)據(jù)
點(diǎn)擊圖片上方的示例數(shù)據(jù),下載,并使用excel打開。
示例數(shù)據(jù)包括4列:
第1列:富集term
第2列:pvalue(-log10轉(zhuǎn)換)软啼,用于顏色映射
第3列:基因數(shù),跟矩形面積成正比
第4列(可選):分組钓葫。使用粗線作為邊框豆同,分組繪制
3枣抱,輸入檢查
Ctrl+A選中示例數(shù)據(jù)轿秧,Ctrl+C拷貝,Ctrl+V粘貼到輸入框。
然后使用輸入框下面的“輸入檢查”按鈕先對輸入數(shù)據(jù)進(jìn)行檢查。若檢查不通過,請根據(jù)檢查提示重復(fù)【修改-輸入檢查】步驟览祖,直到檢查通過(如下圖所示),然后可以繼續(xù)往下進(jìn)行舔清。
注:輸入檢查是新加功能,它會(huì)根據(jù)不同模塊的輸入要求,逐行逐列檢查輸入數(shù)據(jù)主儡,并給出提示,確保數(shù)據(jù)符合模塊要求榕栏。
4,參數(shù)選擇
圖片大小:圖片寬度卖氨,圖片高度
文字大小及顏色:矩形說明文字(富集條目名字)的字體大小,顏色沃缘;標(biāo)題文字說明及顏色锄蹂;圖例標(biāo)題和圖例文字字體大小
漸變顏色:-log10(p)映射的低顏色和高顏色掀亩,越高p值越顯著
邊線的寬度及顏色:若包括第4列分組抬驴,則使用粗線作為邊線分組展示
字體:Times New Roman和Arial字體
使用NPG(nature publishing group)配色方案進(jìn)行配色豌拙。
5况芒,提交出圖
檢查通過压汪,并且參數(shù)選好后,點(diǎn)擊“提交”按鈕待德,約5s后君丁,會(huì)在頁面上呈現(xiàn)富集結(jié)果漸變樹圖預(yù)覽。我們提供了pdf将宪,svg兩種矢量圖绘闷,png,tiff兩種標(biāo)量圖供大家下載使用较坛。其中矢量圖可以使用acrobat illustrator進(jìn)行編輯印蔗、組圖等。
繪圖技巧:由于矩形面積大小是根據(jù)第3列計(jì)算的丑勤,因此若第3列基因數(shù)差別太大华嘹,則最小的矩形上可能不能顯示文字,請使用acrobat illustrate編輯處理法竞。
微生信助力高分文章耙厚,用戶192000,谷歌學(xué)術(shù)3500