富集分析是生物醫(yī)學(xué)論文中非常常見的一類分析马靠,例如GO富集分析奄抽,Pathway富集分析等蔼两。其結(jié)果一般包括以下幾個(gè)要素:1,名字(GO term或者KEGG description)逞度;2额划,該名字所包含的基因數(shù)目;3档泽,該名字所包含的基因與進(jìn)行富集分析的輸入基因的重疊數(shù)目俊戳;4,富集的P值馆匿、FDR值等抑胎。富集結(jié)果的常見繪圖方式包括:氣泡圖,條形圖渐北,弦圖等圆恤。今天我們利用circlize R包整合富集結(jié)果,繪制一個(gè)高大上的圈圖腔稀。
如圖1所示,從外到內(nèi)共4個(gè)track焊虏,中間的為圖例(從上到下依次為:分類淡喜,p值,上調(diào)或者下調(diào))
1)分類track
相同顏色的為同一分類诵闭,例如黃色表示BP炼团,藍(lán)色表示MF,最外圈刻度表示總的基因數(shù)疏尿,10的次方表示瘟芝。總的基因數(shù)即圖2中所有黃色圈所包含的基因去重后的基因數(shù)褥琐,或者推薦使用比所有條目中基因數(shù)最大值更大的一個(gè)值(一般設(shè)置為整百或者整千)锌俱。
2)term里邊的基因數(shù)
矩形長(zhǎng)度表示該term中包含的基因數(shù)(例如GO:0031625這個(gè)term中包含306個(gè)基因),與最外圈的刻度成比例敌呈。矩形的顏色表示該term的富集p值(或者FDR值贸宏,q值等,經(jīng)過-log10轉(zhuǎn)化)磕洪,顏色越深表示P越小吭练。
3)重疊基因數(shù)
矩形長(zhǎng)度表示該term中包含的基因與進(jìn)行基因富集分析時(shí)所輸入的基因的重疊基因數(shù)。例如進(jìn)行富集分析的基因有500個(gè)析显,其中與GO:0031625中306個(gè)基因重疊的基因?yàn)?8個(gè)鲫咽。由于這個(gè)數(shù)字一般較小,因此矩形的長(zhǎng)度與該track中最的基因數(shù)成比例。一般我們要么使用up的基因分尸,要么使用down的基因進(jìn)行富集分析姊舵,因此這里僅一種顏色。
4)富集分?jǐn)?shù)bar
Bar的高度即第三個(gè)track里的基因數(shù)占第二個(gè)track里對(duì)應(yīng)基因數(shù)的比例(如圖2所示)寓落。數(shù)值范圍為0到1括丁,這里每個(gè)小圈表示0.2。
1伶选,打開繪圖頁面
首先史飞,使用瀏覽器(推薦chrome或者edge)打開富集圈圖繪制頁面。左側(cè)為常見作圖與分析導(dǎo)航仰税,中間為數(shù)據(jù)輸入框和可選參數(shù)构资,右側(cè)為描述和結(jié)果示例。也可以在主頁搜索框中搜索GO陨簇,找到繪圖頁面吐绵。
http://www.bioinformatics.com.cn/plot_basic_go_pathway_circlize_plot_140
2,示例數(shù)據(jù)
點(diǎn)擊右側(cè)“示例數(shù)據(jù)”鏈接下載excel格式的示例數(shù)據(jù)河绽。
示例數(shù)據(jù)(僅供參考)包括7列:
第1列:GO或者KEGG條目ID己单。推薦使用ID,因?yàn)槊珠L(zhǎng)短不一耙饰,很難統(tǒng)一纹笼。
第2列:分類名」豆颍可以包含1類廷痘,2類,3類件已,或者4類笋额,例如單獨(dú)繪制KEGG通路富集結(jié)果;同時(shí)繪制GO-BP篷扩,KEGG兄猩;同時(shí)繪制BP、CC瞻惋、MF厦滤;甚至同時(shí)繪制BP援岩、CC歼狼、MF、KEGG享怀。同一分類放在一起羽峰,不要相互穿插。
第3列:總基因數(shù)∶诽耄總基因數(shù)即圖2中所有黃色圈所包含的基因去重后的基因數(shù)值纱,或者推薦使用比所有條目中基因數(shù)最大值更大的一個(gè)值。例如第4列中最大的數(shù)值是470坯汤,這里可以使用1200虐唠,用來從整體上控制第二個(gè)track的矩形長(zhǎng)度,是一個(gè)比較松散的值(一般設(shè)置為整百或者整千)惰聂。
第4列:數(shù)據(jù)庫中某term包含的基因數(shù)疆偿。在使用同一個(gè)數(shù)據(jù)庫版本的情況下,這個(gè)數(shù)值是固定不變的搓幌,例如GO:0010498里邊就包含470個(gè)基因杆故。
第5列:某term富集的p值(或者q值,F(xiàn)DR值等)溉愁。
第6列:做富集分析時(shí)輸入的基因與該term中包含基因的重疊基因數(shù)(見圖2)处铛。
第7列:第6列與第4列的比值(見圖2)。
3拐揭,粘貼示例數(shù)據(jù)
直接復(fù)制示例數(shù)據(jù)中的A-G列數(shù)據(jù)撤蟆,然后粘貼到輸入框。
注意:不是拷貝excel文件堂污,是拷貝excel文件里邊的數(shù)據(jù)枫疆。另外粘貼到輸入框后,格式亂了沒關(guān)系敷鸦,只要在excel中是整齊的就行息楔。并且數(shù)據(jù)矩陣中不能有空的單元格,中文字符等扒披。
4值依,修改參數(shù),并提交
我們?cè)O(shè)置了圖片尺寸碟案,字體大小愿险,顏色,字體類型等參數(shù)价说,基本能滿足日常繪圖使用辆亏。如需更高級(jí)的定制,請(qǐng)聯(lián)系我們鳖目。
5,提交出圖
粘貼好輸入數(shù)據(jù)领迈,調(diào)整好參數(shù)(或者全部默認(rèn))后彻磁,點(diǎn)擊提交按鈕碍沐,約8秒后,會(huì)在頁面右側(cè)出現(xiàn)預(yù)覽圖衷蜓。我們提供了4種圖片格式供下載使用,兩種矢量圖(pdf斋陪,svg)和兩種標(biāo)量圖(600 dpi?tiff和300 dpi?png)。
Tips:
1鳍贾,該圖最大限度地利用有限的空間展示更多的數(shù)據(jù)內(nèi)容。因此條目不能過多交洗,推薦總共30個(gè)以內(nèi)的GO和KEGG條目骑科,否則太擁擠。
2构拳,第4個(gè)track最大值默認(rèn)為1.0置森,可以修改成其他值斗埂,以整體上降低或者降低柱子的高度。
3凫海,一般我們使用up或者down的基因做富集分析呛凶,對(duì)于使用up+down富集結(jié)果不適合這個(gè)圖。
4行贪,對(duì)于DAVID等富集分析結(jié)果,各列的名字可能不一樣啰脚,需要根據(jù)數(shù)值代表的意思調(diào)整成示例數(shù)據(jù)即可橄浓。
沒有預(yù)覽就是沒有出圖宴猾,這時(shí)請(qǐng)參考示例數(shù)據(jù),檢查自己輸入數(shù)據(jù)的格式。
遇到文字截?cái)嗳沓郏枰薷淖煮w戴已、調(diào)整字體大小等,使用科研作圖實(shí)操:用inkscape編輯svg矢量圖
微生信助力高分文章锅减,用戶67000,引用880
?