火山圖是散點圖的一種,它將統(tǒng)計測試中的統(tǒng)計顯著性量度(如p value)和變化幅度相結(jié)合潦嘶,從而能夠幫助快速直觀地識別那些變化幅度較大且具有統(tǒng)計學意義的數(shù)據(jù)點(基因等)。常應(yīng)用于轉(zhuǎn)錄組研究崇众,也能應(yīng)用于基因組掂僵,蛋白質(zhì)組,代謝組等統(tǒng)計數(shù)據(jù)顷歌。
所以關(guān)注火山圖(其它類型圖也是)锰蓬,先理解每個點是什么(點代表基因、樣品眯漩、通路或其它的芹扭,這個認識可以來自于常識,更準確的是看作者的描述)赦抖,然后看橫軸代表什么舱卡、縱軸代表什么,再看圖例中展示的其他信息队萤,如顏色轮锥、大小和形狀分別代表什么。這些都理順了要尔,圖理解就不難了舍杜。
如圖一:
每個點代表一個檢測到的基因。
橫軸和縱軸用于固定點在空間的位置赵辕。
一般橫軸是
Log2(fold change)
既绩,點越偏離中心,表示差異倍數(shù)越大匆帚。縱軸是
-Log 10 (adjusted P-value)
熬词,點越靠圖的頂部表示差異越顯著。-
點的大小和顏色也可以表示更多的屬性,如下圖中點的顏色標記其對應(yīng)的基因是
上調(diào)
,下調(diào)
還是無差異
互拾。大小也可用于展示基因表達的平均豐度歪今,一般我們關(guān)注表達水平較高且差異較大的基因用于后續(xù)的分析和驗證。
圖一(圖源:易生信PPT)
火山圖理解常見的幾個問題
但沒想到颜矿,在我們易生信培訓過程中寄猩,對火山圖的問題還是比較多的,我們一個個的說一下骑疆。
-
什么是****
fold change
?翻譯成中文是
差異倍數(shù)
田篇,簡單來說就是基因在一組樣品中的表達值的均值除以其在另一組樣品中的表達值的均值。所以火山圖只適合展示兩組樣品之間的比較箍铭。 -
為什么要做****
Log 2
轉(zhuǎn)換泊柬?兩個數(shù)相除獲得的結(jié)果 (
fold change
)要么大于
1,要么小于
1诈火,要么等于
1兽赁。這是一句正確的廢話吧?那么對應(yīng)于基因差異呢冷守?簡單說刀崖,大于1表示上調(diào)(可以描述為上調(diào)多少倍),小于1表示下調(diào)(可以描述為下調(diào)為原來的多少分之多少)拍摇。大于1可以到多大呢亮钦?多大都有可能。小于1可以到多小呢充活?最小到0蜂莉。用原始的fold change
描述上調(diào)方便,描述下調(diào)不方便混卵。繪制到圖中時巡语,上調(diào)占的空間多,下調(diào)占的空間少淮菠,展示起來不方便。所以一般會做Log 2
轉(zhuǎn)換荤堪。默認我們都會用兩倍差異 (fold change == 2 | 0.5
)做為一個篩選標準合陵。Log2
轉(zhuǎn)換的優(yōu)勢就體現(xiàn)出來了,上調(diào)的基因轉(zhuǎn)換后Log2 (fold change)
都大于等于1
澄阳,下調(diào)的基因轉(zhuǎn)換后Log2 (fold change)
都小于等于-1
拥知。無論是展示還是描述是不是都更方便了。 P-value
都比較熟悉碎赢,統(tǒng)計檢驗獲得的是否統(tǒng)計差異顯著的一個衡量值低剔,約定成俗的P-value<0.05
為統(tǒng)計檢驗顯著的常規(guī)標準。-
什么是****
adjusted P-value
?這里面就涉及到一個統(tǒng)計學問題了。做差異基因檢測時襟齿,要對成千上萬的基因分別做差異統(tǒng)計檢驗姻锁。統(tǒng)計學家認為做這么多次的檢驗,本身就會引入假陽性結(jié)果猜欺,需要做一個多重假設(shè)檢驗校正位隶。
這個校正怎么做呢?最簡單粗暴的方法是每一次統(tǒng)計檢驗獲得的
P-value
都乘以總的統(tǒng)計檢驗的次數(shù)獲得adjusted P-value
(這就是Bonferroni correction
)开皿。但這樣操作太嚴苛了涧黄,很容易降低統(tǒng)計檢出力,找不到有差異的基因赋荆。后續(xù)又有統(tǒng)計學家提出相對不這么嚴苛的計算方法笋妥,如
holm
,hochberg
,hommel
,BH
,BY
,fdr
等。BH
是我們比較常用的一個校正方法窄潭,獲得的值是假陽性率 FDR
(false discovery rate
)春宣。FDR
篩選時就可以不用遵循0.05
這個標準了。我們可以設(shè)置FDR<0.05
表示我們?nèi)菰S數(shù)據(jù)中存在至多5%
假陽性率狈孔;FDR<0.1
表示我們對假陽性率的容忍度至多是10%
信认。當然如果說我們設(shè)置FDR<0.5,即數(shù)據(jù)中最多可能有一半是假陽性就說不過去了均抽。 -
同樣為什么做****
-Log 10
轉(zhuǎn)換呢嫁赏?因為FDR值是
0-1
之間,數(shù)值越小越是統(tǒng)計顯著油挥,也越是我們關(guān)注的潦蝇。-Log 10 (adjusted P-value)
轉(zhuǎn)換后正好是反了多來,數(shù)值越大越顯著深寥,而且以10
為底很容易換算回去攘乒。
理解完這些之后,再來看火山圖惋鹅。
整體來看则酝,基因有上調(diào)就有下調(diào),圖整體是以
X=0
的垂線左右對稱的闰集。如果數(shù)據(jù)中大部分點都是上調(diào)或下調(diào)沽讹,成偏態(tài)分布時,需考慮標準化步驟沒有處理好武鲁,或數(shù)據(jù)存在批次效應(yīng)爽雄,導致數(shù)據(jù)存在系統(tǒng)偏差。圖的左上角和右上角是差異基因集中的地方沐鼠,也是我們關(guān)注的重點挚瘟。
圖一中左側(cè)的火山圖還展示了基因表達的平均豐度叹谁,即基因在所有樣品中表達的均值。一般變化倍數(shù)大乘盖、平均表達也比較高的基因會更可信焰檩,更適合后期實驗檢測,否則就算變化倍數(shù)再大侧漓,表達低的基因也難以被檢測到锅尘。
番外:
差異倍數(shù)
fold change
還有另外一種處理方式。假如有兩個樣品A
和B
布蔗。如果某個基因在A
中表達比較高藤违,則計算fold change
是用A/B
; 。如果某個基因在B
中表達比較高纵揍,則計算fold change
是用B/A
顿乒,然后乘以-1
;gtools::foldchange
是這么操作的。adjusted P-value
,q value
,fdr
一般代表相同的含義泽谨,都是多重假設(shè)檢驗校正后的P-value
,可能的區(qū)別就在于校正算法的不同璧榄。
幾個代表性火山圖
火山圖雖然用的多,但其實能提供的信息算不上多吧雹,一般是在上面標記一些關(guān)注的基因的名字骨杂,然后在正文中做下描述。標記基因名字的方式也比較多雄卷,圖二中左圖的顏色標示是一個不錯的選擇衬鱼。
圖二(圖源:易生信PPT)
圖二右圖來自2017年發(fā)表在Cell的一篇文章-Epigenetic Therapy Ties MYC Depletion to Reversing Immune Evasion and Treating Lung Cancer慕的。
一排火山圖放在一起是不是很有氣勢,更主要的是展示了5種疫苗誘導的差異基因數(shù)目顯著不同,在圖上紅點多少展示出的視覺沖擊還是優(yōu)于圖標中的數(shù)字表示的朋沮,更容易留下直觀的印象窃躲。個人覺得是一個很有特色的火山圖案例祭芦。
圖三
圖三來自文章Edwards, J., et al. (2015). PNAS Fig. 2A
涨岁。
這是一篇16S分析文章較系統(tǒng)的作品,兩年被引用147次冯凹,推薦閱讀谎亩。上面的火山圖展示了水稻根不同生態(tài)位相對于土壤中顯著差異的OTU
,橫坐標是相對豐度平均值(Log10
轉(zhuǎn)換)宇姚,縱坐標是Log10(fold change)
团驱,整體類似于圖一中的左圖,只是轉(zhuǎn)換了X
和Y
軸變量空凸。
圖四
火山圖就是散點圖,點的顏色可展示代表性屬性寸痢。
圖四來源— https://arxiv.org/pdf/1103.3434.pdf :
第6號染色體上的探針/基因用紅色標記呀洲,在基因注釋中帶有“細胞因子”的探針/基因用藍色標記。
增強火山圖之在基本火山圖的基礎(chǔ)上,標注有變量-基因名道逗。
上圖共有64102個變量兵罢,綠色的點的|log2FC|>1
,藍色的點是P value <0.0001
滓窍。紅色的點是滿足了以上兩點要求的變量卖词。
如有雷同數(shù)據(jù),可大膽參照模仿吏夯,更多增強火山圖見:
傳送門(代碼)??
火山圖繪制
最簡單的繪制方法是使用我們的在線網(wǎng)站——imageGP(http://www.ehbio.com/ImageGP/)噪生。