Volcano plot | 別再問我這為什么是火山圖

火山圖是散點圖的一種,它將統(tǒng)計測試中的統(tǒng)計顯著性量度(如p value)和變化幅度相結(jié)合潦嘶,從而能夠幫助快速直觀地識別那些變化幅度較大且具有統(tǒng)計學意義的數(shù)據(jù)點(基因等)。常應(yīng)用于轉(zhuǎn)錄組研究崇众,也能應(yīng)用于基因組掂僵,蛋白質(zhì)組,代謝組等統(tǒng)計數(shù)據(jù)顷歌。

所以關(guān)注火山圖(其它類型圖也是)锰蓬,先理解每個點是什么(點代表基因、樣品眯漩、通路或其它的芹扭,這個認識可以來自于常識,更準確的是看作者的描述)赦抖,然后看橫軸代表什么舱卡、縱軸代表什么,再看圖例中展示的其他信息队萤,如顏色轮锥、大小和形狀分別代表什么。這些都理順了要尔,圖理解就不難了舍杜。

如圖一:

  • 每個點代表一個檢測到的基因

  • 橫軸和縱軸用于固定點在空間的位置赵辕。

  • 一般橫軸是Log2(fold change)既绩,點越偏離中心,表示差異倍數(shù)越大匆帚。

  • 縱軸是-Log 10 (adjusted P-value)熬词,點越靠圖的頂部表示差異越顯著。

  • 點的大小和顏色也可以表示更多的屬性,如下圖中點的顏色標記其對應(yīng)的基因是上調(diào), 下調(diào)還是無差異互拾。

    大小也可用于展示基因表達的平均豐度歪今,一般我們關(guān)注表達水平較高且差異較大的基因用于后續(xù)的分析和驗證。

image

圖一(圖源:易生信PPT)

火山圖理解常見的幾個問題

但沒想到颜矿,在我們易生信培訓過程中寄猩,對火山圖的問題還是比較多的,我們一個個的說一下骑疆。

  1. 什么是****fold change?

    翻譯成中文是差異倍數(shù)田篇,簡單來說就是基因在一組樣品中的表達值的均值除以其在另一組樣品中的表達值的均值。所以火山圖只適合展示兩組樣品之間的比較箍铭。

  2. 為什么要做****Log 2轉(zhuǎn)換泊柬?

    兩個數(shù)相除獲得的結(jié)果 (fold change)要么大于1,要么小于1诈火,要么等于1兽赁。這是一句正確的廢話吧?那么對應(yīng)于基因差異呢冷守?簡單說刀崖,大于1表示上調(diào)(可以描述為上調(diào)多少倍),小于1表示下調(diào)(可以描述為下調(diào)為原來的多少分之多少)拍摇。大于1可以到多大呢亮钦?多大都有可能。小于1可以到多小呢充活?最小到0蜂莉。用原始的fold change描述上調(diào)方便,描述下調(diào)不方便混卵。繪制到圖中時巡语,上調(diào)占的空間多,下調(diào)占的空間少淮菠,展示起來不方便。所以一般會做Log 2轉(zhuǎn)換荤堪。默認我們都會用兩倍差異 (fold change == 2 | 0.5)做為一個篩選標準合陵。Log2轉(zhuǎn)換的優(yōu)勢就體現(xiàn)出來了,上調(diào)的基因轉(zhuǎn)換后Log2 (fold change)都大于等于1澄阳,下調(diào)的基因轉(zhuǎn)換后Log2 (fold change)都小于等于-1拥知。無論是展示還是描述是不是都更方便了。

  3. P-value都比較熟悉碎赢,統(tǒng)計檢驗獲得的是否統(tǒng)計差異顯著的一個衡量值低剔,約定成俗的P-value<0.05為統(tǒng)計檢驗顯著的常規(guī)標準。

  4. 什么是****adjusted P-value?

    這里面就涉及到一個統(tǒng)計學問題了。做差異基因檢測時襟齿,要對成千上萬的基因分別做差異統(tǒng)計檢驗姻锁。統(tǒng)計學家認為做這么多次的檢驗,本身就會引入假陽性結(jié)果猜欺,需要做一個多重假設(shè)檢驗校正位隶。

    這個校正怎么做呢?最簡單粗暴的方法是每一次統(tǒng)計檢驗獲得的P-value都乘以總的統(tǒng)計檢驗的次數(shù)獲得adjusted P-value (這就是Bonferroni correction)开皿。

    但這樣操作太嚴苛了涧黄,很容易降低統(tǒng)計檢出力,找不到有差異的基因赋荆。后續(xù)又有統(tǒng)計學家提出相對不這么嚴苛的計算方法笋妥,如holm, hochberg, hommel, BH, BY, fdr等。BH是我們比較常用的一個校正方法窄潭,獲得的值是假陽性率 FDRfalse discovery rate)春宣。

    FDR篩選時就可以不用遵循0.05這個標準了。我們可以設(shè)置FDR<0.05表示我們?nèi)菰S數(shù)據(jù)中存在至多5%假陽性率狈孔;FDR<0.1表示我們對假陽性率的容忍度至多是10%信认。當然如果說我們設(shè)置FDR<0.5,即數(shù)據(jù)中最多可能有一半是假陽性就說不過去了均抽。

  5. 同樣為什么做****-Log 10轉(zhuǎn)換呢嫁赏?

    因為FDR值是0-1之間,數(shù)值越小越是統(tǒng)計顯著油挥,也越是我們關(guān)注的潦蝇。-Log 10 (adjusted P-value)轉(zhuǎn)換后正好是反了多來,數(shù)值越大越顯著深寥,而且以10為底很容易換算回去攘乒。

理解完這些之后,再來看火山圖惋鹅。

  • 整體來看则酝,基因有上調(diào)就有下調(diào),圖整體是以X=0的垂線左右對稱的闰集。如果數(shù)據(jù)中大部分點都是上調(diào)或下調(diào)沽讹,成偏態(tài)分布時,需考慮標準化步驟沒有處理好武鲁,或數(shù)據(jù)存在批次效應(yīng)爽雄,導致數(shù)據(jù)存在系統(tǒng)偏差。

  • 圖的左上角和右上角是差異基因集中的地方沐鼠,也是我們關(guān)注的重點挚瘟。

  • 圖一中左側(cè)的火山圖還展示了基因表達的平均豐度叹谁,即基因在所有樣品中表達的均值。一般變化倍數(shù)大乘盖、平均表達也比較高的基因會更可信焰檩,更適合后期實驗檢測,否則就算變化倍數(shù)再大侧漓,表達低的基因也難以被檢測到锅尘。

番外:

  1. 差異倍數(shù)fold change還有另外一種處理方式。假如有兩個樣品AB布蔗。如果某個基因在A中表達比較高藤违,則計算fold change是用A/B; 。如果某個基因在B中表達比較高纵揍,則計算fold change是用B/A顿乒,然后乘以-1; gtools::foldchange是這么操作的。

  2. adjusted P-value, q value, fdr一般代表相同的含義泽谨,都是多重假設(shè)檢驗校正后的P-value,可能的區(qū)別就在于校正算法的不同璧榄。

幾個代表性火山圖

火山圖雖然用的多,但其實能提供的信息算不上多吧雹,一般是在上面標記一些關(guān)注的基因的名字骨杂,然后在正文中做下描述。標記基因名字的方式也比較多雄卷,圖二中左圖的顏色標示是一個不錯的選擇衬鱼。

image

圖二(圖源:易生信PPT)

圖二右圖來自2017年發(fā)表在Cell的一篇文章-Epigenetic Therapy Ties MYC Depletion to Reversing Immune Evasion and Treating Lung Cancer慕的。

一排火山圖放在一起是不是很有氣勢,更主要的是展示了5種疫苗誘導的差異基因數(shù)目顯著不同,在圖上紅點多少展示出的視覺沖擊還是優(yōu)于圖標中的數(shù)字表示的朋沮,更容易留下直觀的印象窃躲。個人覺得是一個很有特色的火山圖案例祭芦。

image.gif

圖三

圖三來自文章Edwards, J., et al. (2015). PNAS Fig. 2A涨岁。

這是一篇16S分析文章較系統(tǒng)的作品,兩年被引用147次冯凹,推薦閱讀谎亩。上面的火山圖展示了水稻根不同生態(tài)位相對于土壤中顯著差異的OTU,橫坐標是相對豐度平均值(Log10 轉(zhuǎn)換)宇姚,縱坐標是Log10(fold change)团驱,整體類似于圖一中的左圖,只是轉(zhuǎn)換了XY軸變量空凸。

image

圖四

火山圖就是散點圖,點的顏色可展示代表性屬性寸痢。

圖四來源— https://arxiv.org/pdf/1103.3434.pdf

第6號染色體上的探針/基因用紅色標記呀洲,在基因注釋中帶有“細胞因子”的探針/基因用藍色標記。

image

增強火山圖之在基本火山圖的基礎(chǔ)上,標注有變量-基因名道逗。

上圖共有64102個變量兵罢,綠色的點的|log2FC|>1,藍色的點是P value <0.0001滓窍。紅色的點是滿足了以上兩點要求的變量卖词。

如有雷同數(shù)據(jù),可大膽參照模仿吏夯,更多增強火山圖見:
傳送門(代碼)??

火山圖繪制

最簡單的繪制方法是使用我們的在線網(wǎng)站——imageGP(http://www.ehbio.com/ImageGP/)噪生。

image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末裆赵,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子跺嗽,更是在濱河造成了極大的恐慌战授,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件桨嫁,死亡現(xiàn)場離奇詭異植兰,居然都是意外死亡,警方通過查閱死者的電腦和手機璃吧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門楣导,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人肚逸,你說我怎么就攤上這事爷辙。” “怎么了朦促?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵膝晾,是天一觀的道長。 經(jīng)常有香客問我务冕,道長血当,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任禀忆,我火速辦了婚禮臊旭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘箩退。我一直安慰自己离熏,他們只是感情好,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布戴涝。 她就那樣靜靜地躺著滋戳,像睡著了一般钻蔑。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上奸鸯,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天咪笑,我揣著相機與錄音,去河邊找鬼娄涩。 笑死窗怒,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的蓄拣。 我是一名探鬼主播扬虚,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼弯蚜!你這毒婦竟也來了孔轴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤碎捺,失蹤者是張志新(化名)和其女友劉穎路鹰,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體收厨,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡晋柱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了诵叁。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雁竞。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖拧额,靈堂內(nèi)的尸體忽然破棺而出碑诉,到底是詐尸還是另有隱情,我是刑警寧澤侥锦,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布进栽,位于F島的核電站,受9級特大地震影響恭垦,放射性物質(zhì)發(fā)生泄漏快毛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一番挺、第九天 我趴在偏房一處隱蔽的房頂上張望唠帝。 院中可真熱鬧,春花似錦玄柏、人聲如沸襟衰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽瀑晒。三九已至阀湿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間瑰妄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工映砖, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留间坐,地道東北人。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓邑退,卻偏偏與公主長得像竹宋,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子地技,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容