如何理解GWAS中Manhattan plot和QQ plot所傳遞的信息

在GWAS研究中拿愧,Manhattan plot和QQ plot是最常畫(huà)的兩類(lèi)圖贼急,它們可以把跟研究的性狀(比如蜗元,基因型和身高)顯著相關(guān)的基因位點(diǎn)清晰地展現(xiàn)出來(lái)拾因,不少讀者朋友應(yīng)該都懂得如何畫(huà)這樣的圖旺罢,但我想應(yīng)該不是每個(gè)人都能夠真正知道其中所蘊(yùn)含的道理。

Manhattan plot(曼哈頓圖)比較簡(jiǎn)單绢记,它是把GWAS分析之后所有SNP位點(diǎn)的p-value在整個(gè)基因組上從左到右依次畫(huà)出來(lái)扁达。并且,為了可以更加直觀(guān)地表達(dá)結(jié)果蠢熄,通常都會(huì)將p-value轉(zhuǎn)換為-log10(p-value)跪解。這樣的話(huà),基因位點(diǎn)-log10(p-value)在Y軸的高度就對(duì)應(yīng)了與表型性狀或者疾病的關(guān)聯(lián)程度签孔,關(guān)聯(lián)度越強(qiáng)(即叉讥,p-value越低)就越高。而且饥追,一般而言图仓,由于連鎖不平衡(LD)關(guān)系的原因,那些在強(qiáng)關(guān)聯(lián)位點(diǎn)周?chē)腟NP也會(huì)跟著顯示出類(lèi)似的信號(hào)強(qiáng)度但绕,并依次往兩邊遞減救崔。由于這個(gè)原因,我們?cè)诼D圖上就會(huì)看到一個(gè)個(gè)整齊的信號(hào)峰(如下圖紅色部分)。而這些峰所處的位置一般也是整個(gè)研究中真正關(guān)心的地方六孵。

GWAS研究中的曼哈頓圖

GWAS研究中碳竟,p-value閾值一般要在10-6次方甚至10-8次方以下,也就說(shuō)曼哈頓圖中Y軸大于6甚至大于8的那些SNP位點(diǎn)才是比較值得研究的狸臣,不過(guò)事無(wú)絕對(duì)莹桅,有些時(shí)候也要看你的實(shí)際數(shù)據(jù)表現(xiàn)。另外烛亦,曼哈頓圖這個(gè)名字的由來(lái)實(shí)際上源自紐約曼哈頓區(qū)高樓大廈夜間的燈景在河面上的倒影(如下圖)诈泼。

曼哈頓夜景

Q-Q plot(QQ圖)雖然所用的數(shù)據(jù)和上面曼哈頓圖的一樣,但是它要表達(dá)的信息比起曼哈頓圖來(lái)要豐富得多煤禽,而且在這兩個(gè)圖中更加能夠體現(xiàn)GWAS結(jié)果好壞的是QQ plot——它是GWAS研究中更加重要的質(zhì)控圖铐达。這也是我在這篇文章主要討論的內(nèi)容。

其實(shí)檬果,一直以來(lái)QQ plot是統(tǒng)計(jì)學(xué)分析中的常用圖瓮孙,在1968年Wilk.M.B的這篇文章(doi:10.1093/biomet/55.1.1)就提出了如何繪制這樣的圖已經(jīng)它的用途。QQ plot全稱(chēng)是quantile-quantile plot选脊,也就是分位圖杭抠,是一種通過(guò)比較兩個(gè)概率分布的分位數(shù)從而實(shí)現(xiàn)對(duì)兩個(gè)概率分布進(jìn)行比較的概率圖方法(在統(tǒng)計(jì)學(xué)上較常用)。之所以可以這樣做的原因是恳啥,如果兩個(gè)概率分布相同偏灿,那么它們的分位數(shù)也應(yīng)該相同或者重疊在同一條直線(xiàn)上。

在GWAS分析中钝的,當(dāng)我們通過(guò)曼哈頓圖看到某些SNP和表型性狀(或者疾参檀埂)有著很強(qiáng)的相關(guān)信號(hào)(比如,p-value < 10-6甚至10-8)時(shí)硝桩,依然不能直接認(rèn)為這些位點(diǎn)就與表型顯著相關(guān)的沿猜。這是因?yàn)榛蚪M上基因位點(diǎn)的突變通常有兩個(gè)來(lái)源:

  • 第一是自然選擇(Selection),我這里所說(shuō)的自然選擇不僅指達(dá)爾文在《進(jìn)化論》中所描述的物競(jìng)天擇碗脊,還指所有對(duì)物種適應(yīng)性有影響作用的“力量”啼肩,比如高輻射環(huán)境、疾病望薄、病毒等疟游,這也是我們?cè)贕WAS研究中真正關(guān)心的突變;

  • 第二是遺傳漂變(genetics drift)痕支,它是一種比較隨機(jī)的基因組突變而且數(shù)量也不少颁虐,雖然也是物種演化的一種重要力量,但是由于它的突變都比較隨機(jī)卧须,目前認(rèn)為它與環(huán)境的變遷沒(méi)有必然聯(lián)系另绩,但也會(huì)在某些時(shí)候儒陨,有些隨機(jī)的突變帶來(lái)了生存優(yōu)勢(shì),便會(huì)在種群中顯示出它的作用笋籽。但絕大多數(shù)情況下蹦漠,對(duì)于已經(jīng)在群體中穩(wěn)定存在的性狀而言,并不認(rèn)為它們有明顯的作用车海,所以GWAS研究是不關(guān)心這一類(lèi)突變的笛园,我們要把它們?nèi)颗懦簟H绻惆l(fā)現(xiàn)自己得到的結(jié)果全部是這樣的變異的話(huà)侍芝,那么研铆,應(yīng)該重新考慮一下如何重新設(shè)計(jì)這個(gè)分析,包括是否應(yīng)該增加樣本量以及想辦法排除技術(shù)錯(cuò)誤以及干擾因素等方面州叠,或者也可能它們之間就是沒(méi)有關(guān)系棵红。

強(qiáng)關(guān)聯(lián)信號(hào)遺傳漂變的存在,在GWAS上會(huì)給我們帶來(lái)一個(gè)問(wèn)題咧栗,那就是無(wú)法直觀(guān)地把它們識(shí)別并排除出去(很多時(shí)候是很難直接在曼哈頓圖上發(fā)現(xiàn)的)逆甜,甚至你都判斷不了自己的研究是否只是充滿(mǎn)了這類(lèi)無(wú)效信息。那么現(xiàn)在的問(wèn)題就是致板,我們應(yīng)該如何做才能夠有效地判斷出這個(gè)研究中所獲得關(guān)聯(lián)結(jié)果確實(shí)是與表型性狀或者疾病相關(guān)的呢交煞?

這就是我們要用上QQ-plot的地方了。在GWAS分析里面可岂,QQ-plot的縱軸是SNP位點(diǎn)的p-value值(這是實(shí)際得到的結(jié)果错敢,observed),與曼哈頓圖一樣也是表示為 -log10(p-value)缕粹;橫軸是則是均勻分布的概率值(這是Expecte的結(jié)果),同樣也是換算為-log10纸淮。橫軸的這個(gè)概率值是如何計(jì)算的呢平斩?實(shí)際上,它就是均勻分布的分位數(shù)——至于為何要用均勻分布而不是其它的分布咽块,我會(huì)在下一段文字中進(jìn)行詳述绘面。分位數(shù)的個(gè)數(shù)與GWAS研究的SNP位點(diǎn)數(shù)是一一對(duì)應(yīng)的。比如我們研究中使用了5百萬(wàn)個(gè)基因位點(diǎn)侈沪,那么分位數(shù)的個(gè)數(shù)也是5百萬(wàn)個(gè)揭璃,從1/5000000,2/5000000,3/5000000,...一直往下排直到5000000/5000000,當(dāng)然都是轉(zhuǎn)換為-log10亭罪,然后與GWAS p-value一起作圖而成(如下圖)瘦馍。

GWAS研究的QQ圖

得到QQ plot之后,如果通過(guò)它來(lái)協(xié)作判斷我們的GWAS結(jié)果到底是好還是壞呢应役?

嚴(yán)格來(lái)講情组,這里其實(shí)是不應(yīng)該用好壞來(lái)形容的燥筷,應(yīng)該用是否與表型性狀相關(guān)來(lái)形容。

判斷的秘密就在橫軸為什么要用均勻分布而不是選擇其它分布上院崇。這是因?yàn)榫鶆蚍植记『每梢杂脕?lái)近似描述基因組上的隨機(jī)漂變現(xiàn)象肆氓。如果表型性狀并非真的受自然選擇所左右,那么你應(yīng)該會(huì)看到GWAS p-value的分布和均勻分布的結(jié)果將集中在一條直線(xiàn)上底瓣,如果不是那么就應(yīng)該能夠看到相互分離的情況谢揪,特別是p-value越低的時(shí)候分離程度就越高,QQ-plot會(huì)翹起來(lái)(這是因?yàn)镚WAS的零假設(shè)就是與隨機(jī)突變相比沒(méi)有區(qū)別)捐凭。

而且键耕,我們知道基因組上的隨機(jī)漂變是一定存在的,所以一定會(huì)有位點(diǎn)與隨機(jī)漂變相關(guān)柑营,特別是是在p-value比較大的位點(diǎn)看起來(lái)就應(yīng)該和隨機(jī)漂變重疊屈雄,這就表現(xiàn)在QQ-plot的前半部分里。這位點(diǎn)的分布會(huì)和均勻分布重疊官套!而且酒奶,比較好的結(jié)果是,當(dāng)p-value < 10^-3時(shí)奶赔,GWAS結(jié)果開(kāi)始與均勻分布出現(xiàn)快速分離——也就是說(shuō)惋嚎,自然選擇的力量明顯地顯示出來(lái)了,使得結(jié)果在群體中快速擺脫隨機(jī)性站刑,最后看到一個(gè)高高翹起的QQ-plot另伍。這時(shí)基本就可以斷定,我們所研究的表型和基因型之間是存在著顯著相關(guān)的自然選擇作用的绞旅。

這也是我們?cè)谠u(píng)估一個(gè)GWAS研究時(shí)最基本的一個(gè)判斷摆尝。


如果喜歡更多的生物信息和組學(xué)文章,搜索并關(guān)注我的微信公眾號(hào)“堿基礦工”(ID: helixminer)

堿基礦工

你還可以讀

這是我的知識(shí)星球:『達(dá)爾文星球』(原名:解螺旋技術(shù)交流圈)晃琳,是一個(gè)我與讀者朋友們的私人朋友圈讯检。我有9年前沿而完整的生物信息學(xué)、NGS領(lǐng)域的科研經(jīng)歷卫旱,在該領(lǐng)域發(fā)有多篇Nature人灼、Cell級(jí)別的科學(xué)文章,我希望借助這個(gè)知識(shí)星球可以與更多的志同道合者溝通和交流顾翼,同時(shí)也把自己的一些微薄經(jīng)驗(yàn)分享給更多對(duì)組學(xué)感興趣的伙伴們投放。

這是知識(shí)星球上第一個(gè)與基因組學(xué)和生物信息學(xué)強(qiáng)相關(guān)的圈子,也是官方評(píng)定的優(yōu)秀星球暴构。希望能夠借此營(yíng)造一個(gè)高質(zhì)量的組學(xué)知識(shí)圈和人脈圈跪呈,通過(guò)提問(wèn)段磨、彼此分享、交流經(jīng)驗(yàn)耗绿、心得等苹支,促進(jìn)彼此****更好地學(xué)習(xí)生信知識(shí),共同提升基因組數(shù)據(jù)分析和解讀的能力误阻。

在這里你可以結(jié)識(shí)到全國(guó)優(yōu)秀的基因組學(xué)和生物信息學(xué)專(zhuān)家债蜜,同時(shí)可以分享你的經(jīng)驗(yàn)、見(jiàn)解和思考究反,有問(wèn)題也可以向我提問(wèn)和星球里的星友們提問(wèn)寻定。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市精耐,隨后出現(xiàn)的幾起案子狼速,更是在濱河造成了極大的恐慌,老刑警劉巖卦停,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件向胡,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡惊完,警方通過(guò)查閱死者的電腦和手機(jī)僵芹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)小槐,“玉大人拇派,你說(shuō)我怎么就攤上這事≡涮” “怎么了件豌?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)拄显。 經(jīng)常有香客問(wèn)我苟径,道長(zhǎng),這世上最難降的妖魔是什么躬审? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮蟆盐,結(jié)果婚禮上承边,老公的妹妹穿的比我還像新娘。我一直安慰自己石挂,他們只是感情好博助,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著痹愚,像睡著了一般富岳。 火紅的嫁衣襯著肌膚如雪蛔糯。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天窖式,我揣著相機(jī)與錄音蚁飒,去河邊找鬼。 笑死萝喘,一個(gè)胖子當(dāng)著我的面吹牛淮逻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播阁簸,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼爬早,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了启妹?” 一聲冷哼從身側(cè)響起筛严,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎饶米,沒(méi)想到半個(gè)月后桨啃,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡咙崎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年优幸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片褪猛。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡网杆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出伊滋,到底是詐尸還是另有隱情碳却,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布笑旺,位于F島的核電站昼浦,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏筒主。R本人自食惡果不足惜关噪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望乌妙。 院中可真熱鬧使兔,春花似錦、人聲如沸藤韵。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至欲险,卻和暖如春镐依,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背天试。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工槐壳, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人秋秤。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓宏粤,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親灼卢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子绍哎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容