到三維基因組學(xué)手幢,大家可能會(huì)問: 什么是三維基因組學(xué)这弧,三維基因組學(xué)是一門研究基因結(jié)構(gòu)與功能關(guān)系的組學(xué)娃闲。那我們就從基因結(jié)構(gòu)與功能相適應(yīng)的角度來看看C技術(shù)是如何一步一步發(fā)展成現(xiàn)在這個(gè)樣子的。下圖是我們分子生物學(xué)一個(gè)經(jīng)典的啟動(dòng)子增強(qiáng)子模型匾浪,普遍認(rèn)為enhancer會(huì)募集很多轉(zhuǎn)錄因子以及轉(zhuǎn)錄輔助因子結(jié)合到啟動(dòng)子區(qū)域形成一個(gè)環(huán)狀結(jié)構(gòu)(loop)來調(diào)控基因的表達(dá)皇帮。
那么我們先回歸一個(gè)最最基本的問題,那就是什么是基因蛋辈?在測(cè)序之前属拾,我們對(duì)基因的概念是模糊的,基因并不是簡(jiǎn)單的ATCG的組合冷溶,基因上游有啟動(dòng)子渐白,啟動(dòng)子上游有調(diào)控元件,如果說基因不需要調(diào)控逞频,那么我們把基因提取出來纯衍,放到試管里自然就會(huì)產(chǎn)生蛋白,這顯然是不可能的虏劲,那么就產(chǎn)生了第二個(gè)問題托酸,基因表達(dá)到底是通過什么樣的方式被激活的褒颈?
?我們知道DNA是雙螺旋結(jié)構(gòu)柒巫,雙螺旋的DNA纏繞在八聚體的核小體上,經(jīng)過進(jìn)一步折疊纏繞形成了30nm的微小管結(jié)構(gòu)谷丸,而微小管經(jīng)過進(jìn)一步折疊堡掏,最終形成了染色質(zhì)結(jié)構(gòu)。如果說我們?nèi)祟惣?xì)胞核內(nèi)的DNA拉直刨疼,大概有2m的長(zhǎng)度泉唁,但是最終折疊到幾十微米的細(xì)胞核中,如此致密的結(jié)構(gòu)會(huì)不會(huì)拉近基因之間在空間的距離揩慕,增大基因間的接觸從而調(diào)控基因的表達(dá)亭畜?
在1993年,人類基因組剛提出來迎卤,人們對(duì)基因的理解也不是很深入拴鸵,但大家普遍關(guān)心的一個(gè)問題就是基因的怎么被調(diào)控的。當(dāng)時(shí)有兩種假說,一種是線性模型劲藐,也就是基因組線性位置較近的基因元件之間更容易互相調(diào)控八堡。另一種是環(huán)狀模型,也就是說線性距離較遠(yuǎn)的基因組元件通過成環(huán)聘芜,是其在空間更為接近兄渺,從而影響基因表達(dá)。Cullen實(shí)驗(yàn)室對(duì)于第二種假說更為感興趣汰现,那么如何證明這一假說呢挂谍?
Cullen實(shí)驗(yàn)室用病毒質(zhì)粒包裹一個(gè)enhancer?和其調(diào)控的基因如下圖,A是enhancer?瞎饲,C是A調(diào)控的基因凳兵,AC之間夾著基因B,在ABC之間均有限制性內(nèi)切酶酶切位點(diǎn)企软。
如果基因表達(dá)調(diào)控是線性的話庐扫,那么經(jīng)過我們的限制性內(nèi)切酶酶切,平末端補(bǔ)平仗哨,跑膠之后形庭,B,C所在的酶切片段會(huì)更容易鏈接厌漂,BC鏈接的酶切片段大概為871bp萨醒,因此跑膠后,會(huì)在871處形成明亮的光帶苇倡,相反如果基因表達(dá)調(diào)控是環(huán)狀結(jié)構(gòu)的話富纸,AC?所在的酶切片段更容易鏈接,跑膠后旨椒,會(huì)在702bp處形成明亮的光帶晓褪,而最終通過跑膠的結(jié)果證實(shí)了基因的表達(dá)調(diào)控呈現(xiàn)一種環(huán)狀的結(jié)構(gòu)
?那么我們?cè)俅位仡櫼幌耤ullen實(shí)驗(yàn)室的做法
1.?構(gòu)建病毒載體,包裹基因與其調(diào)控元件
2.?利用HindIII限制性內(nèi)切酶進(jìn)行酶切
3.?組蛋白消化
4.?利用T4 DNA?連接酶進(jìn)行連接
5.?通過PCR擴(kuò)增
6.?跑凝膠電泳
時(shí)隔8年综慎,2002年dekker實(shí)驗(yàn)室在cullen實(shí)驗(yàn)室的基礎(chǔ)上提出了3C的概念 涣仿,從而打開了三維基因組的大門。那么3C?技術(shù)又是如何做的呢示惊?它在真核細(xì)胞中增加了甲醛交聯(lián)的步驟好港,這樣,就是將細(xì)胞固定住米罚,使其能夠維持生前最后一刻的形態(tài)钧汹,通過限制酶切割和平末端補(bǔ)平來獲得基因組上互作的片段,通過蛋白酶消化录择,以便后續(xù)進(jìn)行測(cè)序拔莱。通過設(shè)計(jì)一對(duì)引物类嗤,來釣取我們研究的感興趣的互作位點(diǎn),最后通過凝膠電泳來驗(yàn)證這兩點(diǎn)是否互作辨宠。
4C?是在3C的基礎(chǔ)上增加了雙酶切位點(diǎn)遗锣,促使其成環(huán),這樣在后期只需要設(shè)計(jì)一個(gè)引物就能獲得一個(gè)位點(diǎn)與多個(gè)位點(diǎn)的互作關(guān)系
而5C技術(shù)是基于3C技術(shù)嗤形,對(duì)于感興趣的一堆基因精偿,設(shè)計(jì)多對(duì)引物,通過PCR擴(kuò)增赋兵,這樣的話笔咽,就能知道多對(duì)多的互作,特定基因互作網(wǎng)絡(luò)的驗(yàn)證
由于設(shè)計(jì)引物人力物力消耗過大霹期,到了2009年叶组,dekker實(shí)驗(yàn)室果斷的放棄了引物的設(shè)計(jì),最大化的發(fā)揮了酶切位點(diǎn)的作用历造,通過生物素來釣取互作的片段
那么Hi-C?技術(shù)是怎么做的呢甩十?
首先,利用甲醛交聯(lián)吭产,固定細(xì)胞的形態(tài)侣监,通過限制性內(nèi)切酶進(jìn)行酶切,末端補(bǔ)平后臣淤,加生物素橄霉,進(jìn)行平末端連接,組蛋白進(jìn)行消化后通過磁珠進(jìn)行釣取邑蒋,最終獲得的兩端線性距離較遠(yuǎn)的互作片段姓蜂。對(duì)這些互作片段進(jìn)行測(cè)序,過濾医吊,比對(duì)钱慢,我們最終得到了Hi-C?的互作矩陣,每一個(gè)點(diǎn)遮咖,代表著基因組兩個(gè)位置的交互強(qiáng)度滩字,而從這些互作矩陣中,通過特定的算法御吞,我們能夠獲得基因組的高級(jí)空間結(jié)構(gòu)
Capture Hi-C?在Hi-C?文庫(kù)的基礎(chǔ)上,對(duì)感興趣的區(qū)域像外顯子流程那樣漓藕,用雜交的方式陶珠,利用特定的探針去雜,這樣就能特征性的富集感興趣區(qū)域的互作關(guān)系享钞。Capture Hi-C的優(yōu)點(diǎn)是用更少的數(shù)據(jù)量獲取更為精確的互作信息揍诽。那測(cè)序的對(duì)象來說诀蓉,對(duì)于同樣的數(shù)據(jù)量,Hi-C?測(cè)的是全基因組暑脆,而capture Hi-C?測(cè)的卻是感興趣的少量基因渠啤,我們把測(cè)序的數(shù)量比作粥,測(cè)序的基因比作僧人添吗,那么相對(duì)capture Hi-C?而言沥曹,Hi-C面臨的問題就是僧多粥少了
對(duì)C技術(shù)有了一個(gè)大概的印象之后,那么大家可能會(huì)想碟联,這些C技術(shù)各有什么優(yōu)缺點(diǎn)妓美?
3C技術(shù),得到的是一對(duì)一的互作關(guān)系鲤孵,如果我推測(cè)出一個(gè)基因與肌原細(xì)胞相關(guān)的基因myog互作演怎,那么測(cè)全基因組肯定是不劃算的忱叭,可以拿3C技術(shù)進(jìn)行驗(yàn)證 ,這個(gè)基因是否與myog互作。如果我只關(guān)心一個(gè)癌癥易感突變位點(diǎn)德谅,想知道它都與那些位點(diǎn)發(fā)生了互作,那么我就可通過4C技術(shù)來獲取這個(gè)位點(diǎn)的所有互作信息拍埠。Capture Hi-C?技術(shù)基于所想即所得的前提着逐,可以捕獲我們關(guān)注的基因區(qū)域。Capture Hi-C?是我們心中已有溝壑的情況下的一個(gè)精準(zhǔn)打擊漆际,而Hi-C則相當(dāng)于在信息不明的情況下的一個(gè)地毯式搜查
在介紹Hi-C的歷史時(shí)淆珊,我們提到,Hi-C?數(shù)據(jù)的分析時(shí)基于矩陣的奸汇,提到矩陣施符,就要提到劃bin,那么什么是劃bin擂找,劃bin就是基因組按照一定的大小劃分成n等份戳吝,那么我們將獲得nXn的互作矩陣。舉個(gè)例子來說贯涎,如果我們將基因組劃分成2份听哭,分別為A0,A1,那么A00代表的是A0內(nèi)部的互作信號(hào)。A01?代表的是A0與A1的互作情況塘雳。我們最終會(huì)得到一個(gè)2X2的矩陣陆盘。如果我們將基因組劃分成4份,我們得到的將會(huì)是一個(gè)4X4的交互矩陣败明。劃分成8份隘马,得到的是8X8的交互矩陣(如下圖)。
?
劃bin越小就越能接近細(xì)微的結(jié)構(gòu)妻顶。但是我們不能將bin無限劃小酸员,因?yàn)橥ㄟ^以往文獻(xiàn)的經(jīng)驗(yàn)來講蜒车,在數(shù)據(jù)量沒有達(dá)到一定的水平時(shí),為了研究更為細(xì)微的三維基因組結(jié)構(gòu)幔嗦,我們貿(mào)然將bin劃小酿愧, 這就類似于,在像素沒有達(dá)到一定的水平邀泉,我們貿(mào)然的放大圖像最終也只會(huì)得到一個(gè)模糊的影像嬉挡,并不能獲得精確的信息。
達(dá)到不同的數(shù)據(jù)量要求呼渣,我們可以分析不同的三維基因組結(jié)構(gòu)棘伴,而不同數(shù)據(jù)量衡量的指標(biāo)叫做分辨率,我們Hi-C的分辨率也是借鑒了光學(xué)分辨率的概念屁置,也就是達(dá)到了某一分辨率焊夸,我們能夠觀測(cè)到某一結(jié)構(gòu)。
那么對(duì)于Hi-C?而言蓝角,都有哪些不同層級(jí)的結(jié)構(gòu)呢阱穗?在80年代后期,通過熒光原位雜交發(fā)現(xiàn)在細(xì)胞核中使鹅,每條染色體都占據(jù)著獨(dú)立的區(qū)域揪阶,有著明顯的邊緣。Hi-C?可以通過互作的矩陣模擬染色體的三維空間結(jié)構(gòu)患朱。而對(duì)每一條染色體進(jìn)行分析鲁僚,我們發(fā)現(xiàn)每條染色體可以分為兩個(gè)部分一個(gè)是活躍的區(qū)域(A compartment)一個(gè)是不活躍的區(qū)域(B compartment)。再進(jìn)一步對(duì)compartment進(jìn)行研究裁厅,我們發(fā)現(xiàn)每個(gè)compartment內(nèi)部都有一些小的拓?fù)浣Y(jié)構(gòu)域(TAD)冰沙,在這些拓?fù)浣Y(jié)構(gòu)域內(nèi)部,基因間的互作比較頻繁执虹,而拓?fù)浣Y(jié)構(gòu)域之間的互作則比較少拓挥。深入到這些拓?fù)浣Y(jié)構(gòu)域的內(nèi)部,我們發(fā)現(xiàn)在這些拓?fù)浣Y(jié)構(gòu)域內(nèi)部總有一些基因區(qū)域之間的交互信號(hào)非常強(qiáng)烈袋励,這些稱之為loop侥啤。
簡(jiǎn)單介紹了一下Hi-C的各個(gè)高級(jí)結(jié)構(gòu),我們來看看我們具體是怎樣識(shí)別這些結(jié)構(gòu)的呢茬故?
這是一個(gè)Hi-C?染色體的三維建模盖灸,通過我們的Hi-C?矩陣,我們可以獲得每個(gè)bin的交互特征均牢,Pastis通過計(jì)算每個(gè)bin之間的歐式距離糠雨,來定位每個(gè)bin的空間坐標(biāo),這樣我們獲得了每個(gè)點(diǎn)的坐標(biāo)(x,y,z),之后通過pymol這位好搭檔來進(jìn)行可視化
通過對(duì)原始矩陣的觀察徘跪,我們發(fā)現(xiàn)原始矩陣中在熱圖上呈現(xiàn)的是格子狀甘邀,反映在數(shù)據(jù)上是這么一個(gè)情況,那么我們?cè)趺葱蜗笤掃@種現(xiàn)象呢垮庐?讓我們切換到電影幫派斗爭(zhēng)場(chǎng)景松邪,每個(gè)幫派在各個(gè)區(qū)域都有眼線,如果我們把熱圖中每個(gè)bin比作一個(gè)人的話哨查,那么每個(gè)點(diǎn)都是每?jī)蓚€(gè)人聯(lián)系的次數(shù)逗抑,我們發(fā)現(xiàn)總有一堆人與不同區(qū)域的另外一堆人聯(lián)系的比較密切,那么推理的話寒亥,這些人極有可能屬于同一幫派邮府。那么就有一個(gè)問題:1.是如何將這種現(xiàn)象放大,讓我們看的更清晰一些溉奕,對(duì)于數(shù)據(jù)科學(xué)家來說拿起的武器就是先進(jìn)行一個(gè)OE標(biāo)準(zhǔn)化之后做一個(gè)協(xié)方差處理(右圖)褂傀。根據(jù)結(jié)果來看,這種方式挺好加勤,我們的互作熱圖有著明顯的紅藍(lán)格子分布 那么第二個(gè)問題就是如何將整個(gè)基因組根據(jù)其交互形式分成兩類呢仙辟,這便運(yùn)用到了我們的降維工具PCA(主成分分析),通過主成分分析鳄梅,我們將基因組分成了兩類叠国。
紅的代表一類,藍(lán)的代表一類戴尸,那么這兩類有什么特點(diǎn)呢粟焊?結(jié)合基因表達(dá)數(shù)據(jù)以及ChIP數(shù)據(jù),我們發(fā)現(xiàn)其中一類基因表達(dá)程度平均較高孙蒙,富集了很多組蛋白結(jié)合位點(diǎn)项棠,這一類是相當(dāng)活躍的,科學(xué)家稱之為Acompartment马篮,相反另一類不活躍沾乘,稱之為B compartment
看完ABcompartment?,我們?cè)賮砜纯碩AD的鑒定浑测,TAD是因?yàn)榭茖W(xué)家將整個(gè)熱圖沿著對(duì)角線平鋪翅阵,發(fā)現(xiàn)有很多三角形的區(qū)域,這些三角形的區(qū)域在結(jié)構(gòu)上迁央,明顯是這一團(tuán)內(nèi)的基因交互的比較明顯嘛掷匠,而團(tuán)與團(tuán)還有明顯的邊界!這怎么理解呢岖圈,打個(gè)比方來說讹语,就相當(dāng)于我們安諾優(yōu)達(dá)分為信息分析部門,項(xiàng)目管理部門蜂科,實(shí)驗(yàn)部門顽决,部門之內(nèi)的交流發(fā)生是很頻繁的短条,而部門間的交流相對(duì)少一點(diǎn)。針對(duì)這一特點(diǎn)才菠,dekker實(shí)驗(yàn)室識(shí)別TAD原理是在HiC互作矩陣中劃定一個(gè)(500kb-3500kb)左右的范圍茸时,計(jì)算該范圍內(nèi)每個(gè)bin的互作數(shù),作為未標(biāo)準(zhǔn)化的insulation score,再計(jì)算bin的互作均值,通過計(jì)算公式log2(insulation score/mean)得到標(biāo)準(zhǔn)化的insulation score赋访。
為了確定TAD的邊界可都,需要再次計(jì)算邊界強(qiáng)度,對(duì)每一個(gè)bin設(shè)定一個(gè)更小的范圍(100kb)蚓耽,計(jì)算每個(gè)bin的上游100kb所有bin的均值mean left?和下游每個(gè)bin的均值mean right渠牲,邊界強(qiáng)度=mean left – mean right,當(dāng)boundary strength?高于設(shè)定的delta閾值時(shí)步悠,該reference Point就被認(rèn)為是TAD?邊界签杈。
Loop距離較遠(yuǎn)但是交互非常強(qiáng)烈的熱點(diǎn)。對(duì)于loop的識(shí)別目前流行的有兩種方法贤徒,一種是fit-Hic芹壕,另外一種是Hiccups。
我們先來看看hiccups接奈,hiccups是運(yùn)行在GPU上的軟件踢涌,它是一種圖形識(shí)別的算法。
它會(huì)識(shí)別loop的熱圖特征序宦。Hiccups識(shí)別的loops靈敏度低睁壁,準(zhǔn)確性高
而fit-Hic?的識(shí)別方法是通過單調(diào)遞減擬合來識(shí)別loop,fit-Hic?識(shí)別的loop靈敏性高準(zhǔn)確率低
對(duì)于Hi-C而言,最重要的是要找結(jié)構(gòu)上的差異
首先互捌,我們會(huì)考慮交互矩陣的差異
其次就是各個(gè)層級(jí)的差異比較
首先是ABcompartment的差異分析
之后是TAD的差異分析
核心是loop層級(jí)的比較:
當(dāng)然上面的比較只是最為常規(guī)的套路分析潘明,而真正分析還是要結(jié)合課題的設(shè)計(jì)。