【三維基因組】三維基因組的實(shí)驗(yàn)以及分析簡(jiǎn)介

到三維基因組學(xué)手幢,大家可能會(huì)問: 什么是三維基因組學(xué)这弧,三維基因組學(xué)是一門研究基因結(jié)構(gòu)與功能關(guān)系的組學(xué)娃闲。那我們就從基因結(jié)構(gòu)與功能相適應(yīng)的角度來看看C技術(shù)是如何一步一步發(fā)展成現(xiàn)在這個(gè)樣子的。下圖是我們分子生物學(xué)一個(gè)經(jīng)典的啟動(dòng)子增強(qiáng)子模型匾浪,普遍認(rèn)為enhancer會(huì)募集很多轉(zhuǎn)錄因子以及轉(zhuǎn)錄輔助因子結(jié)合到啟動(dòng)子區(qū)域形成一個(gè)環(huán)狀結(jié)構(gòu)(loop)來調(diào)控基因的表達(dá)皇帮。


那么我們先回歸一個(gè)最最基本的問題,那就是什么是基因蛋辈?在測(cè)序之前属拾,我們對(duì)基因的概念是模糊的,基因并不是簡(jiǎn)單的ATCG的組合冷溶,基因上游有啟動(dòng)子渐白,啟動(dòng)子上游有調(diào)控元件,如果說基因不需要調(diào)控逞频,那么我們把基因提取出來纯衍,放到試管里自然就會(huì)產(chǎn)生蛋白,這顯然是不可能的虏劲,那么就產(chǎn)生了第二個(gè)問題托酸,基因表達(dá)到底是通過什么樣的方式被激活的褒颈?

?我們知道DNA是雙螺旋結(jié)構(gòu)柒巫,雙螺旋的DNA纏繞在八聚體的核小體上,經(jīng)過進(jìn)一步折疊纏繞形成了30nm的微小管結(jié)構(gòu)谷丸,而微小管經(jīng)過進(jìn)一步折疊堡掏,最終形成了染色質(zhì)結(jié)構(gòu)。如果說我們?nèi)祟惣?xì)胞核內(nèi)的DNA拉直刨疼,大概有2m的長(zhǎng)度泉唁,但是最終折疊到幾十微米的細(xì)胞核中,如此致密的結(jié)構(gòu)會(huì)不會(huì)拉近基因之間在空間的距離揩慕,增大基因間的接觸從而調(diào)控基因的表達(dá)亭畜?


在1993年,人類基因組剛提出來迎卤,人們對(duì)基因的理解也不是很深入拴鸵,但大家普遍關(guān)心的一個(gè)問題就是基因的怎么被調(diào)控的。當(dāng)時(shí)有兩種假說,一種是線性模型劲藐,也就是基因組線性位置較近的基因元件之間更容易互相調(diào)控八堡。另一種是環(huán)狀模型,也就是說線性距離較遠(yuǎn)的基因組元件通過成環(huán)聘芜,是其在空間更為接近兄渺,從而影響基因表達(dá)。Cullen實(shí)驗(yàn)室對(duì)于第二種假說更為感興趣汰现,那么如何證明這一假說呢挂谍?

Cullen實(shí)驗(yàn)室用病毒質(zhì)粒包裹一個(gè)enhancer?和其調(diào)控的基因如下圖,A是enhancer?瞎饲,C是A調(diào)控的基因凳兵,AC之間夾著基因B,在ABC之間均有限制性內(nèi)切酶酶切位點(diǎn)企软。


如果基因表達(dá)調(diào)控是線性的話庐扫,那么經(jīng)過我們的限制性內(nèi)切酶酶切,平末端補(bǔ)平仗哨,跑膠之后形庭,B,C所在的酶切片段會(huì)更容易鏈接厌漂,BC鏈接的酶切片段大概為871bp萨醒,因此跑膠后,會(huì)在871處形成明亮的光帶苇倡,相反如果基因表達(dá)調(diào)控是環(huán)狀結(jié)構(gòu)的話富纸,AC?所在的酶切片段更容易鏈接,跑膠后旨椒,會(huì)在702bp處形成明亮的光帶晓褪,而最終通過跑膠的結(jié)果證實(shí)了基因的表達(dá)調(diào)控呈現(xiàn)一種環(huán)狀的結(jié)構(gòu)


?那么我們?cè)俅位仡櫼幌耤ullen實(shí)驗(yàn)室的做法

1.?構(gòu)建病毒載體,包裹基因與其調(diào)控元件

2.?利用HindIII限制性內(nèi)切酶進(jìn)行酶切

3.?組蛋白消化

4.?利用T4 DNA?連接酶進(jìn)行連接

5.?通過PCR擴(kuò)增

6.?跑凝膠電泳

時(shí)隔8年综慎,2002年dekker實(shí)驗(yàn)室在cullen實(shí)驗(yàn)室的基礎(chǔ)上提出了3C的概念 涣仿,從而打開了三維基因組的大門。那么3C?技術(shù)又是如何做的呢示惊?它在真核細(xì)胞中增加了甲醛交聯(lián)的步驟好港,這樣,就是將細(xì)胞固定住米罚,使其能夠維持生前最后一刻的形態(tài)钧汹,通過限制酶切割和平末端補(bǔ)平來獲得基因組上互作的片段,通過蛋白酶消化录择,以便后續(xù)進(jìn)行測(cè)序拔莱。通過設(shè)計(jì)一對(duì)引物类嗤,來釣取我們研究的感興趣的互作位點(diǎn),最后通過凝膠電泳來驗(yàn)證這兩點(diǎn)是否互作辨宠。



4C?是在3C的基礎(chǔ)上增加了雙酶切位點(diǎn)遗锣,促使其成環(huán),這樣在后期只需要設(shè)計(jì)一個(gè)引物就能獲得一個(gè)位點(diǎn)與多個(gè)位點(diǎn)的互作關(guān)系



而5C技術(shù)是基于3C技術(shù)嗤形,對(duì)于感興趣的一堆基因精偿,設(shè)計(jì)多對(duì)引物,通過PCR擴(kuò)增赋兵,這樣的話笔咽,就能知道多對(duì)多的互作,特定基因互作網(wǎng)絡(luò)的驗(yàn)證


由于設(shè)計(jì)引物人力物力消耗過大霹期,到了2009年叶组,dekker實(shí)驗(yàn)室果斷的放棄了引物的設(shè)計(jì),最大化的發(fā)揮了酶切位點(diǎn)的作用历造,通過生物素來釣取互作的片段



那么Hi-C?技術(shù)是怎么做的呢甩十?

首先,利用甲醛交聯(lián)吭产,固定細(xì)胞的形態(tài)侣监,通過限制性內(nèi)切酶進(jìn)行酶切,末端補(bǔ)平后臣淤,加生物素橄霉,進(jìn)行平末端連接,組蛋白進(jìn)行消化后通過磁珠進(jìn)行釣取邑蒋,最終獲得的兩端線性距離較遠(yuǎn)的互作片段姓蜂。對(duì)這些互作片段進(jìn)行測(cè)序,過濾医吊,比對(duì)钱慢,我們最終得到了Hi-C?的互作矩陣,每一個(gè)點(diǎn)遮咖,代表著基因組兩個(gè)位置的交互強(qiáng)度滩字,而從這些互作矩陣中,通過特定的算法御吞,我們能夠獲得基因組的高級(jí)空間結(jié)構(gòu)



Capture Hi-C?在Hi-C?文庫(kù)的基礎(chǔ)上,對(duì)感興趣的區(qū)域像外顯子流程那樣漓藕,用雜交的方式陶珠,利用特定的探針去雜,這樣就能特征性的富集感興趣區(qū)域的互作關(guān)系享钞。Capture Hi-C的優(yōu)點(diǎn)是用更少的數(shù)據(jù)量獲取更為精確的互作信息揍诽。那測(cè)序的對(duì)象來說诀蓉,對(duì)于同樣的數(shù)據(jù)量,Hi-C?測(cè)的是全基因組暑脆,而capture Hi-C?測(cè)的卻是感興趣的少量基因渠啤,我們把測(cè)序的數(shù)量比作粥,測(cè)序的基因比作僧人添吗,那么相對(duì)capture Hi-C?而言沥曹,Hi-C面臨的問題就是僧多粥少了


對(duì)C技術(shù)有了一個(gè)大概的印象之后,那么大家可能會(huì)想碟联,這些C技術(shù)各有什么優(yōu)缺點(diǎn)妓美?


3C技術(shù),得到的是一對(duì)一的互作關(guān)系鲤孵,如果我推測(cè)出一個(gè)基因與肌原細(xì)胞相關(guān)的基因myog互作演怎,那么測(cè)全基因組肯定是不劃算的忱叭,可以拿3C技術(shù)進(jìn)行驗(yàn)證 ,這個(gè)基因是否與myog互作。如果我只關(guān)心一個(gè)癌癥易感突變位點(diǎn)德谅,想知道它都與那些位點(diǎn)發(fā)生了互作,那么我就可通過4C技術(shù)來獲取這個(gè)位點(diǎn)的所有互作信息拍埠。Capture Hi-C?技術(shù)基于所想即所得的前提着逐,可以捕獲我們關(guān)注的基因區(qū)域。Capture Hi-C?是我們心中已有溝壑的情況下的一個(gè)精準(zhǔn)打擊漆际,而Hi-C則相當(dāng)于在信息不明的情況下的一個(gè)地毯式搜查

在介紹Hi-C的歷史時(shí)淆珊,我們提到,Hi-C?數(shù)據(jù)的分析時(shí)基于矩陣的奸汇,提到矩陣施符,就要提到劃bin,那么什么是劃bin擂找,劃bin就是基因組按照一定的大小劃分成n等份戳吝,那么我們將獲得nXn的互作矩陣。舉個(gè)例子來說贯涎,如果我們將基因組劃分成2份听哭,分別為A0,A1,那么A00代表的是A0內(nèi)部的互作信號(hào)。A01?代表的是A0與A1的互作情況塘雳。我們最終會(huì)得到一個(gè)2X2的矩陣陆盘。如果我們將基因組劃分成4份,我們得到的將會(huì)是一個(gè)4X4的交互矩陣败明。劃分成8份隘马,得到的是8X8的交互矩陣(如下圖)。

?


劃bin越小就越能接近細(xì)微的結(jié)構(gòu)妻顶。但是我們不能將bin無限劃小酸员,因?yàn)橥ㄟ^以往文獻(xiàn)的經(jīng)驗(yàn)來講蜒车,在數(shù)據(jù)量沒有達(dá)到一定的水平時(shí),為了研究更為細(xì)微的三維基因組結(jié)構(gòu)幔嗦,我們貿(mào)然將bin劃小酿愧, 這就類似于,在像素沒有達(dá)到一定的水平邀泉,我們貿(mào)然的放大圖像最終也只會(huì)得到一個(gè)模糊的影像嬉挡,并不能獲得精確的信息。



達(dá)到不同的數(shù)據(jù)量要求呼渣,我們可以分析不同的三維基因組結(jié)構(gòu)棘伴,而不同數(shù)據(jù)量衡量的指標(biāo)叫做分辨率,我們Hi-C的分辨率也是借鑒了光學(xué)分辨率的概念屁置,也就是達(dá)到了某一分辨率焊夸,我們能夠觀測(cè)到某一結(jié)構(gòu)。


那么對(duì)于Hi-C?而言蓝角,都有哪些不同層級(jí)的結(jié)構(gòu)呢阱穗?在80年代后期,通過熒光原位雜交發(fā)現(xiàn)在細(xì)胞核中使鹅,每條染色體都占據(jù)著獨(dú)立的區(qū)域揪阶,有著明顯的邊緣。Hi-C?可以通過互作的矩陣模擬染色體的三維空間結(jié)構(gòu)患朱。而對(duì)每一條染色體進(jìn)行分析鲁僚,我們發(fā)現(xiàn)每條染色體可以分為兩個(gè)部分一個(gè)是活躍的區(qū)域(A compartment)一個(gè)是不活躍的區(qū)域(B compartment)。再進(jìn)一步對(duì)compartment進(jìn)行研究裁厅,我們發(fā)現(xiàn)每個(gè)compartment內(nèi)部都有一些小的拓?fù)浣Y(jié)構(gòu)域(TAD)冰沙,在這些拓?fù)浣Y(jié)構(gòu)域內(nèi)部,基因間的互作比較頻繁执虹,而拓?fù)浣Y(jié)構(gòu)域之間的互作則比較少拓挥。深入到這些拓?fù)浣Y(jié)構(gòu)域的內(nèi)部,我們發(fā)現(xiàn)在這些拓?fù)浣Y(jié)構(gòu)域內(nèi)部總有一些基因區(qū)域之間的交互信號(hào)非常強(qiáng)烈袋励,這些稱之為loop侥啤。


簡(jiǎn)單介紹了一下Hi-C的各個(gè)高級(jí)結(jié)構(gòu),我們來看看我們具體是怎樣識(shí)別這些結(jié)構(gòu)的呢茬故?

這是一個(gè)Hi-C?染色體的三維建模盖灸,通過我們的Hi-C?矩陣,我們可以獲得每個(gè)bin的交互特征均牢,Pastis通過計(jì)算每個(gè)bin之間的歐式距離糠雨,來定位每個(gè)bin的空間坐標(biāo),這樣我們獲得了每個(gè)點(diǎn)的坐標(biāo)(x,y,z),之后通過pymol這位好搭檔來進(jìn)行可視化


通過對(duì)原始矩陣的觀察徘跪,我們發(fā)現(xiàn)原始矩陣中在熱圖上呈現(xiàn)的是格子狀甘邀,反映在數(shù)據(jù)上是這么一個(gè)情況,那么我們?cè)趺葱蜗笤掃@種現(xiàn)象呢垮庐?讓我們切換到電影幫派斗爭(zhēng)場(chǎng)景松邪,每個(gè)幫派在各個(gè)區(qū)域都有眼線,如果我們把熱圖中每個(gè)bin比作一個(gè)人的話哨查,那么每個(gè)點(diǎn)都是每?jī)蓚€(gè)人聯(lián)系的次數(shù)逗抑,我們發(fā)現(xiàn)總有一堆人與不同區(qū)域的另外一堆人聯(lián)系的比較密切,那么推理的話寒亥,這些人極有可能屬于同一幫派邮府。那么就有一個(gè)問題:1.是如何將這種現(xiàn)象放大,讓我們看的更清晰一些溉奕,對(duì)于數(shù)據(jù)科學(xué)家來說拿起的武器就是先進(jìn)行一個(gè)OE標(biāo)準(zhǔn)化之后做一個(gè)協(xié)方差處理(右圖)褂傀。根據(jù)結(jié)果來看,這種方式挺好加勤,我們的互作熱圖有著明顯的紅藍(lán)格子分布 那么第二個(gè)問題就是如何將整個(gè)基因組根據(jù)其交互形式分成兩類呢仙辟,這便運(yùn)用到了我們的降維工具PCA(主成分分析),通過主成分分析鳄梅,我們將基因組分成了兩類叠国。

紅的代表一類,藍(lán)的代表一類戴尸,那么這兩類有什么特點(diǎn)呢粟焊?結(jié)合基因表達(dá)數(shù)據(jù)以及ChIP數(shù)據(jù),我們發(fā)現(xiàn)其中一類基因表達(dá)程度平均較高孙蒙,富集了很多組蛋白結(jié)合位點(diǎn)项棠,這一類是相當(dāng)活躍的,科學(xué)家稱之為Acompartment马篮,相反另一類不活躍沾乘,稱之為B compartment



看完ABcompartment?,我們?cè)賮砜纯碩AD的鑒定浑测,TAD是因?yàn)榭茖W(xué)家將整個(gè)熱圖沿著對(duì)角線平鋪翅阵,發(fā)現(xiàn)有很多三角形的區(qū)域,這些三角形的區(qū)域在結(jié)構(gòu)上迁央,明顯是這一團(tuán)內(nèi)的基因交互的比較明顯嘛掷匠,而團(tuán)與團(tuán)還有明顯的邊界!這怎么理解呢岖圈,打個(gè)比方來說讹语,就相當(dāng)于我們安諾優(yōu)達(dá)分為信息分析部門,項(xiàng)目管理部門蜂科,實(shí)驗(yàn)部門顽决,部門之內(nèi)的交流發(fā)生是很頻繁的短条,而部門間的交流相對(duì)少一點(diǎn)。針對(duì)這一特點(diǎn)才菠,dekker實(shí)驗(yàn)室識(shí)別TAD原理是在HiC互作矩陣中劃定一個(gè)(500kb-3500kb)左右的范圍茸时,計(jì)算該范圍內(nèi)每個(gè)bin的互作數(shù),作為未標(biāo)準(zhǔn)化的insulation score,再計(jì)算bin的互作均值,通過計(jì)算公式log2(insulation score/mean)得到標(biāo)準(zhǔn)化的insulation score赋访。

為了確定TAD的邊界可都,需要再次計(jì)算邊界強(qiáng)度,對(duì)每一個(gè)bin設(shè)定一個(gè)更小的范圍(100kb)蚓耽,計(jì)算每個(gè)bin的上游100kb所有bin的均值mean left?和下游每個(gè)bin的均值mean right渠牲,邊界強(qiáng)度=mean left – mean right,當(dāng)boundary strength?高于設(shè)定的delta閾值時(shí)步悠,該reference Point就被認(rèn)為是TAD?邊界签杈。


Loop距離較遠(yuǎn)但是交互非常強(qiáng)烈的熱點(diǎn)。對(duì)于loop的識(shí)別目前流行的有兩種方法贤徒,一種是fit-Hic芹壕,另外一種是Hiccups。

我們先來看看hiccups接奈,hiccups是運(yùn)行在GPU上的軟件踢涌,它是一種圖形識(shí)別的算法。

它會(huì)識(shí)別loop的熱圖特征序宦。Hiccups識(shí)別的loops靈敏度低睁壁,準(zhǔn)確性高


而fit-Hic?的識(shí)別方法是通過單調(diào)遞減擬合來識(shí)別loop,fit-Hic?識(shí)別的loop靈敏性高準(zhǔn)確率低


對(duì)于Hi-C而言,最重要的是要找結(jié)構(gòu)上的差異

首先互捌,我們會(huì)考慮交互矩陣的差異


其次就是各個(gè)層級(jí)的差異比較

首先是ABcompartment的差異分析

之后是TAD的差異分析


核心是loop層級(jí)的比較:


當(dāng)然上面的比較只是最為常規(guī)的套路分析潘明,而真正分析還是要結(jié)合課題的設(shè)計(jì)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末秕噪,一起剝皮案震驚了整個(gè)濱河市钳降,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌腌巾,老刑警劉巖遂填,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異澈蝙,居然都是意外死亡吓坚,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門灯荧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來礁击,“玉大人,你說我怎么就攤上這事《吡” “怎么了链烈?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)更耻。 經(jīng)常有香客問我测垛,道長(zhǎng)捏膨,這世上最難降的妖魔是什么秧均? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮号涯,結(jié)果婚禮上目胡,老公的妹妹穿的比我還像新娘。我一直安慰自己链快,他們只是感情好誉己,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著域蜗,像睡著了一般巨双。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上霉祸,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天筑累,我揣著相機(jī)與錄音,去河邊找鬼丝蹭。 笑死慢宗,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的奔穿。 我是一名探鬼主播镜沽,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼贱田!你這毒婦竟也來了缅茉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤男摧,失蹤者是張志新(化名)和其女友劉穎蔬墩,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體彩倚,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡筹我,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了帆离。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蔬蕊。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出岸夯,到底是詐尸還是另有隱情麻献,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布猜扮,位于F島的核電站勉吻,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏旅赢。R本人自食惡果不足惜齿桃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望煮盼。 院中可真熱鬧短纵,春花似錦、人聲如沸僵控。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽报破。三九已至悠就,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間充易,已是汗流浹背梗脾。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蔽氨,地道東北人藐唠。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像鹉究,于是被迫代替她去往敵國(guó)和親宇立。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容