【三維基因組】三維基因組的實(shí)驗(yàn)以及分析簡(jiǎn)介

到三維基因組學(xué)手幢，大家可能會(huì)問：什么是三維基因組學(xué)这弧，三維基因組學(xué)是一門研究基因結(jié)構(gòu)與功能關(guān)系的組學(xué)娃闲。那我們就從基因結(jié)構(gòu)與功能相適應(yīng)的角度來看看C技術(shù)是如何一步一步發(fā)展成現(xiàn)在這個(gè)樣子的。下圖是我們分子生物學(xué)一個(gè)經(jīng)典的啟動(dòng)子增強(qiáng)子模型匾浪，普遍認(rèn)為enhancer會(huì)募集很多轉(zhuǎn)錄因子以及轉(zhuǎn)錄輔助因子結(jié)合到啟動(dòng)子區(qū)域形成一個(gè)環(huán)狀結(jié)構(gòu)（loop）來調(diào)控基因的表達(dá)皇帮。

那么我們先回歸一個(gè)最最基本的問題，那就是什么是基因蛋辈？在測(cè)序之前属拾，我們對(duì)基因的概念是模糊的，基因并不是簡(jiǎn)單的ATCG的組合冷溶，基因上游有啟動(dòng)子渐白，啟動(dòng)子上游有調(diào)控元件，如果說基因不需要調(diào)控逞频，那么我們把基因提取出來纯衍，放到試管里自然就會(huì)產(chǎn)生蛋白，這顯然是不可能的虏劲，那么就產(chǎn)生了第二個(gè)問題托酸，基因表達(dá)到底是通過什么樣的方式被激活的褒颈？

?我們知道DNA是雙螺旋結(jié)構(gòu)柒巫，雙螺旋的DNA纏繞在八聚體的核小體上，經(jīng)過進(jìn)一步折疊纏繞形成了30nm的微小管結(jié)構(gòu)谷丸，而微小管經(jīng)過進(jìn)一步折疊堡掏，最終形成了染色質(zhì)結(jié)構(gòu)。如果說我們?nèi)祟惣?xì)胞核內(nèi)的DNA拉直刨疼，大概有2m的長(zhǎng)度泉唁，但是最終折疊到幾十微米的細(xì)胞核中，如此致密的結(jié)構(gòu)會(huì)不會(huì)拉近基因之間在空間的距離揩慕，增大基因間的接觸從而調(diào)控基因的表達(dá)亭畜？

在1993年，人類基因組剛提出來迎卤，人們對(duì)基因的理解也不是很深入拴鸵，但大家普遍關(guān)心的一個(gè)問題就是基因的怎么被調(diào)控的。當(dāng)時(shí)有兩種假說，一種是線性模型劲藐，也就是基因組線性位置較近的基因元件之間更容易互相調(diào)控八堡。另一種是環(huán)狀模型，也就是說線性距離較遠(yuǎn)的基因組元件通過成環(huán)聘芜，是其在空間更為接近兄渺，從而影響基因表達(dá)。Cullen實(shí)驗(yàn)室對(duì)于第二種假說更為感興趣汰现，那么如何證明這一假說呢挂谍？

Cullen實(shí)驗(yàn)室用病毒質(zhì)粒包裹一個(gè)enhancer?和其調(diào)控的基因如下圖，A是enhancer?瞎饲，C是A調(diào)控的基因凳兵，AC之間夾著基因B，在ABC之間均有限制性內(nèi)切酶酶切位點(diǎn)企软。

如果基因表達(dá)調(diào)控是線性的話庐扫，那么經(jīng)過我們的限制性內(nèi)切酶酶切，平末端補(bǔ)平仗哨，跑膠之后形庭，B，C所在的酶切片段會(huì)更容易鏈接厌漂，BC鏈接的酶切片段大概為871bp萨醒，因此跑膠后，會(huì)在871處形成明亮的光帶苇倡，相反如果基因表達(dá)調(diào)控是環(huán)狀結(jié)構(gòu)的話富纸，AC?所在的酶切片段更容易鏈接，跑膠后旨椒，會(huì)在702bp處形成明亮的光帶晓褪，而最終通過跑膠的結(jié)果證實(shí)了基因的表達(dá)調(diào)控呈現(xiàn)一種環(huán)狀的結(jié)構(gòu)

?那么我們?cè)俅位仡櫼幌耤ullen實(shí)驗(yàn)室的做法

1.?構(gòu)建病毒載體，包裹基因與其調(diào)控元件

2.?利用HindIII限制性內(nèi)切酶進(jìn)行酶切

3.?組蛋白消化

4.?利用T4 DNA?連接酶進(jìn)行連接

5.?通過PCR擴(kuò)增

6.?跑凝膠電泳

時(shí)隔8年综慎，2002年dekker實(shí)驗(yàn)室在cullen實(shí)驗(yàn)室的基礎(chǔ)上提出了3C的概念涣仿，從而打開了三維基因組的大門。那么3C?技術(shù)又是如何做的呢示惊？它在真核細(xì)胞中增加了甲醛交聯(lián)的步驟好港，這樣，就是將細(xì)胞固定住米罚，使其能夠維持生前最后一刻的形態(tài)钧汹，通過限制酶切割和平末端補(bǔ)平來獲得基因組上互作的片段，通過蛋白酶消化录择，以便后續(xù)進(jìn)行測(cè)序拔莱。通過設(shè)計(jì)一對(duì)引物类嗤，來釣取我們研究的感興趣的互作位點(diǎn)，最后通過凝膠電泳來驗(yàn)證這兩點(diǎn)是否互作辨宠。

4C?是在3C的基礎(chǔ)上增加了雙酶切位點(diǎn)遗锣，促使其成環(huán)，這樣在后期只需要設(shè)計(jì)一個(gè)引物就能獲得一個(gè)位點(diǎn)與多個(gè)位點(diǎn)的互作關(guān)系

而5C技術(shù)是基于3C技術(shù)嗤形，對(duì)于感興趣的一堆基因精偿，設(shè)計(jì)多對(duì)引物，通過PCR擴(kuò)增赋兵，這樣的話笔咽，就能知道多對(duì)多的互作，特定基因互作網(wǎng)絡(luò)的驗(yàn)證

由于設(shè)計(jì)引物人力物力消耗過大霹期，到了2009年叶组，dekker實(shí)驗(yàn)室果斷的放棄了引物的設(shè)計(jì)，最大化的發(fā)揮了酶切位點(diǎn)的作用历造，通過生物素來釣取互作的片段

那么Hi-C?技術(shù)是怎么做的呢甩十？

首先，利用甲醛交聯(lián)吭产，固定細(xì)胞的形態(tài)侣监，通過限制性內(nèi)切酶進(jìn)行酶切，末端補(bǔ)平后臣淤，加生物素橄霉，進(jìn)行平末端連接，組蛋白進(jìn)行消化后通過磁珠進(jìn)行釣取邑蒋，最終獲得的兩端線性距離較遠(yuǎn)的互作片段姓蜂。對(duì)這些互作片段進(jìn)行測(cè)序，過濾医吊，比對(duì)钱慢，我們最終得到了Hi-C?的互作矩陣，每一個(gè)點(diǎn)遮咖，代表著基因組兩個(gè)位置的交互強(qiáng)度滩字，而從這些互作矩陣中，通過特定的算法御吞，我們能夠獲得基因組的高級(jí)空間結(jié)構(gòu)

Capture Hi-C?在Hi-C?文庫(kù)的基礎(chǔ)上，對(duì)感興趣的區(qū)域像外顯子流程那樣漓藕，用雜交的方式陶珠，利用特定的探針去雜，這樣就能特征性的富集感興趣區(qū)域的互作關(guān)系享钞。Capture Hi-C的優(yōu)點(diǎn)是用更少的數(shù)據(jù)量獲取更為精確的互作信息揍诽。那測(cè)序的對(duì)象來說诀蓉，對(duì)于同樣的數(shù)據(jù)量，Hi-C?測(cè)的是全基因組暑脆，而capture Hi-C?測(cè)的卻是感興趣的少量基因渠啤，我們把測(cè)序的數(shù)量比作粥，測(cè)序的基因比作僧人添吗，那么相對(duì)capture Hi-C?而言沥曹，Hi-C面臨的問題就是僧多粥少了

對(duì)C技術(shù)有了一個(gè)大概的印象之后，那么大家可能會(huì)想碟联，這些C技術(shù)各有什么優(yōu)缺點(diǎn)妓美？

3C技術(shù)，得到的是一對(duì)一的互作關(guān)系鲤孵，如果我推測(cè)出一個(gè)基因與肌原細(xì)胞相關(guān)的基因myog互作演怎，那么測(cè)全基因組肯定是不劃算的忱叭，可以拿3C技術(shù)進(jìn)行驗(yàn)證，這個(gè)基因是否與myog互作。如果我只關(guān)心一個(gè)癌癥易感突變位點(diǎn)德谅，想知道它都與那些位點(diǎn)發(fā)生了互作，那么我就可通過4C技術(shù)來獲取這個(gè)位點(diǎn)的所有互作信息拍埠。Capture Hi-C?技術(shù)基于所想即所得的前提着逐，可以捕獲我們關(guān)注的基因區(qū)域。Capture Hi-C?是我們心中已有溝壑的情況下的一個(gè)精準(zhǔn)打擊漆际，而Hi-C則相當(dāng)于在信息不明的情況下的一個(gè)地毯式搜查

在介紹Hi-C的歷史時(shí)淆珊，我們提到，Hi-C?數(shù)據(jù)的分析時(shí)基于矩陣的奸汇，提到矩陣施符，就要提到劃bin，那么什么是劃bin擂找，劃bin就是基因組按照一定的大小劃分成n等份戳吝，那么我們將獲得nXn的互作矩陣。舉個(gè)例子來說贯涎，如果我們將基因組劃分成2份听哭，分別為A0,A1,那么A00代表的是A0內(nèi)部的互作信號(hào)。A01?代表的是A0與A1的互作情況塘雳。我們最終會(huì)得到一個(gè)2X2的矩陣陆盘。如果我們將基因組劃分成4份，我們得到的將會(huì)是一個(gè)4X4的交互矩陣败明。劃分成8份隘马，得到的是8X8的交互矩陣（如下圖）。

劃bin越小就越能接近細(xì)微的結(jié)構(gòu)妻顶。但是我們不能將bin無限劃小酸员，因?yàn)橥ㄟ^以往文獻(xiàn)的經(jīng)驗(yàn)來講蜒车，在數(shù)據(jù)量沒有達(dá)到一定的水平時(shí)，為了研究更為細(xì)微的三維基因組結(jié)構(gòu)幔嗦，我們貿(mào)然將bin劃小酿愧，這就類似于，在像素沒有達(dá)到一定的水平邀泉，我們貿(mào)然的放大圖像最終也只會(huì)得到一個(gè)模糊的影像嬉挡，并不能獲得精確的信息。

達(dá)到不同的數(shù)據(jù)量要求呼渣，我們可以分析不同的三維基因組結(jié)構(gòu)棘伴，而不同數(shù)據(jù)量衡量的指標(biāo)叫做分辨率，我們Hi-C的分辨率也是借鑒了光學(xué)分辨率的概念屁置，也就是達(dá)到了某一分辨率焊夸，我們能夠觀測(cè)到某一結(jié)構(gòu)。

那么對(duì)于Hi-C?而言蓝角，都有哪些不同層級(jí)的結(jié)構(gòu)呢阱穗？在80年代后期，通過熒光原位雜交發(fā)現(xiàn)在細(xì)胞核中使鹅，每條染色體都占據(jù)著獨(dú)立的區(qū)域揪阶，有著明顯的邊緣。Hi-C?可以通過互作的矩陣模擬染色體的三維空間結(jié)構(gòu)患朱。而對(duì)每一條染色體進(jìn)行分析鲁僚，我們發(fā)現(xiàn)每條染色體可以分為兩個(gè)部分一個(gè)是活躍的區(qū)域（A compartment）一個(gè)是不活躍的區(qū)域（B compartment）。再進(jìn)一步對(duì)compartment進(jìn)行研究裁厅，我們發(fā)現(xiàn)每個(gè)compartment內(nèi)部都有一些小的拓?fù)浣Y(jié)構(gòu)域（TAD）冰沙，在這些拓?fù)浣Y(jié)構(gòu)域內(nèi)部，基因間的互作比較頻繁执虹，而拓?fù)浣Y(jié)構(gòu)域之間的互作則比較少拓挥。深入到這些拓?fù)浣Y(jié)構(gòu)域的內(nèi)部，我們發(fā)現(xiàn)在這些拓?fù)浣Y(jié)構(gòu)域內(nèi)部總有一些基因區(qū)域之間的交互信號(hào)非常強(qiáng)烈袋励，這些稱之為loop侥啤。

簡(jiǎn)單介紹了一下Hi-C的各個(gè)高級(jí)結(jié)構(gòu)，我們來看看我們具體是怎樣識(shí)別這些結(jié)構(gòu)的呢茬故？

這是一個(gè)Hi-C?染色體的三維建模盖灸，通過我們的Hi-C?矩陣，我們可以獲得每個(gè)bin的交互特征均牢，Pastis通過計(jì)算每個(gè)bin之間的歐式距離糠雨，來定位每個(gè)bin的空間坐標(biāo)，這樣我們獲得了每個(gè)點(diǎn)的坐標(biāo)（x,y,z）,之后通過pymol這位好搭檔來進(jìn)行可視化

通過對(duì)原始矩陣的觀察徘跪，我們發(fā)現(xiàn)原始矩陣中在熱圖上呈現(xiàn)的是格子狀甘邀，反映在數(shù)據(jù)上是這么一個(gè)情況，那么我們?cè)趺葱蜗笤掃@種現(xiàn)象呢垮庐？讓我們切換到電影幫派斗爭(zhēng)場(chǎng)景松邪，每個(gè)幫派在各個(gè)區(qū)域都有眼線，如果我們把熱圖中每個(gè)bin比作一個(gè)人的話哨查，那么每個(gè)點(diǎn)都是每?jī)蓚€(gè)人聯(lián)系的次數(shù)逗抑，我們發(fā)現(xiàn)總有一堆人與不同區(qū)域的另外一堆人聯(lián)系的比較密切，那么推理的話寒亥，這些人極有可能屬于同一幫派邮府。那么就有一個(gè)問題：1.是如何將這種現(xiàn)象放大，讓我們看的更清晰一些溉奕，對(duì)于數(shù)據(jù)科學(xué)家來說拿起的武器就是先進(jìn)行一個(gè)OE標(biāo)準(zhǔn)化之后做一個(gè)協(xié)方差處理（右圖）褂傀。根據(jù)結(jié)果來看，這種方式挺好加勤，我們的互作熱圖有著明顯的紅藍(lán)格子分布那么第二個(gè)問題就是如何將整個(gè)基因組根據(jù)其交互形式分成兩類呢仙辟，這便運(yùn)用到了我們的降維工具PCA（主成分分析），通過主成分分析鳄梅，我們將基因組分成了兩類叠国。

紅的代表一類，藍(lán)的代表一類戴尸，那么這兩類有什么特點(diǎn)呢粟焊？結(jié)合基因表達(dá)數(shù)據(jù)以及ChIP數(shù)據(jù)，我們發(fā)現(xiàn)其中一類基因表達(dá)程度平均較高孙蒙，富集了很多組蛋白結(jié)合位點(diǎn)项棠，這一類是相當(dāng)活躍的，科學(xué)家稱之為Acompartment马篮，相反另一類不活躍沾乘，稱之為B compartment

看完ABcompartment?，我們?cè)賮砜纯碩AD的鑒定浑测，TAD是因?yàn)榭茖W(xué)家將整個(gè)熱圖沿著對(duì)角線平鋪翅阵，發(fā)現(xiàn)有很多三角形的區(qū)域，這些三角形的區(qū)域在結(jié)構(gòu)上迁央，明顯是這一團(tuán)內(nèi)的基因交互的比較明顯嘛掷匠，而團(tuán)與團(tuán)還有明顯的邊界！這怎么理解呢岖圈，打個(gè)比方來說讹语，就相當(dāng)于我們安諾優(yōu)達(dá)分為信息分析部門，項(xiàng)目管理部門蜂科，實(shí)驗(yàn)部門顽决，部門之內(nèi)的交流發(fā)生是很頻繁的短条，而部門間的交流相對(duì)少一點(diǎn)。針對(duì)這一特點(diǎn)才菠，dekker實(shí)驗(yàn)室識(shí)別TAD原理是在HiC互作矩陣中劃定一個(gè)（500kb-3500kb）左右的范圍茸时，計(jì)算該范圍內(nèi)每個(gè)bin的互作數(shù)，作為未標(biāo)準(zhǔn)化的insulation score,再計(jì)算bin的互作均值,通過計(jì)算公式log2(insulation score/mean)得到標(biāo)準(zhǔn)化的insulation score赋访。

為了確定TAD的邊界可都，需要再次計(jì)算邊界強(qiáng)度，對(duì)每一個(gè)bin設(shè)定一個(gè)更小的范圍（100kb）蚓耽，計(jì)算每個(gè)bin的上游100kb所有bin的均值mean left?和下游每個(gè)bin的均值mean right渠牲，邊界強(qiáng)度=mean left – mean right，當(dāng)boundary strength?高于設(shè)定的delta閾值時(shí)步悠，該reference Point就被認(rèn)為是TAD?邊界签杈。

Loop距離較遠(yuǎn)但是交互非常強(qiáng)烈的熱點(diǎn)。對(duì)于loop的識(shí)別目前流行的有兩種方法贤徒，一種是fit-Hic芹壕，另外一種是Hiccups。

我們先來看看hiccups接奈，hiccups是運(yùn)行在GPU上的軟件踢涌，它是一種圖形識(shí)別的算法。

它會(huì)識(shí)別loop的熱圖特征序宦。Hiccups識(shí)別的loops靈敏度低睁壁，準(zhǔn)確性高

而fit-Hic?的識(shí)別方法是通過單調(diào)遞減擬合來識(shí)別loop,fit-Hic?識(shí)別的loop靈敏性高準(zhǔn)確率低

對(duì)于Hi-C而言，最重要的是要找結(jié)構(gòu)上的差異

首先互捌，我們會(huì)考慮交互矩陣的差異

其次就是各個(gè)層級(jí)的差異比較

首先是ABcompartment的差異分析

之后是TAD的差異分析

核心是loop層級(jí)的比較：

當(dāng)然上面的比較只是最為常規(guī)的套路分析潘明，而真正分析還是要結(jié)合課題的設(shè)計(jì)。

最后編輯于：2020.07.13 10:49:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末秕噪，一起剝皮案震驚了整個(gè)濱河市钳降，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌腌巾，老刑警劉巖遂填，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異澈蝙，居然都是意外死亡吓坚，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門灯荧，熙熙樓的掌柜王于貴愁眉苦臉地迎上來礁击，“玉大人，你說我怎么就攤上這事《吡” “怎么了链烈？”我有些...
開封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)更耻。經(jīng)常有香客問我测垛，道長(zhǎng)捏膨，這世上最難降的妖魔是什么秧均？我笑而不...
開封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮号涯，結(jié)果婚禮上目胡，老公的妹妹穿的比我還像新娘。我一直安慰自己链快，他們只是感情好誉己，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著域蜗，像睡著了一般巨双。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上霉祸，一...
開封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說
那天筑累，我揣著相機(jī)與錄音，去河邊找鬼丝蹭。笑死慢宗，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的奔穿。我是一名探鬼主播镜沽，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼贱田！你這毒婦竟也來了缅茉？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤男摧，失蹤者是張志新（化名）和其女友劉穎蔬墩，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體彩倚，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡筹我，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了帆离。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蔬蕊。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出岸夯，到底是詐尸還是另有隱情麻献，我是刑警寧澤，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布猜扮，位于F島的核電站勉吻，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏旅赢。R本人自食惡果不足惜齿桃，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望煮盼。院中可真熱鬧短纵，春花似錦、人聲如沸僵控。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽报破。三九已至悠就，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間充易，已是汗流浹背梗脾。一陣腳步聲響...
開封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蔽氨，地道東北人藐唠。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像鹉究，于是被迫代替她去往敵國(guó)和親宇立。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

【三維基因組】三維基因組的實(shí)驗(yàn)以及分析簡(jiǎn)介

推薦閱讀更多精彩內(nèi)容