一、技術(shù)原理
基因組研究的維度可以分為很多種葫笼,例如下圖所示
其中Hi-C是研究三維結(jié)構(gòu)的一種方法雹熬。Hi-C技術(shù)源于染色體構(gòu)象捕獲(Chromosome Conformation Capture, 3C)技術(shù)巍沙,利用高通量測(cè)序技術(shù)韧掩,結(jié)合生物信息分析方法,研究全基因組范圍內(nèi)整個(gè)染色質(zhì)DNA在空間位置上的關(guān)系旭等,獲得高分辨率的染色質(zhì)三維結(jié)構(gòu)信息酌呆。
其中染色質(zhì)構(gòu)象捕獲(3C)技術(shù)是用福爾馬林瞬時(shí)固定細(xì)胞核染色質(zhì),用過(guò)量的限制性?xún)?nèi)切酶酶切消化染色質(zhì) - 蛋白質(zhì)交聯(lián)物搔耕,在 DNA 濃度極低而連接酶濃度極高的條件下用連接酶連接消化物隙袁,蛋白酶消化交聯(lián)物以釋放出結(jié)合的蛋白質(zhì),用推測(cè)可能有互作的目的片段引物進(jìn)行普通PCR和定量PCR來(lái)確定是否存在相互作用弃榨。3C 技術(shù)假定物理上互作的 DNA 片段連接頻率最高菩收,以基因座特異性 PCR 來(lái)檢測(cè)基因組中 DNA 片段之間的物理接觸,最終以 PCR 產(chǎn)物的豐度來(lái)確定是否存在相互作用惭墓。
從原理來(lái)講坛梁,你可以大致理解為:染色質(zhì)被包裹在一種3D結(jié)構(gòu)中,序列在同一染色體上相距越近腊凶,在空間上也就越靠近划咐,所以如何確認(rèn)哪些contigs在空間上更接近,那么就可以變相認(rèn)為這些contigs在一條染色體內(nèi)钧萍。
二褐缠、技術(shù)流程
1、甲醛固定
利用甲醛將樣品固定风瘦,將細(xì)胞內(nèi)蛋白與DNA队魏、DNA與DNA之間進(jìn)行交聯(lián),保存其相互作用關(guān)系万搔,維持細(xì)胞內(nèi)的3D結(jié)構(gòu)胡桨。一般將活體樣本在室溫用 1-3%的甲醛處理 10-30min,但是此步驟會(huì)減少限制內(nèi)切酶對(duì)DNA序列的消化效率瞬雹,需要嚴(yán)格控制昧谊。
2、酶切序列
利用限制性?xún)?nèi)切酶將DNA進(jìn)行酶切酗捌,使交聯(lián)兩側(cè)產(chǎn)生粘性末端呢诬。
打斷后的片段大小會(huì)影響測(cè)序分辨率涌哲,一般有兩種酶可供選擇:6bp 的限制性?xún)?nèi)切酶,4bp 的限制性?xún)?nèi)切酶尚镰。后者具有更高的分辨率阀圾。EcoR1 或 HindIII 用于每4000bp切割一次基因組,在人類(lèi)基因組中產(chǎn)生約100萬(wàn)個(gè)片段狗唉。
3初烘、末端修復(fù)
得到的片段具有平末端或粘性末端,然后將末端補(bǔ)平修復(fù)敞曹。利用末端修復(fù)機(jī)制账月,引入生物素標(biāo)記的堿基综膀,便于后續(xù)DNA純化和捕獲澳迫。
4、環(huán)化
使用 T4 DNA連接酶將末端修復(fù)后的 DNA 進(jìn)行環(huán)化剧劝,將含有互作的 DNA 片段之間進(jìn)行環(huán)化橄登。將連接DNA片段的蛋白質(zhì)消化掉,得到交聯(lián)片段讥此。
5拢锹、DNA純化和捕獲
將 DNA 解交聯(lián),純化DNA,破碎為300 bp - 700 bp的片段萄喳,利用鏈親和素磁珠捕獲含有互作關(guān)系的DNA片段進(jìn)行文庫(kù)構(gòu)建卒稳;
使用超聲波或其他方式,再次打斷片段他巨。
6充坑、上機(jī)測(cè)序
用磁珠將帶生物素的捕獲,制作文庫(kù)染突,上機(jī)測(cè)序捻爷。
三、分析步驟
Hi-C的優(yōu)勢(shì)在于其結(jié)合了二代測(cè)序份企,這勢(shì)必也使得其數(shù)據(jù)分析相對(duì)復(fù)雜了也榄。目前比較成熟的數(shù)據(jù)分析流程大致包含6個(gè)步驟:
(1) 前期raw reads過(guò)濾(跟一般二代測(cè)序數(shù)據(jù)處理基本一致)
(2) 序列比對(duì)。建議采用pair-end測(cè)序模式
(3) 定位酶切位點(diǎn)司志。比對(duì)尋找到reads pairs在基因組物理位置之后甜紫,通過(guò)插入片段大小的限制搜索reads pairs兩端每條read所對(duì)應(yīng)的最近的酶切片段。酶切片段的位置代表了DNA交互產(chǎn)生的大致位置骂远。
(4) 篩選出有效的比對(duì)片段囚霸。配對(duì)的reads位于酶切位點(diǎn)兩端且mapped的方向相反。
(5) 整合DNA 片段交互強(qiáng)度吧史。
(6) DNA片段交互矩陣標(biāo)準(zhǔn)化邮辽。
分析流程可如下圖所示:
valid pairs的區(qū)分
Valid Pairs:雙端Reads分別來(lái)源于空間上相鄰但線性上不相鄰的兩個(gè)酶切后的DNA片段唠雕,其能夠提供有效的交互信息。
需要經(jīng)過(guò)數(shù)據(jù)篩選吨述,獲取符合要求的valid pairs岩睁,用于后續(xù)比對(duì)和位置信號(hào)分析,最終才能用于contigs的染色體聚類(lèi)揣云。
篩選過(guò)程的示意圖如下:
(1)Unique valid pairs
雙端序列可以通過(guò)二代比對(duì)到基因組捕儒,結(jié)合基因組上酶切位點(diǎn)信息,通過(guò)一對(duì)read pairs雙端的距離和方向的情況以及是否是unique比對(duì)邓夕,排除重復(fù)干擾刘莹,尋找到有效的pairs,高頻率比對(duì)區(qū)域焚刚,如果reads一模一樣点弯,而且頻數(shù)遠(yuǎn)遠(yuǎn)高于其他比對(duì),就需要PCR去冗余矿咕,降低因?yàn)镻CR引起的高頻信號(hào)干擾抢肛。
(2)Invalid pairs
這種情況,你可以認(rèn)為是環(huán)化reads打斷后碳柱,兩端的reads不能提供有效信息捡絮,具體可能是超聲波打斷的隨機(jī)性,環(huán)化拼接的隨機(jī)性等等莲镣,所以需要篩掉福稳,因?yàn)檫@些信息只能提供錯(cuò)誤的信號(hào),導(dǎo)致無(wú)法合理分染色體瑞侮,分方向的圆。往往如果hic熱圖不合理,建議查看有效數(shù)據(jù)量是否達(dá)標(biāo)以及可以嘗試用該數(shù)據(jù)去掛載同源已發(fā)表的物種区岗,以此判斷是數(shù)據(jù)問(wèn)題還是組裝問(wèn)題略板。
四、Hi-C組裝
一般利用LACHESIS(Burton, J.N., et al. 2013)等軟件根據(jù)得到的valid pairs信號(hào)支持慈缔,對(duì)基因組序列進(jìn)行群組的劃分叮称、排序和定向,然后進(jìn)行人工調(diào)圖和檢查藐鹤,最終獲得版本染色體水平基因組瓤檐。
軟件算法原理如下:
根據(jù)得到的有效pairs,一對(duì)pairs一般就能提供圖中的一組信號(hào),而根據(jù)空間距離和序列距離成大致的正比關(guān)系娱节,可以知道距離越近的contigs間挠蛉,支持的pairs越多,信號(hào)越強(qiáng)肄满。所以通過(guò)信號(hào)的強(qiáng)弱谴古,可以區(qū)分contigs的內(nèi)部情況质涛,進(jìn)行糾錯(cuò):一般是打斷錯(cuò)誤拼接的contigs,調(diào)整contigs的方向掰担,也可以區(qū)分contigs是否在一條染色體汇陆,進(jìn)行聚類(lèi)。最終得到一個(gè)較為合理的染色體版本基因組带饱,而細(xì)節(jié)處無(wú)法被軟件合理調(diào)整的地方毡代,最終需要人工進(jìn)行微調(diào),形成一條對(duì)角線信號(hào)勺疼。
五教寂、Hi-C測(cè)序技術(shù)的優(yōu)勢(shì):
- 通過(guò)Scaffold間的交互頻率大小,可以對(duì)已組裝的基因組序列進(jìn)行糾錯(cuò)(基因組更準(zhǔn)確)执庐。
- 基因信息不再僅僅是contig片段酪耕,而是被劃分至染色體上,成為染色體水平耕肩。
- 無(wú)需辛苦的構(gòu)建群體因妇,單一一個(gè)體就能實(shí)現(xiàn)染色體定位问潭。
- 相比遺傳圖譜猿诸,標(biāo)記密度更大,序列定位更完整(能把更多的contig掛至染色體上!信息更全面=泼Α)
- 染色體重排等結(jié)構(gòu)變異研究可以開(kāi)展啦~(研究可以更深入J崴洹)
- QTL、GWAS可以定位區(qū)間到某個(gè)染色體啦~(追蹤變異T肿隆)
- 該物種的三維基因結(jié)構(gòu)窜觉、染色體互作及動(dòng)態(tài)變化可以解析啦~(從基因到表觀!全方位解析)
參考:
http://www.reibang.com/p/94cd5a8e829e
https://mp.weixin.qq.com/s/U_pQnyCgrtFGua144jHdvA