最近的一次組會上看到實(shí)驗(yàn)室的同學(xué)匯報的結(jié)果里有Hi-C的圖崖蜜,所以我就悄咪咪的去了解了一下Hi-C技術(shù)的原理。整理一下。
Q1: Hi-C的全稱是什么苟鸯?
A: 高通量染色體構(gòu)象捕獲技術(shù)(High-throughput chromosome conformation capture)
Q2: 簡單的說,Hi-C技術(shù)是干嘛的棚点?
A: Hi-C 是以整個細(xì)胞核為研究對象早处,利用高通量測序技術(shù),研究全基因組范圍內(nèi)整個染色質(zhì) DNA 在空間位置上的關(guān)系瘫析,捕獲不同基因座位上之間的空間交互信息砌梆。Hi-C 可以與 RNA-Seq、ChIP-Seq 等數(shù)據(jù)進(jìn)行聯(lián)合分析颁股,從基因調(diào)控網(wǎng)絡(luò)和表觀遺傳網(wǎng)絡(luò)來闡述生物體性狀形成的相關(guān)機(jī)制么库。(參考文章:Hi-C 技術(shù), Hi-C技術(shù)到底能做什么?)
Q3: Hi-C的實(shí)驗(yàn)流程是什么甘有?
A: 可以參考哈佛大學(xué)錄制的視頻诉儒,20多分鐘,里面介紹了詳細(xì)的實(shí)驗(yàn)流程亏掀。這個視頻的好處是還可以選擇播放速度忱反,英文不太好的童鞋也不用擔(dān)心,讓它慢一點(diǎn)播放就行了滤愕。點(diǎn)這里:Hi-C: A Method to Study the Three-dimensional Architecture of Genomes.
一般流程:
(1)細(xì)胞(2 x 10^ 7至2.5 x 10 ^7)用甲醛交聯(lián)温算,如此一來,在空間上相互作用的染色質(zhì)片段之間產(chǎn)生共價鍵(上圖中DNA片段:藍(lán)色间影,紅色注竿。中間的環(huán)狀的是protein)。
(2)染色質(zhì)用限制酶(此處為HindIII;限制位點(diǎn):虛線)消化巩割。產(chǎn)生的粘性末端被核苷酸填充一部分裙顽,并且被標(biāo)記生物素(紫色點(diǎn))。這里需要注意的是宣谈,你需要有一個空白對照愈犹,即沒有HindIII處理的樣品,因?yàn)槟阈枰苣z檢查你的酶切結(jié)果闻丑。
(3)連接:是在極稀的條件下進(jìn)行的漩怎,有利于分子內(nèi)連接。這時HindIII酶切位點(diǎn)就沒了嗦嗡,多出了一個NheI位點(diǎn)勋锤。再進(jìn)行酶切。
NOTE:這里要進(jìn)行質(zhì)量檢測:
上圖里酸钦,A圖是分別用不同量的3C和Hi-C文庫跑的膠怪得。一般來說Hi-C文庫的連接效率要比3C稍微低一些,所以會有一些彌散的感覺卑硫。質(zhì)量控制步驟應(yīng)顯示3C和Hi-C庫均大于10 kb徒恋。DNA條帶彌散表明連接效率差。B圖里分別是不同的對照和進(jìn)行兩次酶切的DNA膠結(jié)果圖欢伏。NheI切割了70%的Hi-C擴(kuò)增子入挣。
(4)純化和剪切DNA。
(5)使用鏈霉親和素珠分離生物素標(biāo)記的片段硝拧。然后進(jìn)行測序径筏。
Q4: 如何知道Hi-C測序的質(zhì)量如何?
A: 上圖A中障陶,與隨機(jī)產(chǎn)生的read(綠色)相比滋恬,染色體內(nèi)(藍(lán)色)和染色體間(紅色)相互作用的片段的reads明顯更接近HindIII限制性酶切位點(diǎn)。隨著距HindIII位點(diǎn)的距離增加抱究,染色體內(nèi)讀數(shù)和染色體間讀數(shù)曲線都迅速減小,直到染色體在?500 bp處達(dá)到平穩(wěn)為止恢氯。500bp是用于測序的最大片段大小。圖B說的是鼓寺,通常勋拟,55%的可比對的reads 對代表染色體間相互作用。15%表示間隔小于20 kb的染色體內(nèi)片段之間的相互作用妈候,而30%的reads表示間隔大于20 kb的染色體內(nèi)的相互作用敢靡。這種分布可以作為質(zhì)量控制的一種形式。
Q5: Hi-C數(shù)據(jù)的分析流程是什么苦银?
參考:生信技能樹:3D基因組之Hi-C數(shù)據(jù)分析(大全)啸胧, 三維基因組學(xué)研究之Hi-C
(1)數(shù)據(jù)過濾赶站。
(2)比對:比對的方式主要分兩種,一種判斷每條reads是否含有酶切位點(diǎn)吓揪,有則去掉酶切位點(diǎn)之后的數(shù)據(jù)在進(jìn)行bowtie2單端比對亲怠;另一種采用單端比對的策略,以25bp為起始長度柠辞,每次增加5bp直到該reads比對到基因組具有唯一性。
(3)尋找酶切片段主胧;比對尋找到reads pairs在基因組物理位置之后叭首,通過插入片段大小的限制搜索reads pairs兩端每條read所對應(yīng)的最近的酶切片段。酶切片段的位置代表了DNA交互產(chǎn)生的大致位置踪栋。
(4)篩選fragment pairs
(5)HiC分析:只需要Valid Pairs
Binning:將Valid Pairs的交互信息mapping到基因組的位置焙格,最終轉(zhuǎn)換成為每兩個bin的交互強(qiáng)度。
(6)交互矩陣標(biāo)準(zhǔn)化夷都;標(biāo)準(zhǔn)化方法主要分為兩類眷唉,一類是基于矩陣,進(jìn)行數(shù)學(xué)上的標(biāo)準(zhǔn)化囤官,例如迭代等冬阳,另一類是基于生物學(xué)意義(例如mappingability)上的標(biāo)準(zhǔn)化。
(7)可視化
Q6: Hi-C測序的結(jié)果圖怎么看党饮?
A: 染色質(zhì)相互作用可以用熱圖表示肝陪,其中x軸和y軸代表基因組順序的基因座。通常來說刑顺,線性基因組中非常接近的DNA片段將傾向于相互頻繁交互氯窍。所以在熱圖中可以看到對角線的相互作用很高(下圖)。下圖展示的是14號染色體內(nèi)的基因座相互作用:
上面圖A對應(yīng)于14號染色體上染色體內(nèi)相互作用的熱圖蹲堂。每個像素代表1-Mb位點(diǎn)和另一個1-Mb位點(diǎn)之間的所有相互作用狼讨。紅色密度對應(yīng)于reads的數(shù)量∑饩海刻度線每個刻度10 Mb政供。使用Hi-C數(shù)據(jù)集計算給定基因組內(nèi)一對基因座(loci)的平均接觸概率,產(chǎn)生一個期望矩陣(B)能犯。matrix A和B兩個矩陣的商是觀察/期望的矩陣(C)鲫骗,其中富集顯示為紅色。塊模式變得更加明顯踩晶。Person相關(guān)矩陣(D)說明了14染色體的每對基因座的相互作用相關(guān)性执泰。
你還可以看染色體之間的相互作用:
上圖A中,相互作用的概率隨著染色體1上基因距離的變化而降低,最終在90Mb達(dá)到平穩(wěn)(藍(lán)色線)热某。不同染色體間相互作用的水平對于不同的染色體對是不同的。1號染色體上的基因座最有可能與10號染色體上的基因座(綠色)相互作用各吨,最不可能與21號染色體上的基因座(紅色)相互作用排苍。相對于染色體內(nèi)相互作用沦寂,染色體間的相互作用被消除了。圖B里所有染色體之間的觀察/預(yù)期熱圖淘衙。紅色表示富集传藏。一般富含基因的小染色體往往存在更多的相互作用。
Q7: TAD圖怎么看彤守?
我在實(shí)驗(yàn)室人的匯報里看到類似如下的圖:
參考:TAD:拓?fù)潢P(guān)聯(lián)結(jié)構(gòu)域簡介
這其實(shí)是染色質(zhì)相互作用圖里對角線一側(cè)的數(shù)據(jù)毯侦。這種重復(fù)出現(xiàn)的(紅色三角)內(nèi)部互作頻率高,組間互作頻率低的domain具垫,稱為topologically assocaited domain, 簡稱TAD侈离。這個圖怎么理解呢,我發(fā)現(xiàn)了生信修煉手冊
公眾號里的一張圖片筝蚕,非常簡單易懂:
兩個大紅三角的中間被稱為:TAD邊界卦碾。
那么如何識別染色質(zhì)中的TAD,這里有一個名詞:DI,方向性指數(shù)起宽。用于量化基因組區(qū)域的上游或下游相互作用偏差的程度洲胖,發(fā)現(xiàn)在TAD邊界區(qū)的偏差很大。(參考:3D基因組入門筆記)
TAD與Chip-Seq結(jié)果一起看(圖片來自:3D基因組入門筆記):
TAD圖和Chip-seq一起看燎含,可以看在TAD邊界處或內(nèi)部宾濒,不同的protein或者染色質(zhì)修飾mark的結(jié)合情況。比如上面這個圖屏箍,CTCF可以幫助染色體折疊绘梦,那么它結(jié)合的地方,顯然是很難與其他地方相互作用的赴魁,所以與絕緣子相關(guān)卸奉。