Hi-C文庫數(shù)據(jù)質(zhì)控及解讀

來源: 三維基因組Magic [三維基因組Magic](javascript:void(0);) 2017-11-29

Hi-C文庫數(shù)據(jù)質(zhì)控及解讀

數(shù)據(jù)自身的質(zhì)量在很大程度上決定了分析結(jié)果的準(zhǔn)確和可靠,隨著Hi-C技術(shù)在三維基因組學(xué)上的快速推廣,對于Hi-C數(shù)據(jù)本身的質(zhì)量和測序深度也逐漸引起研究人員的重視。同時對該技術(shù)的進一步優(yōu)化和改進使之能夠在更少的細(xì)胞起始量及測序量達到更高分辨率也成為了一個技術(shù)發(fā)展新的熱點规哲。本文旨在對Hi-C及相關(guān)技術(shù)的發(fā)展進行簡略地介紹,并對Hi-C數(shù)據(jù)展示的無效數(shù)據(jù)進行分析庐氮,以期能讓讀者能更清晰地理解無效數(shù)據(jù)的組成膘茎,在后續(xù)的實驗過程中能更好地改進實驗方法,獲得一份可靠的Hi-C的數(shù)據(jù)脚草。

2009年Erez Lieberman-Aiden在3C的基礎(chǔ)上赫悄,獨創(chuàng)地在粘性末端添加了生物素,使得嵌合片段能被鏈親和素特異性富集馏慨,發(fā)明了第一代 dilution HiC技術(shù)1)埂淮。Hi-C的發(fā)明與二代測序完美結(jié)合,解決了5C在全基因組水平構(gòu)象數(shù)據(jù)量瓶頸的問題熏纯,使得在全局范圍內(nèi)研究三維結(jié)構(gòu)成為可能同诫。

image

圖1.Hi-C實驗原理

早期的實驗方案認(rèn)為,去垢劑SDS在對交聯(lián)的細(xì)胞核進行處理時樟澜,即使是低濃度的SDS(0.3%-1%SDS)在加熱到65℃時误窖,會導(dǎo)致細(xì)胞核碎裂,基因組的DNA會釋放到溶液中秩贰,因此第一版本的Hi-C霹俺,在酶連反應(yīng)體系下,選用了近8ml的大連接體系毒费。后來丙唧,4C研發(fā)人員通過用顯微鏡觀測SDS處理細(xì)胞核,發(fā)現(xiàn)細(xì)胞核仍然維持在一個較為穩(wěn)定的核結(jié)構(gòu)觅玻。在共聚焦顯微鏡下觀察想际,1%SDS處理細(xì)胞核,會導(dǎo)致細(xì)胞核的通透性發(fā)生改變溪厘,但很少細(xì)胞核發(fā)生裂解胡本。

另一個影響交聯(lián)反應(yīng)的因素是溫度,通常認(rèn)為65℃以上畸悬,在有NaCl存在的情況下侧甫,甲醛交聯(lián)的DNA會發(fā)生解交聯(lián)現(xiàn)象,從而影響染色質(zhì)構(gòu)象的穩(wěn)定蹋宦。

在第一版本的Hi-C選用了65℃ 1%SDS處理細(xì)胞核10min披粟,從最終的數(shù)據(jù)看染色質(zhì)間的互作數(shù)據(jù)高達27.1%-65.3%。通常認(rèn)為染色質(zhì)是獨立折疊定位在細(xì)胞核中形成染色質(zhì)領(lǐng)域的冷冗,因此染色質(zhì)間的數(shù)據(jù)通常會認(rèn)為是無效數(shù)據(jù)(bais)守屉。

直到2012年Chen Lin實驗室意識到細(xì)胞核的擾動會影響到染色質(zhì)的高級構(gòu)象,因此他們在Hi-C實驗的基礎(chǔ)上贾惦,將生物素標(biāo)記在蛋白上胸梆,將反應(yīng)體系固定在磁珠上敦捧,使得反應(yīng)體系擾動更小,更穩(wěn)定碰镜,TCC2)獲得的數(shù)據(jù)結(jié)果表明該方法可以顯著降低染色質(zhì)間的數(shù)據(jù)占比例valid pairs的比例兢卵。

image

圖2.TCC實驗原理

2014年EreZ對Hi-C的實驗進行了進一步的改進3),他們在SDS處理細(xì)胞核的步驟選用了更溫和的0.5%SDS 62℃處理5-10min绪颖,而細(xì)胞連接的體系也降低到1ml秽荤,值得一提的是他們在文章中嘗試了未交聯(lián)的HiC實驗。發(fā)現(xiàn)除了噪音增加外柠横,得到了與正常HiC類似的熱圖窃款。

In situ Hi-C的改進使得染色質(zhì)間的互作數(shù)據(jù)進一步降低,實測數(shù)據(jù)顯示Trans-interaction其占valid pair的比例在20%左右牍氛。

在2015年晨继,又有研究將SDS的處理條件更換成37℃ 60min,他們認(rèn)為該方法可以更大程度維持細(xì)胞核的穩(wěn)定性搬俊,提高intra/inter數(shù)據(jù)的比例4)紊扬。

image

表1:in solution Hi-C與 in nucleus Hi-C數(shù)據(jù)比較

隨著對HiC數(shù)據(jù)的進一步認(rèn)識,研究人員發(fā)現(xiàn)一些超近距離的連接(<20Kb的數(shù)據(jù))可能并不是有意義的由蛋白介導(dǎo)的空間上靠近的互作唉擂,而可能就是線性距離較近而引起的隨機連接餐屎,因此引入了這一參數(shù)來評判數(shù)據(jù)的質(zhì)量。

為了更好地去除隨機連接導(dǎo)致的bais玩祟,有研究利用統(tǒng)計模型認(rèn)為三片段的連接可減少隨機連接的可能性腹缩,因此他們采用了類似于ChIA-PET

的方法,在連接反應(yīng)過程中空扎,添加一個帶有生物素的bridge-linker5)藏鹊,通過富集帶有l(wèi)inker的嵌合片段,來改善實驗中存在的隨機連接可能性转锈。作者自測的結(jié)果表明伙判,添加linker后染色質(zhì)內(nèi)的互作比例比in situ Hi-C和HiChIP都有顯著改善。

image

圖3.BL-HiC實驗原理圖

除了cis/tran作為評判Hi-C數(shù)據(jù)的質(zhì)量以外黑忱,Hi-C數(shù)據(jù)中還存在大量的無效數(shù)據(jù),它們的存在會影響數(shù)據(jù)的有效利用率勒魔,以下篇幅將逐一進行介紹甫煞。

為了更好地理解Hi-C數(shù)據(jù),在此我們簡要介紹下基于illumina平臺的二代測序文庫冠绢。

image

圖4.二代測序文庫建庫示意圖

在標(biāo)準(zhǔn)的二代文庫中抚吠,DNA片段通過末端補平加A;再添加adapters 弟胀;此時reads的兩側(cè)各帶發(fā)卡結(jié)構(gòu)P5/P7的測序接頭楷力;為了獲取足夠上機的DNA文庫喊式,通常還需要進行一輪擴增;擴增后的文庫兩端各帶一種測序接頭萧朝。

image
image

圖5.橋式PCR

在pool DNA到芯片上時岔留,文庫片段首先anneal在芯片的測序接頭上;然后用DNA聚合酶進行擴增检柬,DNA生長在芯片上献联;經(jīng)過25-28輪的擴增,每條reads被擴增至數(shù)以千計的拷貝何址,此時就可以利用添加可逆的終止子來檢測堿基的組成里逆。通過150輪添加可逆終止子并采集信號即可完成測序。

由于DNA聚合酶的自身的偏性用爪,GC含量相對合適的片段及小片段更容易在芯片生長階段得到富集原押。小片段(<150nt)在測序過程中,由于兩端各讀取150個堿基偎血,就極可能將DNA插入片段讀通诸衔,從而這部分的DNA就可能被檢測到adapter污染。

image

圖6.測序read示意圖

Hi-C標(biāo)準(zhǔn)文庫是標(biāo)準(zhǔn)的Chimera結(jié)構(gòu)烁巫,在將兩端序列進行比對到基因組上時署隘,理論上兩側(cè)pair ends可以分別比對到基因組的兩個座位。由于DNA在碎片化過程中亚隙,剪切是隨機的磁餐,因此酶切位點末端補平形成的junction fragment很可能分布在一側(cè)的reads中,常規(guī)的比對分析是很難處理chimera的阿弃。在HiC-Pro6)和HiCUP7)軟件中诊霹,他們會去識別理論的junction fragment。如HiC-Pro在比對時先進行Global Mapping渣淳,后將unmapping的reads用junction fragment序列進行識別并切割脾还,再進行l(wèi)ocal mapping,最終將數(shù)據(jù)進行合并入愧。

image

圖7.HiC-Pro的兩種比對策略

在實際比對中即使采用兩步比對方式鄙漏,仍有可能是只有一端序列能比對到基因組中,另外一端無法識別到基因組中棺蛛,這種情況我們將其歸類為Singleton怔蚌。它產(chǎn)生的原因可能有①adapter污染(先前數(shù)據(jù)沒進行過濾);②另一側(cè)數(shù)據(jù)質(zhì)量較差旁赊,多數(shù)為N的區(qū)域桦踊;③DNA片段被降解或酶切反應(yīng)產(chǎn)生星號活性履怯。同時片段過短驼修,150堿基已經(jīng)讀通了生物素標(biāo)記的位點砸捏,但是該位點不是正常的junction fragment景殷。在植物樣本中,singleton較為常見杖狼,可能與細(xì)胞壁破碎不完全炼蛤,部分細(xì)胞質(zhì)成分進入到反應(yīng)體系影響酶切有關(guān)。

有些植物的基因組存在大量的重復(fù)序列本刽,如玉米中85%的序列被認(rèn)為是重復(fù)序列鲸湃。這對要求兩端都要唯一比對的HiC而言是巨大的挑戰(zhàn),一旦有一段比對到兩個或兩個以上的位點子寓,該reads就將被歸類到Multiple mapped reads中暗挑。

如果在比對過程中,global mapping 和 local mapping均無法將序列識別到特定的位點斜友,這種序列會被歸類到Unmapped reads炸裆。它可能產(chǎn)生的原因是基因組的組裝完整度較差,基因組中存在大量的gap無法識別鲜屏,被填充為NNNNN烹看。另一個原因是酶切片段較碎,多個酶切片段連接在一起洛史,無法識別到特定座位惯殊。

如果兩側(cè)數(shù)據(jù)都能比對到基因組的數(shù)據(jù)會被統(tǒng)一認(rèn)為是Unique mapped reads,此時對于動物基因組也殖,unique mapped reads 占測序量(clean reads)50%以上應(yīng)是可接受的范圍土思。對于植物樣本,尤其是重復(fù)序列較多的樣本忆嗜,unique mapped reads 比例可能會急劇降低己儒。

在獲取unique mapped reads后,要進行進一步過濾捆毫,以識別真正有效的interaction reads闪湾。

image

圖8.三種比對過程識別的無效數(shù)據(jù)

根據(jù)HiC實驗的基本原理PLA(proximity ligation assay):空間上相互靠近的片段更有機會被連接在一起。因此僅且僅有兩個來源不同的片段連接在一起才會被認(rèn)為是標(biāo)準(zhǔn)的文庫片段绩卤。而這片段是指利用限制性內(nèi)切酶酶切的Fragments途样,即唯有兩個片段能分別比對到兩個不同的酶切片段上,且實際片段大斜舯铩(observe)符合理論的片段大小娘纷,在分析是才會將其歸類到valid pairs中。

image

圖9.Hi-C數(shù)據(jù)過濾

因此在分析過程中會將部分無效的數(shù)據(jù)進行過濾跋炕,首先是如果兩個片段原本通過一個酶切位點連接在一起,在HiC文庫中如果該片段即使酶切后添加生物素仍然連接在一起律适,該片段會被歸類到Re-ligation reads中辐烂;

而如果兩個的reads比對到同一個fragment遏插,但是方向相反,則該reads會被認(rèn)為是首尾相連形成了S**elf-circle **纠修;

如果pair end 同時比對到一個酶切片段上胳嘲,則該片段會被認(rèn)為是Dangling ends

如果有一個發(fā)現(xiàn)是adapter污染扣草,該reads會被認(rèn)為是Adapter polluted;

如果兩側(cè)的end均能比對到基因組的兩個酶切片段中了牛,但是觀測到的片段大小與理論的片段大小不一致,則該片段會認(rèn)為是錯誤連接而被歸類為Dumped reads辰妙;

只有比對到兩個酶切片段且片段的理論值等于實際值的reads鹰祸,才會被認(rèn)為是Valid pair reads

在這里我們解釋下Dangling ends和Dumped的成因密浑。

Dangling ends 主要來源于兩部分蛙婴,①經(jīng)DNA連接酶連接反應(yīng)后,攜帶生物素的DNA片段末端并未形成嵌合片段尔破,在末端生物素切割的(klenow)時又未將末端的生物素去除街图,從而進入到最終的文庫中;②磁珠洗脫步驟未完全將非特異性結(jié)合的DNA洗脫下來懒构。有文章報道餐济,只有將Dangling Ends的比例控制子啊10-45%以下才會被認(rèn)為是成功的Hi-C文庫8)

Dump的主要原因在于酶的星號活性導(dǎo)致切割位點不在經(jīng)典的位點胆剧,這有可能是酶切時間過長或反應(yīng)體系中鹽離子濃度和種類不合適導(dǎo)致的絮姆;另外一個原因是片段被DNA外切酶降解,使得片段的大小發(fā)生了改變赞赖。

獲得了interaction reads后滚朵,要去除文庫中完全一樣的reads,因為這部分可能是由于PCR擴增導(dǎo)致的Duplication前域,去除Duplication后辕近,Valid pairs數(shù)據(jù)可用于后續(xù)的滑bin統(tǒng)計分析了。

最后匿垄,對分享的內(nèi)容進行總結(jié)移宅。

判斷HiC的文庫是否合格的一個重要的指標(biāo)是cis/trans的比值,一般認(rèn)為cis interaction比例越高椿疗,表明該數(shù)據(jù)的質(zhì)量越好漏峰。如果tran interaction的比例高于cis interaction的比例,則要慎重檢查實驗操作步驟是否出現(xiàn)紕漏届榄。

對于植物樣本浅乔,尤其是大基因組的植物樣本,其unique mapped的比例可能較低,此時為了達到足夠的數(shù)據(jù)量靖苇,需要提高測序深度席噩;然而如果對于人鼠等動物樣本,如果unique mapped ratio較低則可能是實驗原因贤壁。

在unqiue mapped數(shù)據(jù)過濾步驟中dangling ends 過高可能是末端生物素去除不完全或磁珠洗脫步驟中出現(xiàn)問題所致悼枢。如果dump的比例過高則可能是樣品發(fā)生了降解或星號活性。

最后一步去除PCR duplication脾拆,如果該步驟中duplication比例過高馒索,則表明PCR循環(huán)數(shù)過高導(dǎo)致。

Hi-C實驗步驟繁多名船,一份好的Hi-C實驗數(shù)據(jù)需要實驗人員針對不同的樣本進行實驗優(yōu)化及在整個實驗周期每個步驟用心地操作绰上。出現(xiàn)不如人意的實驗結(jié)果對于新手而言是正常的,此時就要對數(shù)據(jù)進行仔細(xì)分析包帚,并將自己融入到實驗的每個細(xì)節(jié)中細(xì)細(xì)體會渔期,才會有所收獲。最后給大家一個建議渴邦,多看看最近發(fā)表的文章疯趟,比較每個protocol的細(xì)微差別,如頡偉老師9)和陳陽老師5)今年發(fā)表的文章谋梭。相信看完后信峻,會有自己的體會。

參考文獻

  1. Lieberman-Aiden E, Van Berkum N L, Williams L, et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. Science, 2009, 326(5950): 289-293.

  2. Kalhor R, Tjong H, Jayathilaka N, et al. Genome architectures revealed by tethered chromosome conformation capture and population-based modeling[J]. Nature biotechnology, 2012, 30(1): 90-98.

  3. Rao S S P, Huntley M H, Durand N C, et al. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping[J]. Cell, 2014, 159(7): 1665-1680.

  4. Nagano T, Várnai C, Schoenfelder S, et al. Comparison of Hi-C results using in-solution versus in-nucleus ligation[J]. Genome biology, 2015, 16(1): 175.

  5. Liang Z, Li G, Wang Z, et al. BL-Hi-C is an efficient and sensitive approach for capturing structural and regulatory chromatin interactions[J]. Nature Communications, 2017, 8(1): 1622.

  6. Servant N, Varoquaux N, Lajoie B R, et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing[J]. Genome biology, 2015, 16(1): 259.

  7. Wingett S, Ewels P, Furlan-Magaril M, et al. HiCUP: pipeline for mapping and processing Hi-C data[J].F1000Research, 2015, 4.

  8. Belton J M, McCord R P, Gibcus J H, et al. Hi–C: a comprehensive technique to capture the conformation of genomes[J]. Methods, 2012, 58(3): 268-276.

  9. Ke Y, Xu Y, Chen X, et al. 3D chromatin structures of mature gametes and structural reprogramming during mammalian embryogenesis[J]. Cell, 2017, 170(2): 367-381. e20.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瓮床,一起剝皮案震驚了整個濱河市盹舞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌隘庄,老刑警劉巖踢步,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異丑掺,居然都是意外死亡获印,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門街州,熙熙樓的掌柜王于貴愁眉苦臉地迎上來兼丰,“玉大人,你說我怎么就攤上這事唆缴△⒄鳎” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵面徽,是天一觀的道長艳丛。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么氮双? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任旺聚,我火速辦了婚禮,結(jié)果婚禮上眶蕉,老公的妹妹穿的比我還像新娘。我一直安慰自己唧躲,他們只是感情好造挽,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著弄痹,像睡著了一般饭入。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上肛真,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天谐丢,我揣著相機與錄音,去河邊找鬼蚓让。 笑死乾忱,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的历极。 我是一名探鬼主播窄瘟,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼趟卸!你這毒婦竟也來了蹄葱?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤锄列,失蹤者是張志新(化名)和其女友劉穎图云,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體邻邮,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡竣况,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了饶囚。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片帕翻。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖萝风,靈堂內(nèi)的尸體忽然破棺而出嘀掸,到底是詐尸還是另有隱情,我是刑警寧澤规惰,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布睬塌,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏揩晴。R本人自食惡果不足惜勋陪,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望硫兰。 院中可真熱鬧诅愚,春花似錦、人聲如沸劫映。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泳赋。三九已至雌桑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間祖今,已是汗流浹背校坑。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留千诬,地道東北人耍目。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像大渤,于是被迫代替她去往敵國和親制妄。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容