摘要:
人類細胞類型規(guī)范背后的染色質(zhì)景觀具有根本的意義狱庇。 我們生成了胎兒組織中染色質(zhì)可及性和基因表達的人類細胞圖譜粉臊。
對于染色質(zhì)可及性箫爷,我們設計了一個三級組合索引分析舌稀,并將其應用于代表 15 個器官的 53 個樣本,分析了約 800,000 個單細胞剖效。 我們利用由基因表達定義的細胞類型來注釋這些數(shù)據(jù)嫉入,并分類了數(shù)十萬個表現(xiàn)出細胞類型特異性染色質(zhì)可及性的候選調(diào)控元件。
我們研究了譜系特異性轉(zhuǎn)錄因子(例如神經(jīng)元中的 POU2F1)璧尸、廣泛分布的細胞類型(例如血液和內(nèi)皮細胞)的器官特異性特化以及細胞類型特異性富集的特性
的復雜性狀遺傳咒林。 這些數(shù)據(jù)代表了探索不同組織和細胞類型中體內(nèi)人類基因調(diào)控的豐富資源。
介紹:
近年來爷光,單細胞基因組學領域在解開人體組織的細胞異質(zhì)性方面取得了令人難以置信的進展垫竞。 然而,絕大多數(shù)的努力都集中在單細胞基因表達上蛀序,而對基因表達塑造和塑造的染色質(zhì)景觀的研究要少得多欢瞪。 這部分是因為在單細胞分辨率下分析染色質(zhì)可及性、轉(zhuǎn)錄因子 (TF) 結合和/或組蛋白的可擴展方法相對缺乏徐裸。
單細胞組合索引 (“sci-”) (1) 框架涉及將細胞或細胞核分裂和合并到孔中遣鼓,其中在每一輪中將分子條形碼原位引入感興趣的物種。通過連續(xù)輪次的原位分子條形碼重贺,同一細胞內(nèi)的物種被一致地標記為不同的條形碼組合骑祟。已經(jīng)開發(fā)了 Sci-assays 分析染色質(zhì)可及性 [sci-ATAC-seq(ATAC-seq,具有高通量測序的轉(zhuǎn)座酶可及染色質(zhì)測定)]气笙,基因表達 [sci-RNA-seq次企,RNA-seq,RNA-測序)]健民、核結構抒巢、基因組序列、甲基化秉犹、組蛋白標記和其他現(xiàn)象蛉谜,以及 sci-co-assays。例如崇堵,用于聯(lián)合分析染色質(zhì)可及性和基因表達 (1-12) [“CoBatch”型诚、“Split -seq”、“Paired-seq”和“dscATAC-seq”也有效地依賴于單細胞組合索引 (8-10, 12)]鸳劳。
盡管我們和其他人已經(jīng)分析了 > 100,000 個哺乳動物細胞中的染色質(zhì)可及性 (9, 12, 13)狰贯,但所使用的方法需要自定義加載帶有條形碼接頭的 Tn5 酶和/或每個實驗限制為 104 到 105 個細胞碰撞——接收相同條碼組合的細胞。
我們開發(fā)了一種改進的染色質(zhì)可及性單細胞分析方法赏廓,它使用三個級別的組合索引涵紊,并且與之前的 sci-ATAC-seq 和相關方法 (1, 6, 9, 12) 的迭代相比,不依賴在分子條形碼 Tn5 復合物 (sci-ATAC-seq3) 上(圖 1A 和圖 S1A)幔摸。
相反摸柄,前兩輪索引是通過連接到常規(guī)、均勻加載的 Tn5 轉(zhuǎn)座酶復合物(標準 Nextera)的任一端來實現(xiàn)的既忆,而最后一輪索引仍然通過聚合酶鏈反應 (PCR) 進行驱负。
相對于兩級 sci-ATAC-seq 但類似于 sci-RNA-seq3,sci-ATAC-seq3 降低了文庫制備的每個細胞成本(圖 S1B)以及碰撞率(圖 S1患雇, C 和 D)跃脊,為 106 個細胞規(guī)模的實驗打開了大門。該方案不再需要細胞分選苛吱,我們還優(yōu)化了連接酶和聚合酶的選擇酪术、激酶濃度以及寡核苷酸設計和濃度,以最大限度地增加從每個細胞中回收的片段數(shù)量翠储。
在保持可訪問區(qū)域的豐富性的同時拼缝,我們做出了明確的選擇,以犧牲可訪問位點的特異性為代價最大化復雜性(圖 1B 和圖 S1彰亥,E 到 G)咧七。特別是,我們發(fā)現(xiàn)可以調(diào)整固定條件以調(diào)整檢測的靈敏度(復雜性)與特異性(可訪問位點的富集)(圖 S1H)任斋。
(The fraction of reads inTSSs (FRiTSS))
作為人類發(fā)育綜合細胞圖譜的一個步驟 (14)继阻,我們開始使用在妊娠中期獲得的不同人體組織生成基因表達和染色質(zhì)可及性的單細胞圖譜 [DESCARTES,基因調(diào)控的發(fā)育性單細胞圖譜 和表達废酷; descartes.brotmanbaty.org (15)瘟檩。
對于染色質(zhì)可及性,我們將 sci-ATAC-seq3 應用于代表 15 個器官的 59 個胎兒樣本澈蟆,總共分析了 160 萬個細胞(圖 1C)。 我們還使用一組重疊的樣本描述了來自同一器官的 500 萬個細胞的基因表達譜 (16)睹簇,研究的器官跨越不同的系統(tǒng)奏赘。 但是,有些系統(tǒng)not accessible太惠; 骨髓、骨佩谷、性腺和皮膚明顯缺失旁壮。
各種各樣的( heterogeneous)胎兒組織的快速和統(tǒng)一處理提出了挑戰(zhàn)。 我們開發(fā)了一種直接從冷凍保存的組織中提取細胞核的方法谐檀,該方法適用于各種組織類型抡谐,并產(chǎn)生適用于 sci-ATAC-seq3 和 sci-RNA-seq3 的勻漿。
對于 sci-ATAC-seq3桐猬,我們使用了從 89 到 125 天的估計受孕后年齡的 23 個胎兒獲得的組織樣本(圖 1麦撵、D 和 E,以及表 S1)溃肪。 所有樣品的核型均正常免胃。 樣品分三批處理; 每個實驗中都包含相同的前哨人類胎兒腦組織和小鼠懸浮細胞系的混合物惫撰,以控制批次效應并估計碰撞率羔沙。
我們對來自五個 Illumina NovaSeq 6000 測序運行的三個實驗批次的 sci-ATAC-seq3 文庫進行了測序,產(chǎn)生了超過 1100 億個讀數(shù)(550 億個讀數(shù)對)厨钻。在分裂成單個細胞之前扼雏,我們將這些組織水平的數(shù)據(jù)與單端 ENCODE 脫氧核糖核酸酶測序 (DNase-seq) 數(shù)據(jù)進行了比較(圖 S2A)(17)。
盡管 sci-ATAC-seq3 數(shù)據(jù)的峰富集程度有所降低(peak中read的中位數(shù):sci-ATAC-seq3 為 29%夯膀;ENCODE DNase-seq 為 35%)(圖 S2B)诗充,但來自同一組織的樣本具有相當?shù)南嚓P性對于兩種檢測(Spearman 相關系數(shù)中值:sci-ATAC-seq3 來自同一組織的兩個樣本為 0.93;DNase-seq 為 0.91)诱建,sci-ATAC-seq3 具有更高的技術重現(xiàn)性(Spearman 相關系數(shù)中值:0.95)(圖.S2C)蝴蜓。此外,無論是單獨分析 sci-ATAC-seq3 樣本(圖 1F)還是一起分析 sci-ATAC-seq3 和 DNase-seq 樣本(圖 S2D),樣本都從這些聚合譜中聚集到各自的組織中茎匠。
Splitting reads by sci- barcodes格仲,我們確定了 1,568,018 個細胞(表 S1),并且從barnyard control 中汽抚,我們估計三個實驗的collision rates為 1% 到 4%(圖 S2E)(18)抓狭。 我們沒有觀察到明顯的批次效應(圖 S2F)伯病,并且由于其片段大小分布的核小體條帶不佳(圖 S2G)和另外兩個樣品捕獲了很少的細胞而丟棄了三個樣品造烁。 對于剩余的樣本,我們觀察到每個細胞的中位數(shù)為 5742 個非重復讀數(shù)(圖 S2H)午笛,并估計我們對這些 sci-ATAC-seq3 文庫中每個細胞的所有非重復讀數(shù)的中位數(shù)為 88%(圖 S2I)惭蟋。
我們逐個組織地確定了可訪問性的峰值,然后將它們合并以生成一個包含 105 萬個位點的主集(數(shù)據(jù)文件 S1)药磺。 我們過濾掉了質(zhì)量較低的細胞告组,從 53 個胎兒樣本(數(shù)據(jù)文件 S2)中留下了 790,957 個單細胞染色質(zhì)可及性圖譜。 每個組織的高質(zhì)量細胞總數(shù)從脾的 2421 個到肝臟的 211,450 個不等(圖 1C)癌佩。
該組每個細胞的非重復片段的中位數(shù)為 6042木缝,中位數(shù)為 49%,與可訪問位點的主組重疊围辙,19% 落在轉(zhuǎn)錄起始位點 (TSS) (±1 kb) 附近我碟。 我們對高質(zhì)量細胞進行了潛在語義索引 (19, 20)、線性校正 (21) 和 Louvain 聚類姚建,最初在所有組織中獲得了 172 個簇矫俺。 我們使用 UMAP 進一步降低了每個組織數(shù)據(jù)集的維度。