一句話簡介:使用sci-ATAC-seq檢測了L2期幼蟲的單細胞染色質(zhì)可及性哥艇,探索了秀麗隱桿線蟲各個細胞類型的調(diào)控DNA助币。
全文鏈接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8494234/
背景:
(1)基因表達的特定變化對于細胞狀態(tài)的改變至關(guān)重要航缀,了解基因表達的調(diào)控具有重要意義让蕾;目前線蟲已經(jīng)獲得了全面的單細胞基因表達圖譜遗增,而不同細胞類型和生命周期的調(diào)控元件圖譜有待完善鼎俘;
(2)基因的表達調(diào)控具有高度的細胞類型特異性,缺乏細胞精度的調(diào)控元件圖譜纲酗,無法揭示這些調(diào)控事件衰腌;即傳統(tǒng)bulk測序構(gòu)建的圖譜:
1. 無法區(qū)分同一基因多個調(diào)控位點是否存在細胞類型特異性;
2. 檢測靈敏度低觅赊,部分高度細胞類型特異性的區(qū)域信號可能被噪音掩蓋右蕊;
3. 由于存在隨發(fā)育特化激活的區(qū)域,因此可能在解釋差異活性位點時造成誤差吮螺;
結(jié)果
1.使用sciATAC-seq檢測秀麗隱桿線蟲中的單細胞染色質(zhì)可及性
為了匹配sci-RNA-seq數(shù)據(jù)饶囚,作者將一群同步的野生型線蟲培養(yǎng)至L2中期,然后固定鸠补、分離細胞核萝风,進行sci-ATAC-seq, 最終總共收集了30930個細胞的sciATAC-seq數(shù)據(jù)。然后使用LDA(改進的潛在狄利克雷分配模型)對數(shù)據(jù)進行了可及性峰值檢測和細胞聚類紫岩。
- Fig1.迭代峰值調(diào)用過程可從單細胞數(shù)據(jù)中產(chǎn)生更多的可及性峰
值得注意的是规惰,作者通過檢測每個峰上信號的局部最大值,將具有多個峰值的峰分成了單獨的連續(xù)段泉蝌,以確保更好地捕獲可能包含多個結(jié)合的可及性區(qū)域歇万。秀麗隱桿線蟲L2期幼蟲的可及性區(qū)域數(shù)據(jù)從如下鏈接獲取:http://genome.ucsc.edu/cgi-bin/hgTracks ?db=ce11&hubClear=http://waterston.gs.washington.edu/atacTissue/Durham_hub.txt
2.單細胞染色質(zhì)可及性峰與已發(fā)表的Bulk 染色質(zhì)分析的調(diào)控區(qū)域相一致
-- bulk ATAC-seq 與 TF Chip-seq 數(shù)據(jù)
在通過迭代峰值調(diào)用程序之后梨与,總共獲得了36339個單細胞染色質(zhì)可及性峰區(qū)域(多峰拆分之后為38017個峰)堕花。然后作者將數(shù)據(jù)與秀麗隱桿線蟲多生命周期的全線蟲ATAC-seq數(shù)據(jù)(J?nes et al. 2018)和來自 modERN 427個TF chip-seq數(shù)據(jù)(Kudron et al. 2018)進行了比較。
- Fig2. 從sciATAC-seq中鑒定的可及性峰與整個線蟲中現(xiàn)有染色質(zhì)可及性數(shù)據(jù)鑒定的可及性峰顯示出了相當(dāng)大的重疊粥鞋。
結(jié)果顯示:sciATAC-seq中 25675/38017 (約 66%)個peaks 與bulk ATAC-seq peaks總體重疊(bedtools intersect)缘挽,總共覆蓋了 20234260 bp的序列(約占基因組 20.2%)。 約81%(30886/38017)的peaks與TF CHIP-seq峰重疊。此外壕曼,從相反的角度來看苏研,bulk ATAC-seq中約69%的位點在sciATAC-seq也被檢測了出來。 modERN TF位點中 57%與sciATAC-seq峰重疊腮郊,進一步分析發(fā)現(xiàn)不重疊的這些區(qū)域可能是來自非L2期線蟲樣本(Fig2C)摹蘑。
3. LDA建模揭示了37個細胞簇
為了在組織和細胞類型層面解釋數(shù)據(jù),作者應(yīng)用LDA對scATAC-Seq數(shù)據(jù)進行了處理轧飞,訓(xùn)練了一個包含55個主題的LDA模型衅鹿,包括 30870行(過濾檢測峰值太少的細胞),55列按主題劃分的細胞矩陣过咬,以及一個包含32214行和55列的按主題劃分的峰矩陣大渤。接著他們刪除了15個在任何緊密分組的細胞子集中概率都不高的主題,然后將在剩余的40個主題中概率>50%的細胞分配給“主題簇”掸绞,其中3個少于50個細胞主題被刪去泵三,最終此過程將總共 24503個細胞分配給了37個主題簇以供進一步分析。
- Fig3. LDA建模產(chǎn)生了37個主要的細胞簇
4.主題對應(yīng)于特定的組織身份
接下來作者試圖確定根據(jù)37個主題對細胞類型進行聚類之后衔掸,這些細胞聚類是否代表不同的細胞類型烫幕。注釋主題細胞類型的一種方法是參考已知的基因位點,類似于scRNA-seq數(shù)據(jù)中識別簇的標(biāo)記基因的方式敞映。由于缺乏此類數(shù)據(jù)较曼,作者采用了如下方法:
(1)尋找每個主題中scATAC-seq峰與細胞類型特異性TF的chip-seq峰的重疊(Fig4);
(2)利用峰值-基因分配及其相關(guān)表達模式將基因和主題關(guān)聯(lián)起來驱显,計算每個主題前250個特異性峰诗芜,然后計算特異性峰對應(yīng)基因的組織表達水平,并計算與隨機基因表達的log2比值埃疫,根據(jù)比值分析主題是否特定的細胞類型有關(guān)。
- Fig4. 每個主題的重要峰與細胞類型特異性TF-Chip 峰的重疊情況
- Fig 5. 主題特異性峰往往靠近組織特異性基因
確定細胞類型之后孩哑,作者比較了細胞核數(shù)量和基于解剖學(xué)結(jié)構(gòu)預(yù)期的細胞核數(shù)量之間的一致性栓霜。此外,作者再次分析了與TF Chip-seq位點沒有重疊的峰横蜒。(1) 與TF Chip-seq重疊的峰值往往在L2期幼蟲中具有更多的細胞(2)沒有重疊的峰仍然有明顯的主題特異性 (3)超過一半沒有重疊峰的對神經(jīng)元或生殖腺有貢獻胳蛮。由此推測 ChIP-seq可能缺乏找到僅限于L2中少數(shù)細胞特異性調(diào)控位點的靈敏度。因此丛晌,我們得出結(jié)論仅炊,不與 TF ChIP-seq 位點重疊的 sci-ATAC-seq 峰很可能是高度細胞類型特異性的,或者特定于尚未用 ChIP-seq 測試的 TF澎蛛。
- Fig 6. 新的與modeRN ChIP-seq 沒有重疊的染色質(zhì)可及性峰
接著作者分析了組織特異性基因的scATAC-seq 信號费坊,發(fā)現(xiàn)這些基因的染色質(zhì)可及性模式與組織表達模式高度一致(Fig)燕少。hlh -1兼呵、pha-4(咽部組織的主要調(diào)節(jié)因子)立倍、elt-1、col-160(在 L2 的無縫皮下組織中表達的膠原基因)吃衅、bbs-8(在纖毛感覺和氧感覺神經(jīng)元中表達的受體編碼基因)、unc-47(在 GABA 能神經(jīng)元中表達的基因)、elt-2阴挣、T02B11.3(在鞘膠質(zhì)細胞中特異表達的基因)和glh-1(在生殖系中特異表達的基因)均在預(yù)期的組織類型中表現(xiàn)出富集的可及性。數(shù)據(jù)還表明差異亞型表達的模式纺腊;
- Fig 7. 已知組織特異性基因顯示特定主題的染色質(zhì)可及性畔咧。
他們發(fā)現(xiàn)了在pha-4基因座上還存在異構(gòu)體特異性染色質(zhì)可及性模式,并探索了具有這一模式的其他基因(Fig S12)
- Fig S12 具有多個啟動子染色質(zhì)可及性活性的基因提示了異構(gòu)體的使用
5. 對來自單個組織類型的細胞進行LDA建模揖膜,可以檢測細顆粒度的細胞類型
(1)基于解剖位置Marker劃分細胞亞型盒卸;
(2)神經(jīng)元細胞亞簇劃分
- Fig 8. 肌肉和腸道細胞的亞聚類根據(jù)前后體軸的位置將它們分開
- Fig 9. 神經(jīng)元的亞聚類揭示了區(qū)分不同細胞類型的更精細結(jié)構(gòu)。
討論
- 利用sciATAC-seq 繪制了秀麗隱桿線蟲第一張按細胞類型解析的調(diào)控元件圖譜次氨;
關(guān)注點:
- sciATAC-seq與bulk ATAC-seq和 TF Chip-seq的比較分析蔽介;
- 如何將LDA建模的主題與細胞身份進行對應(yīng)
(1)scATAC-seq peaks與組織特異性TF Chip-seq峰的重疊;
(2)特異性峰匹配基因的組織表達模式 - 如何利用單細胞可及性圖譜進行生物學(xué)解釋
(1)細胞核數(shù)與解剖學(xué)細胞數(shù)目比較
(2)組織特異性表達基因的染色質(zhì)可及性概貌
(3)異構(gòu)體特異性可及性模式