人類胎兒的染色質(zhì)開(kāi)放細(xì)胞圖譜(1):
Annotating cell types:
通過(guò)利用 scRNA-seq 數(shù)據(jù)集氏豌,可以簡(jiǎn)化 scATAC-seq 數(shù)據(jù)集中細(xì)胞類型的注釋 (13, 23–25)稽犁。為了部分自動(dòng)化我們的 sci-ATAC-seq 數(shù)據(jù)的細(xì)胞類型注釋,我們首先在我們的 sci-RNA-seq 數(shù)據(jù)中注釋了相同組織的細(xì)胞類型 (16)吗垮。
其次瞧筛,我們計(jì)算了 sci-ATAC-seq 數(shù)據(jù)的基因級(jí)可訪問(wèn)性分?jǐn)?shù),匯總了落在其 TSS 上游 2 kb 的基因體內(nèi)的轉(zhuǎn)座事件數(shù)量荷腊。
第三绍移,我們使用每種數(shù)據(jù)類型的逐細(xì)胞基因矩陣作為基于非負(fù)最小二乘法 (NNLS) 回歸 (26) 尋找聚類之間可能對(duì)應(yīng)關(guān)系的方法的輸入悄窃,有效地產(chǎn)生了“l(fā)ift-over”我們的 sci-ATAC-seq 集群的自動(dòng)注釋集。
最后蹂窖,我們通過(guò)檢查每個(gè)組織內(nèi)每種細(xì)胞類型的marker gene周圍的pileups來(lái)手動(dòng)審查這些自動(dòng)注釋轧抗,根據(jù)需要對(duì)分配的標(biāo)簽進(jìn)行修改(圖 2A 和圖 S3A)。盡管其他方法在單細(xì)胞數(shù)據(jù)的多模式集成 (23) 方面表現(xiàn)出相當(dāng)大的前景瞬测,但我們發(fā)現(xiàn)這種cluster-to-cluster的 NNLS 方法 (26) 足以滿足我們的目的横媚,而且計(jì)算強(qiáng)度要低得多。
總的來(lái)說(shuō)月趟,如果我們包含置信度較低的標(biāo)簽灯蝴,我們能夠注釋 172 個(gè)集群中的 150 個(gè)(87%),或者 172 個(gè)集群中的 163 個(gè)(95%)孝宗。一些簇在同一組織內(nèi)收到相同的注釋并被合并穷躁,從而在所有組織中產(chǎn)生 124 個(gè)注釋。其中因妇,一些注釋存在于多個(gè)組織中(圖 2B)问潭。
跨組織折疊導(dǎo)致 54 個(gè)不同的細(xì)胞類型注釋,它們以 1:1 的比例映射到我們的 sci-RNA-seq 數(shù)據(jù)集中的“主要細(xì)胞類型”注釋(如果我們包括低置信度標(biāo)簽和 1:2 映射婚被,則為 59 個(gè))(圖 2 2B)狡忙。在此分辨率水平下,在 sci-ATAC-seq 數(shù)據(jù)中未發(fā)現(xiàn)的許多 sci-RNA-seq 細(xì)胞類型是小簇摔寨,由于此處分析的細(xì)胞數(shù)量較少去枷,可能未充分采樣而無(wú)法檢測(cè)到[約 400 萬(wàn)個(gè) RNA (16) 與約 800,000 個(gè) ATAC 高質(zhì)量細(xì)胞](圖 S3B)怖辆。
然而是复,仍然完全未注釋的 9 個(gè) sci-ATAC-seq 簇中的大多數(shù)似乎是由于未過(guò)濾的雙峰(雙細(xì)胞),因?yàn)樗鼈兊奶卣魇嵌鄠€(gè)標(biāo)記基因的可訪問(wèn)性 總而言之竖螃,我們能夠注釋 172 個(gè)簇中的 150 個(gè) (87%) , 或者 163 of 172 (95%) 如果我們包括低置信度標(biāo)簽淑廊。
一些簇在同一組織內(nèi)收到相同的注釋并被合并,從而在所有組織中產(chǎn)生 124 個(gè)注釋特咆。其中季惩,一些注釋存在于多個(gè)組織中(圖 2B)录粱。跨組織折疊導(dǎo)致 54 個(gè)不同的細(xì)胞類型注釋画拾,它們以 1:1 的比例映射到我們的 sci-RNA-seq 數(shù)據(jù)集中的“主要細(xì)胞類型”注釋(如果我們包含低置信度標(biāo)簽和 1:2 映射啥繁,則為 59 個(gè))(圖 2 2B)。
在此分辨率水平下青抛,在 sci-ATAC-seq 數(shù)據(jù)中未發(fā)現(xiàn)的許多 sci-RNA-seq 細(xì)胞類型是小簇旗闽,由于此處分析的細(xì)胞數(shù)量較少,可能未充分采樣而無(wú)法檢測(cè)到[約 400 萬(wàn)個(gè) RNA (16) 與約 800,000 個(gè) ATAC 高質(zhì)量細(xì)胞](圖 S3B)蜜另。
然而适室,仍然完全未注釋的 9 個(gè) sci-ATAC-seq 簇中的大多數(shù)似乎是由于未過(guò)濾的雙聯(lián)體,因?yàn)樗鼈兊奶卣髟谟诙鄠€(gè)標(biāo)記基因的可訪問(wèn)性举瑰。
ATAC-seq 數(shù)據(jù)的性質(zhì)允許根據(jù) Y 染色體讀數(shù)對(duì)細(xì)胞進(jìn)行性別鑒定捣辆。 特別是在胎盤中,我們發(fā)現(xiàn)了三種細(xì)胞類型——PAEP+此迅、MECOM+ 和 IGFBP+汽畴、DKK+ 細(xì)胞(在 RNA 數(shù)據(jù)中最初都沒(méi)有注釋,盡管標(biāo)簽很容易在 ATAC 數(shù)據(jù)中提升到集群)耸序,以及胎盤淋巴細(xì)胞 — 在來(lái)自男性胎兒的組織中整袁,Y 染色體衍生讀數(shù)的比例顯著降低(圖 S3C)。
與已知的 PAEP(糖皮質(zhì)激素)和 IGFBP1 一致佑吝,這些細(xì)胞類型可能分別對(duì)應(yīng)于母源性子宮內(nèi)膜上皮細(xì)胞和蛻膜化基質(zhì)細(xì)胞 (27)坐昙。 這通過(guò)用 sooorcell (28) 的基因型推斷得到證實(shí),它另外確定了一個(gè)可能來(lái)自母體的胎盤髓樣細(xì)胞亞群(圖 S3D)芋忿。
Identifying cell type–specific TFs:
識(shí)別細(xì)胞類型特異性的TFs:
接下來(lái)炸客,我們?cè)噲D整合和比較所有 15 個(gè)器官細(xì)胞類型的染色質(zhì)可及性。 為了減輕每個(gè)器官和/或細(xì)胞類型的細(xì)胞數(shù)量總差異的影響戈钢,我們隨機(jī)采樣了每個(gè)器官每個(gè)細(xì)胞類型的 800 個(gè)細(xì)胞(包括未注釋的簇痹仙;在給定細(xì)胞類型少于 800 個(gè)細(xì)胞的情況下) 在給定的器官中,采集了所有細(xì)胞)殉了,然后我們進(jìn)行了 UMAP 可視化(圖 3A)开仰。
令人欣慰的是,在多個(gè)器官中代表的細(xì)胞類型聚集在一起——例如薪铜,基質(zhì)細(xì)胞(9 個(gè)器官)众弓、內(nèi)皮細(xì)胞(13 個(gè)器官)、淋巴細(xì)胞(7 個(gè)器官)和骨髓細(xì)胞(10 個(gè)器官)——而不是按批次或單個(gè)( 圖 S4)隔箍。 發(fā)育和功能相關(guān)的細(xì)胞類型也共定位谓娃,例如不同的血細(xì)胞、分泌細(xì)胞蜒滩、外周神經(jīng)系統(tǒng)神經(jīng)元和中樞神經(jīng)系統(tǒng)神經(jīng)元滨达。
發(fā)育生物學(xué)的一個(gè)核心問(wèn)題是哪些 TF 參與了從不變基因組生成和維持細(xì)胞類型的多樣性奶稠。 我們?cè)噲D利用這些數(shù)據(jù)來(lái)系統(tǒng)地評(píng)估哪些 TF 基序具有差異性,從而在體內(nèi)人類發(fā)育的背景下指定細(xì)胞命運(yùn)規(guī)范和/或維持的關(guān)鍵調(diào)節(jié)因子捡遍。 差異基序可及性不是 TF 結(jié)合的證據(jù)锌订,因此需要進(jìn)一步的實(shí)驗(yàn)驗(yàn)證來(lái)確認(rèn)以下觀察結(jié)果(識(shí)別到了motif,并不意味著一定有TF binding)。
作為第一種方法画株,我們使用線性回歸模型來(lái)詢問(wèn)在每個(gè)細(xì)胞的可訪問(wèn)位點(diǎn)中發(fā)現(xiàn)的哪些 TF 基序最能解釋其細(xì)胞類型從屬關(guān)系瀑志。 最初獨(dú)立處理每個(gè)組織,我們從 JASPAR 數(shù)據(jù)庫(kù)中為所有組織的 124 個(gè)細(xì)胞類型簇中的每一個(gè)確定了最豐富的基序和 TF污秆,這揭示了已知和可能以前未知的調(diào)節(jié)因子(圖 S5)劈猪。
例如,在胎盤中良拼,SPI1/PU.1 的基序是骨髓譜系發(fā)育的既定調(diào)節(jié)因子 (29)战得,在骨髓細(xì)胞的峰值中高度富集; 基質(zhì)祖細(xì)胞 (30) 形成所需的 TWIST-1 基序富含基質(zhì)細(xì)胞峰庸推; 并且 FOS::JUN 基序與絨毛外滋養(yǎng)層細(xì)胞的染色質(zhì)可及性相關(guān)常侦,在這種細(xì)胞類型中,相應(yīng)的 AP1 復(fù)合物被描述為特別活躍贬媒。
胎盤內(nèi)未注釋的簇富含 GATA1::TAL1 基序聋亡,這些基序是紅細(xì)胞生成的既定調(diào)節(jié)因子 (33)。 這些細(xì)胞與來(lái)自全局 UMAP 中其他組織的成紅細(xì)胞聚集在一起(圖 3A 和圖 S6A)际乘,經(jīng)過(guò)進(jìn)一步檢查坡倔,關(guān)鍵的紅細(xì)胞標(biāo)記基因表現(xiàn)出特定的啟動(dòng)子可及性(圖 S6B)。 在 NNLS 指導(dǎo)的工作流程中脖含,這個(gè)簇沒(méi)有被注釋罪塔,因?yàn)樵?sci-RNA-seq 研究中沒(méi)有在胎盤中檢測(cè)到成紅細(xì)胞簇[可能是因?yàn)樘ケP是少數(shù)組織之一,我們的 ATAC 細(xì)胞數(shù)超過(guò) RNA 數(shù)據(jù) (16)]养葵。 因此征堪,如果細(xì)胞類型的關(guān)鍵調(diào)節(jié)因子是已知的,基序富集可以幫助細(xì)胞類型注釋关拒。
我們對(duì)在所有組織中觀察到的 54 種主要細(xì)胞類型重復(fù)了這種回歸分析佃蚜,在折疊出現(xiàn)在多個(gè)組織中的細(xì)胞類型之后(圖 3B 和數(shù)據(jù)文件 S3;descartes.brotmanbaty.org)(15)着绊。 正如預(yù)期的那樣谐算,頂部基序與組織特異性分析和文獻(xiàn)保持一致——例如,骨髓細(xì)胞中的 SPI1/PU.1 (29)畔柔、視網(wǎng)膜色素和光感受器細(xì)胞中的 CRX (34)氯夷、心肌細(xì)胞中的 MEF2B 和 骨骼肌細(xì)胞 (35) 和心內(nèi)膜和平滑肌細(xì)胞中的 SRF (36)。
大多數(shù)基序僅富含一種或兩種細(xì)胞類型靶擦,而神經(jīng)元 TF 基序(37-39)富含多種神經(jīng)元細(xì)胞類型(圖 3B腮考,左上簇)。 基序的細(xì)胞類型特異性的另一個(gè)例外是 HNF1B玄捕,它通常與腎臟和胰腺發(fā)育相關(guān) (40, 41) 并且其基序富含 13 種細(xì)胞類型踩蔚,跨越一系列專門的上皮和分泌作用。
POU2F1((POU class 2 homeobox 1)是 TF 的一個(gè)例子枚粘,它以前沒(méi)有與特定的發(fā)育分支相關(guān)聯(lián)馅闽,而是被認(rèn)為是 POU 家族中的一個(gè)例外——廣泛表達(dá)并且沒(méi)有控制特定的軌跡(42 )。 相比之下馍迄,我們發(fā)現(xiàn)在發(fā)育中的人體組織時(shí)福也,其基序富含幾種神經(jīng)元細(xì)胞類型。 進(jìn)一步支持攀圈,POU2F1 在這些相同的細(xì)胞類型中表達(dá)更高(圖 S6C)暴凑。
擴(kuò)展這一觀察,我們?cè)噲D利用基因表達(dá)圖譜 (16) 來(lái)更廣泛地詢問(wèn) TF 是否以與其基序的差異可及性一致的模式差異表達(dá)赘来。例如现喳,查看兩個(gè)數(shù)據(jù)集中同一組織中注釋的所有細(xì)胞類型,髓樣先驅(qū)因子 SPI1/PU.1 的表達(dá)與其在可訪問(wèn)位點(diǎn)的基序富集呈強(qiáng)正相關(guān)(圖 3C犬辰,左)嗦篱。
該分析還揭示了 TF 在其表達(dá)和基序富集之間呈負(fù)相關(guān)(表 S2)。仔細(xì)觀察后幌缝,這些 TF 往往是阻遏物灸促。例如,GFI1B 已被描述為通過(guò)在結(jié)合其基序時(shí)募集組蛋白脫乙酰酶并誘導(dǎo)染色質(zhì)閉合(例如在胚胎血紅蛋白基因座處)而充當(dāng)對(duì)成紅細(xì)胞和巨核細(xì)胞發(fā)育至關(guān)重要的阻遏物(43)涵卵。與此一致腿宰,我們觀察到它的表達(dá)與其在可訪問(wèn)位點(diǎn)的基序富集負(fù)相關(guān)(圖 3C,右)