文獻名:Chromatin and gene-regulatory dynamics of the developing human cerebral cortex at single-cell resolution
Part1:
發(fā)育中人類大腦皮層的單細胞調(diào)控圖譜
該部分主要內(nèi)容總結(jié):
1.實驗平臺10X稀拐、實驗技術(shù):scRNA scATAC肉康、研究的發(fā)育階段和區(qū)域凿试、該部位細胞類型特點狰住;
2.兩個平臺獲得的細胞數(shù)/染色質(zhì)可及性peak、對scRNA-seq數(shù)據(jù)中細胞類型及用的marker gene進行描述猬错、與其他人發(fā)表的數(shù)據(jù)進行映射歼秽,說明注釋的準確性
3.使用CCA將scRNA 和scATAC數(shù)據(jù)進行整合,將基因遠端CRE可及性與基因表達聯(lián)系起來看疗,確定代表enhancer與基因互作的對
4.局部單染色質(zhì)可及性中確定其表達可以很好預(yù)測的基因,找可以根據(jù)染色質(zhì)狀態(tài)預(yù)測基因表達的基因
5.利用單個細胞既做了scRNA睦授,又做了scATAC的數(shù)據(jù)去驗證第4點發(fā)現(xiàn)的基因两芳,表明大多數(shù)推斷的CRE-基因相互作用在該聯(lián)合數(shù)據(jù)集中觀察到
專有名詞介紹:
1.CREs cis-regulatory elements 是非編碼DNA的區(qū)域,可調(diào)節(jié)相鄰基因的轉(zhuǎn)錄睹逃。
2.CCA canonical correlation analysis 是最常用的挖掘數(shù)據(jù)關(guān)聯(lián)關(guān)系的算法之一 ,典型相關(guān)分析(Canonical Correlation Analysis)是對互協(xié)方差矩陣的一種理解盗扇。如果我們有兩個隨機變量向量 X = (X?, ..., X?) 和 Y = (Y?, ..., Y?) 并且它們是相關(guān)的祷肯,那么典型相關(guān)分析會找出 X? 和 Y? 的相互相關(guān)最大的線性組合沉填。
3.GPC genes with predictive chromatin
為了捕獲大腦皮層中的細胞異質(zhì)性,作者使用Chromium platform (10x Genomics)創(chuàng)建了一個基因調(diào)控圖譜佑笋,以通過測序(scATAC-seq)和單細胞RNA測序(scRNA-seq)從四個原始樣本中生成轉(zhuǎn)座酶可及染色質(zhì)的單細胞分析PCW16翼闹,PCW20、PCW21和PCW24(圖1A)蒋纬。
總的來說猎荠,經(jīng)過質(zhì)量控制和篩選坚弱,我們獲得了57868個單細胞轉(zhuǎn)錄組和31304個單細胞表觀基因組)。與之前的研究一致关摇,CTIP2+細胞存在于皮質(zhì)板(CP)荒叶;SOX9+細胞存在于VZ、SVZ和外SVZ(oSVZ)中输虱;
( VZ, ventricular zone; SVZ, subventricular zone; IFL, inner fiber layer; oSVZ, outer SVZ; OFL, outer fiber layer; SP, subplate; CP, cortical plate.)
而GFAP+scaffolding 在PCW17和PCW21時期的跨越新皮質(zhì)區(qū)些楣。proliferation marker KI67與SVZ和oSVZ中的GFAP+細胞和PPP1R17+中間祖細胞(IPCs)共定位(圖1C)。
為了評估單個細胞之間的整體相似性和差異性宪睹,我們進行了unsupervised分析愁茁,包括使用uniform manifold approximation and projection (UMAP)進行降維和聚類。對于scATAC-seq亭病,我們采用迭代方法獲得低維embedding, cell clustering和一組657930個代表潛在順式調(diào)節(jié)元件cis-regulatory elements(CREs)的accessible peaks鹅很。RNA和染色質(zhì)的結(jié)構(gòu)相似,其變化與妊娠時間(圖1D)和細胞類型有關(guān)罪帖。
在同一樣本上進行這兩項(scRNA+scATAC)分析促煮,使我們能夠剖析基因調(diào)控的復雜方面,包括基因表達(scRNA-seq)和基于染色質(zhì)可及性的基因活性得分(scATAC-seq)之間的關(guān)系整袁,scATAC-seq is a metric defined by the aggregate local chromatin accessibility of genes狗准,以及aggregate TF motif activity scores蔼囊。皮質(zhì)生成TF,如SOX9、EOMES椿胯、NEUROD2和DLX2在這三個指標中表現(xiàn)出強烈的簇特異性富集(圖1E),與它們分別在RG仑扑、IPCs放航、皮質(zhì)谷氨酸能神經(jīng)元(GluN)和GABA能神經(jīng)元(中間神經(jīng)元;IN)中的作用一致嚷量。
接下來陋桂,作者在這兩個數(shù)據(jù)集聚類(圖1F),
并使用已知marker的基因表達和基因活性對這些聚類進行注釋(圖1G–H)蝶溶。
在scRNA-seq嗜历,我們觀察到一簇表達TOP2A和KI67的循環(huán)細胞(cycling cells Cyc)。我們還發(fā)現(xiàn)抖所,表達SOX9和HES1的RG包括心室徑向膠質(zhì)細胞( ventricular radial glia vRG:FBXO32梨州,CTGF)和外徑向膠質(zhì)細胞(outer radial glia oRG:MOXD1,HOPX)田轧,并且這些細胞根據(jù)時間而分離(early RG暴匠,PCW16:NPY,F(xiàn)GFR3傻粘;late RG每窖,PCW20-24:CD9帮掉,GPX3)。一個scRNA序列簇中的細胞表達truncated RG(tRG)和ependymal cells(tRG:CRYAB窒典,NR4A1蟆炊,F(xiàn)OXJ1)的marker。我們還發(fā)現(xiàn)了一個與RGs和oligodendrocyte lineage precursors(ASCL1瀑志、OLIG2盅称、PDGFRA、EGFR)相關(guān)的簇表達基因后室。我們稱之為multipotent glial progenitor cells(mGPC)的該簇不同于表達SOX10缩膝、NKX2.2和MBP的OPC和少突膠質(zhì)細胞(OPC/LIGO)簇。在mGPC簇和late RG簇中觀察到與星形膠質(zhì)細胞特性(AQP4岸霹,APOE)相關(guān)的基因疾层。一個大的結(jié)構(gòu)域由神經(jīng)元IPC(EOMES、PPP1R17贡避、NEUROG1)和GluN(BCL11B/CTIP2痛黎、SATB2和SLC17A7/VGLUT1)組成。在GluN簇中刮吧,我們發(fā)現(xiàn)細胞表達subplate markers(SP:NR4A2湖饱,CRYM)。我們還發(fā)現(xiàn)了不同的表達DLX2和GAD2的基因簇杀捻,其中一個表達標記與內(nèi)側(cè)神經(jīng)節(jié)隆起(medial ganglionic eminence MGE:LHX6井厌,SST)相關(guān),另一個表達標記與尾側(cè)神經(jīng)節(jié)隆起和大腦皮層下邊界(caudal ganglionic eminence CGE:SP8致讥,NR2F2仅仆;pallial-subpallial boundary PSB:MEIS2,ETV1)相關(guān)垢袱。此外墓拜,我們還觀察到小膠質(zhì)細胞簇(MG:AIF1,CCL3)请契、內(nèi)皮細胞簇(EC:CLDN5咳榜,PECAM1)、周細胞簇(Peric:FOXC2爽锥,PDGFRB)涌韩、軟腦膜細胞簇(leptomeningeal cells VLMC:COL1A1,LUM)和紅細胞簇(RBC:HEMGN)救恨。
上述許多marker 在scATAC序列空間的相應(yīng)簇中顯示出動態(tài)基因活性得分(圖1H)贸辈。
雖然大多數(shù)聚類都有代表所有時間點的細胞释树,但一些聚類對早期或后期有強烈的biased(例如MGPC和TRG)肠槽。為了進一步證實細胞類型特征和妊娠時間擎淤,我們將兩個先前公布的人類皮層scRNA-seq數(shù)據(jù)集預(yù)測到我們的scRNA-seq manifold中。我們計算了Jaccard對應(yīng)指數(shù)秸仙,并在我們的數(shù)據(jù)和計算匹配的獨立注釋中觀察到細胞類型嘴拢、cell-cycle phase和妊娠時間之間的高度一致性。
我們使用典型相關(guān)分析(CCA)將衍生的基因活性分數(shù)與基因表達水平進行整合寂纪,以將每種模式的細胞數(shù)據(jù)與其他數(shù)據(jù)表示中的最近鄰進行匹配(圖2A)席吴。
匹配細胞的簇注釋是一致的,除了scRNA序列中的循環(huán)祖細胞簇捞蛋,它沒有直接映射到chromatin landscape中的細胞(圖2B)孝冒。
利用這些匹配注釋的pseudo-bulk aggregates,作者應(yīng)用了一種基于相關(guān)性的方法拟杉,將基因遠端CRE可及性與基因表達聯(lián)系起來庄涡,確定了代表潛在增強子-基因相互作用的64878個CRE基因?qū)ΑT谠摲治鲋邪嵘瑁粋€基因與5個CREs(中位數(shù))相連穴店,并且linkded的CREs比unlinkded的元件更保守,并且更可能由最近發(fā)布的以啟動子為中心的染色體構(gòu)象捕獲數(shù)據(jù)集的細胞類型特異性三維(cell-type-specific three-dimensional 3D)相互作用支持拿穴。CRE可及性和基因表達的Co-variation區(qū)分了scRNA-seq和scATAC-seq中確定的細胞類型(圖2C)泣洞。
聚類相關(guān)CRE可及性揭示了與神經(jīng)膠質(zhì)細胞群相對應(yīng)的cluster間的高度可變性,證實了cluster內(nèi)的差異性默色,并表明了GluNcluster間基因調(diào)控的動態(tài)模式球凰。
然后,我們通過對基因活性-表達相關(guān)性進行排序腿宰,從局部單染色質(zhì)可及性中確定其表達可以很好預(yù)測的基因弟蚀。相關(guān)性最高的基因包括SOX2和HES1,這些基因與更多的putative增強子相關(guān)酗失。我們假設(shè)這些基因包括一類高度調(diào)控的基因义钉,這些基因在發(fā)育中的皮層中起著建立細胞身份的驅(qū)動作用,并定義了一組185個具有預(yù)測性染色質(zhì)的基因(GPC规肴;genes in the top decile of gene activity-expression correlations捶闸,與>10個CRE相關(guān))(圖2D)。該基因集在轉(zhuǎn)錄調(diào)節(jié)活性和DNA結(jié)合TF活性方面高度富集(圖2E)拖刃。
為了驗證這些推論删壮,我們分析了來自PCW21人類皮層(multiome)相同細胞的scATAC-seq和scRNA-seq數(shù)據(jù)(圖2F)。
通過對兩種數(shù)據(jù)模式的篩選兑牡,得到8981個具有高質(zhì)量轉(zhuǎn)錄組和表觀基因組圖譜的細胞(央碟。我們將多組scATAC-seq和scRNA-seq圖譜投影到相應(yīng)的單獨生成的landscapes中,并確認我們的細胞類型注釋在聯(lián)合數(shù)據(jù)中得到了很好的表示(圖2G)均函。
將我們的CRE基因連接方法應(yīng)用于真正的細胞對細胞匹配亿虽,我們發(fā)現(xiàn)從單時間點測量中觀察到40181個推斷的峰值基因linkages(53%)菱涤,并確定了額外的23849個(圖2H;表S2)洛勉,
表明大多數(shù)推斷的CRE-基因相互作用在該聯(lián)合數(shù)據(jù)集中觀察到粘秆。同樣,我們將CCA應(yīng)用于多組數(shù)據(jù)收毫,其中正確的細胞分配是已知的攻走。這些推論通常由真實的簇進行驗證,并且通過基于CCA空間中的50個最近鄰而不是單個最近鄰分配簇來增加這種一致性此再。此外昔搂,我們發(fā)現(xiàn)silico-linked的單組細胞與多組細胞的GPC活性表達相關(guān)性具有很強的一致性(圖2I)。
因此输拇,GPC在這個聯(lián)合數(shù)據(jù)集中也很明顯巩趁,強調(diào)了它們的本地可訪問性和它們在同一細胞內(nèi)的轉(zhuǎn)錄之間的對應(yīng)關(guān)系。