[圖片上傳失敗...(image-d9e4ae-1727280015647)]
Basic Information
- 英文標(biāo)題: Multiplexed single-cell characterization of alternative polyadenylation regulators
- 中文標(biāo)題:多重單細(xì)胞替代聚腺苷酸化調(diào)控因子的特征分析
- 發(fā)表日期:8 August 2024
- 文章類型:Resource
- 所屬期刊:Cell
- 文章作者:Madeline H. Kowalski | Rahul Satija
- 文章鏈接:https://www.sciencedirect.com/science/article/pii/S0092867424006457
Highlights
Para_01
- CPA 調(diào)節(jié)因子的遺傳擾動揭示了聚腺苷酸化位點使用的變化是協(xié)調(diào)一致的
- PASTA 可量化單細(xì)胞 RNA 測序數(shù)據(jù)中多聚腺苷酸化位點的使用異質(zhì)性
- RNA生命周期的不同組成部分影響內(nèi)含子多A位點的使用
- 深度學(xué)習(xí)識別決定擾動響應(yīng)的序列特征
Summary
Para_01
- 大多數(shù)哺乳動物基因具有多個多聚腺苷酸化位點儿咱,這些位點代表了由剪切和多聚腺苷酸化(CPA)機(jī)制調(diào)控的轉(zhuǎn)錄多樣性的重要來源褪贵。
- 為了更好地理解這些蛋白質(zhì)如何控制多聚腺苷酸化位點的選擇,我們介紹了CPA-Perturb-seq掠哥,這是一個包含42個CPA調(diào)節(jié)因子的多重擾動篩選數(shù)據(jù)集压固,它使用3'單細(xì)胞RNA測序讀出,能夠?qū)θD(zhuǎn)錄組的聚腺苷酸化位點使用進(jìn)行推斷靠闭。
- 我們開發(fā)了一個框架帐我,用于檢測依賴于擾動的聚腺苷酸化變化,并描述了受共調(diào)節(jié)的多聚腺苷酸化位點的模塊愧膀。
- 我們發(fā)現(xiàn)了一組內(nèi)含子多聚腺苷酸化位點拦键,它們受到核RNA生命周期不同組成部分的調(diào)控,包括延伸檩淋、剪接芬为、終止和監(jiān)控。
- 我們訓(xùn)練并驗證了一個深度神經(jīng)網(wǎng)絡(luò)(APARENT-Perturb)蟀悦,用于串聯(lián)多聚腺苷酸化位點的使用媚朦,勾畫了一個順式調(diào)控代碼,該代碼可預(yù)測擾動響應(yīng)并揭示調(diào)控復(fù)合物之間的相互作用日戈。
- 我們的工作強(qiáng)調(diào)了多重單細(xì)胞擾動篩選進(jìn)一步理解轉(zhuǎn)錄后調(diào)控的潛力询张。
Graphical abstract
[圖片上傳失敗...(image-574d9f-1727280015646)]
Keywords
- cleavage and polyadenylation; alternative polyadenylation; post-transcriptional regulation; Perturb-seq; RNA processing
Introduction
Para_01
- RNA切割和多腺苷酸化(CPA)是轉(zhuǎn)錄后調(diào)控機(jī)制,對于真核生物前mRNA的成熟是必需的浙炼。
- 大多數(shù)哺乳動物基因含有多個多腺苷酸化位點份氧,使得單個基因能夠通過替代多腺苷酸化編碼多個mRNA轉(zhuǎn)錄本。"," Sentence_03 ":" 由這一過程產(chǎn)生的不同的3'端可以影響RNA生命周期的多個不同階段弯屈。
- 例如蜗帜,3'非翻譯區(qū)(UTR)的縮短可能會影響轉(zhuǎn)錄本的穩(wěn)定性和定位。
- 而 內(nèi)含子位點的替代多腺苷酸化可能導(dǎo)致截短的編碼或非編碼轉(zhuǎn)錄本的生成资厉。
- 更一般地說厅缺,多腺苷酸化的廣泛變化已在許多生物學(xué)背景下得到證實,包括細(xì)胞增殖、腫瘤發(fā)生店归、胚胎發(fā)育和分泌細(xì)胞分化阎抒。
- 生化和分子研究表明,一組核心和輔助蛋白質(zhì)負(fù)責(zé)調(diào)控多腺苷酸化位點的選擇消痛。
- 例如且叁,CPA特異性因子(CPSF)復(fù)合物催化切割,切割因子Im(CFIm)和切割因子IIm(CFIIm)復(fù)合物結(jié)合輔助識別序列秩伞,而多腺苷酸化聚合酶負(fù)責(zé)添加多腺苷酸化尾逞带。
Para_02
- 全基因組3'端轉(zhuǎn)錄組技術(shù)可以用來分析多腺苷酸化位點使用情況的變化,包括CPA調(diào)節(jié)因子的遺傳擾動纱新。
- 盡管有些研究進(jìn)行了個別或小規(guī)模的擾動展氓,其他研究則利用小干擾RNA篩選方法產(chǎn)生了更多的資源。
- 這些研究已經(jīng)表征了單個調(diào)節(jié)因子在全球范圍內(nèi)促進(jìn)3'非翻譯區(qū)內(nèi)的近端或遠(yuǎn)端多腺苷酸化位點使用的傾向脸爱,并調(diào)節(jié)一種稱為串聯(lián)替代多腺苷酸化(圖1A)的過程遇汞。
- 盡管不同的擾動影響不同數(shù)量的位點,但目前尚不清楚這種變異是否反映功能性的共調(diào)節(jié):即簿废,是否有多腺苷酸化位點的組對不同的調(diào)節(jié)因子或亞復(fù)合物的擾動特別敏感空入。
- 如果是這樣,識別這些共調(diào)節(jié)位點的模塊及其使用的分子特征代表了增進(jìn)我們對CPA調(diào)節(jié)理解的關(guān)鍵目標(biāo)族檬。
[圖片上傳失敗...(image-ff806b-1727280015646)]
- 圖 1. CPA-Perturb-seq 概述(A)(頂部)用于生成 CPA-Perturb-seq 數(shù)據(jù)集的實驗工作流程示意圖歪赢。(底部)與串聯(lián)或內(nèi)含子多腺苷酸化相關(guān)的擾動依賴性變化的示意圖。"," Sentence_02": "(B)圖示組成并參與切割和多腺苷酸化機(jī)制的的核心調(diào)控復(fù)合物单料。"," Sentence_03": "(C)讀覆蓋圖描繪了 CBX3 位點上替代多腺苷酸化位點的差異使用埋凯。每條軌跡代表一個偽批量平均細(xì)胞,按其擾動分組扫尖。下圖顯示了在檢測到的多腺苷酸化位點之前的 ENSEMBL 基因模型和峰(量化區(qū)域)白对。"," Sentence_04": "(D)通過 CPA-Perturb-seq 對 HEK293FT 細(xì)胞進(jìn)行 UMAP 可視化。細(xì)胞根據(jù)目標(biāo)基因的同一性進(jìn)行著色换怖,使用與(C)中相同的顏色躏结。該可視化基于轉(zhuǎn)錄組范圍內(nèi)多腺苷酸化位點計數(shù)的線性判別分析(LDA)計算得到。另見圖 S1-S3狰域。
Para_02
- 替代性聚腺苷酸化也可以發(fā)生在內(nèi)含子聚A位點(內(nèi)含子替代性聚腺苷酸化媳拴;圖1A),這與3' UTR的變化不同兆览,會導(dǎo)致編碼序列的改變屈溉。
- 內(nèi)含子聚A位點的使用與多種調(diào)控蛋白相關(guān),這些蛋白控制RNA轉(zhuǎn)錄本的合成或核內(nèi)處理抬探。
- 盡管在內(nèi)含子聚腺苷酸化改變已在疾病狀態(tài)下得到識別子巾,但目前尚不清楚內(nèi)含子聚A位點是否普遍對轉(zhuǎn)錄動力學(xué)變化敏感帆赢,或者是否特定的調(diào)控因子子集決定了不同內(nèi)含子位點的使用。
Para_03
- 多重單細(xì)胞技術(shù)线梗,如Perturb-seq椰于,利用單細(xì)胞RNA測序(scRNA-seq)對分子擾動的全轉(zhuǎn)錄組進(jìn)行高通量表征,具有解決這些問題的激動人心的潛力仪搔。
- 雖然scRNA-seq通常用于分析基因表達(dá)水平的異質(zhì)性瘾婿,但這些數(shù)據(jù)也可以用來描述轉(zhuǎn)錄結(jié)構(gòu)的變化。
- 大多數(shù)scRNA-seq協(xié)議旨在捕獲聚腺苷酸化mRNA轉(zhuǎn)錄本的3'端烤咧。
- 因此偏陪,這些方法非常適合在單細(xì)胞分辨率下量化全轉(zhuǎn)錄組的聚A位點使用情況以及基因豐度,揭示細(xì)胞分化和疾病過程中聚腺苷酸化的動態(tài)變化煮嫌。
Para_04
- 在這里笛谦,我們介紹CPA-Perturb-seq,一個資源庫昌阿,其中我們在多路復(fù)用的3'端單細(xì)胞RNA測序屏幕中擾動已知的CPA調(diào)節(jié)因子饥脑,并在單細(xì)胞分辨率上量化每個擾動對多聚A位點使用的影響。
- 我們引入了新的統(tǒng)計方法來量化稀疏單細(xì)胞數(shù)據(jù)集中多聚A位點使用的變化懦冰,并識別了共調(diào)節(jié)多聚A位點的不同模塊好啰。
- 我們發(fā)現(xiàn),內(nèi)含子多聚A位點使用的共調(diào)節(jié)是由核RNA生命周期不同元素對擾動的差異敏感性驅(qū)動的儿奶,而對于串聯(lián)位點,共調(diào)節(jié)是由順式調(diào)控密碼驅(qū)動的鳄抒,其中單個序列元素調(diào)節(jié)反應(yīng)性闯捎。
- 我們通過將開創(chuàng)性的深度學(xué)習(xí)模型擴(kuò)展到多個遺傳背景來學(xué)習(xí)這個密碼,這些模型用于替代性多腺苷酸化许溅,并通過使用大規(guī)模平行報告子分析(MPRA)來驗證我們的發(fā)現(xiàn)瓤鼻。
- 最后,我們展示了我們的計算工具如何應(yīng)用于任何3'端單細(xì)胞RNA測序數(shù)據(jù)集贤重,并使用基因組規(guī)模的Perturb-seq資源表征了參與RNA處理的數(shù)百個基因的調(diào)控效果茬祷。
Results
Multiplexed Perturb-seq screens of 3′ polyA site usage
多重 Perturb-seq 篩選 3' 多聚腺苷酸位點使用情況
Para_01
- 我們試圖了解基因在CPA中的系統(tǒng)擾動如何在單細(xì)胞分辨率上影響選擇性多腺苷酸化(圖1A)。
- 我們設(shè)計了一個包含162個單導(dǎo)向RNA(sgRNA)的庫并蝗,針對42個基因和10個非目標(biāo)(NT)對照(表S1)祭犯。
- 我們的目標(biāo)集合包括18個已知的核心CPA復(fù)合物成員基因,包括CFIm滚停、CFIIm沃粗、CPSF和裂解刺激因子(CSTF)復(fù)合物(圖1B)。
- 我們還包括了23個先前被報道影響相對多腺苷酸化位點使用的基因(表S1)键畴。
Para_02
- 我們在 HEK293FT 細(xì)胞中進(jìn)行了合并的 CRISPR 干擾 (CRISPRi) 篩選最盅,并使用了 Perturb-seq 實驗工作流程(STAR 方法)來同時捕獲每個細(xì)胞接收到的指導(dǎo)物的身份以及 3' scRNA-seq 讀數(shù)(圖 1A 和 S1)。
- 我們的主要分析集中在了深度剖析的 HEK293FT 數(shù)據(jù)集上(每次擾動中位數(shù) 2,168 個細(xì)胞),但也在 K562 細(xì)胞中重復(fù)了實驗(每次擾動中位數(shù) 960 個細(xì)胞)涡贱。
- 在每種細(xì)胞系的兩個生物學(xué)重復(fù)實驗(獨立的病毒轉(zhuǎn)導(dǎo))中咏删,我們總共獲得了 140,415 個單細(xì)胞(表 S2),在這些細(xì)胞中我們成功分配了一個 sgRNA问词。
- 我們應(yīng)用了我們之前開發(fā)的計算管道 Mixscape督函,48 來解決在合并的單細(xì)胞 CRISPR 篩選中已經(jīng)描述過的混淆變量源的問題。33,34,48
- 對于 42 個調(diào)節(jié)因子中的 6 個戏售,Mixscape 將所有細(xì)胞分類為"未擾動"侨核,這表明盡管目標(biāo)基因發(fā)生了敲低(KD),但對轉(zhuǎn)錄組的影響很泄嘣帧(圖 S2A)搓译。
- 對于其余的 36 個基因,Mixscape 將 69% 的細(xì)胞分類為擾動锋喜。
[圖片上傳失敗...(image-2b4cd2-1727280015646)]
- 圖S1些己。使用3 'scRNA-seq分析多腺苷酸化位點使用情況,與圖1相關(guān)
- (A)直方圖顯示CPA-Perturb-seq數(shù)據(jù)集中每個基因鑒定的多腺苷酸化位點數(shù)量(與polyA_DB v3.2相交后)嘿般。
- (B)端粒和內(nèi)含子中檢測到的多腺苷酸化位點相對于典型切割動機(jī)AATAAA和ATTAAA的位置偏好段标。
- (C)用于在單核苷酸分辨率下鑒定切割位點的基因特異性3 'cDNA末端(3 'RACE)放大的示意圖。
- (D)從3 'RACE和Illumina測序獲得的含有多腺苷酸化序列(切割位點半徑的證據(jù))的讀取頻率(y軸)的視覺化炉奴。藍(lán)色條表示預(yù)測的轉(zhuǎn)錄本逼庞,紅色箭頭指示從CPA-Perturb-seq推斷的多腺苷酸化位點。
- (E和F)CPA-Perturb-seq來自JKAMP(左)和CIAPIN1(右)位點的讀取覆蓋圖瞻赶。每個軌跡代表一個偽批量平均細(xì)胞赛糟,按目標(biāo)基因擾動分組。JKAMP在NUDT21擾動下表現(xiàn)出近端位點使用的強(qiáng)烈增加砸逊,而CIAPIN1在NUDT21擾動下不表現(xiàn)出多腺苷酸化位點的變化璧南。
- (G)將CPA-Perturb-seq中的NT與NUDT21敲低進(jìn)行比較時,近端位點使用的變化(x軸)與7個基因的3 'RACE(y軸)师逸。(H)在使用不同技術(shù)在HEK293FT細(xì)胞中基線分析多腺苷酸化位點使用情況時司倚,顯示重復(fù)之間可重復(fù)性的散點圖。每個點代表重復(fù)1(x軸)與重復(fù)2(y軸)中的百分比等位基因使用篓像。點按核密度估計(截斷于2.5)著色动知,并計算重復(fù)之間的皮爾遜相關(guān)系數(shù)。(I)皮爾遜相關(guān)系數(shù)矩陣顯示在分析多腺苷酸化位點使用情況時员辩,三種不同技術(shù)之間在整個轉(zhuǎn)錄組范圍內(nèi)的定量一致性拍柒。
[圖片上傳失敗...(image-30352a-1727280015646)]
- 補(bǔ)充圖 S2. CPA-Perturb-seq 數(shù)據(jù)集中的擾動響應(yīng),與圖 1 相關(guān)
- (A)Perturb-seq 數(shù)據(jù)中觀察到的目標(biāo)基因的對數(shù)倍變化(左)與該擾動的差異表達(dá)基因數(shù)量(右)屈暗。在未檢測到或僅檢測到少數(shù)差異表達(dá)(DE)基因的情況下拆讯,Mixscape 將所有細(xì)胞歸類為"未擾動"脂男。這可能發(fā)生在目標(biāo)擾動不成功的情況下(例如,CLP1)种呐,也可能發(fā)生在目標(biāo)基因被下調(diào)但未觀察到全局效應(yīng)的情況下(例如宰翅,PABC4)。
- (B)CBX3 位點的讀段覆蓋圖爽室。每條軌跡表示細(xì)胞的偽批量平均值汁讼,按其擾動分組,并按其單獨的 sgRNA 分開阔墩。
- (C)聚腺苷酸位點/調(diào)節(jié)因子計數(shù)矩陣的層次聚類嘿架。每列表示在減去 NT 對照細(xì)胞偽批量平均值后,受到相同目標(biāo)基因擾動的單細(xì)胞偽批量平均值啸箫。
- (D)CBX3 位點單個細(xì)胞內(nèi)遠(yuǎn)端聚腺苷酸位點使用比例的分布耸彪,按每個細(xì)胞內(nèi) CBX3 的總讀段數(shù)劃分,包括 NT 細(xì)胞(頂部)和 NUDT21 擾動的細(xì)胞(底部)忘苛。該位點覆蓋度低的細(xì)胞(1-5 reads蝉娜,左)在使用近端和遠(yuǎn)端位點之間顯示出主要的雙峰分布,但具有足夠測序深度的細(xì)胞(中扎唾,右)表明即使是個別細(xì)胞召川,聚腺苷酸位點的使用也是異質(zhì)性的。
- (E)3 個 NT 細(xì)胞(灰色)和 3 個 NUDT21 擾動細(xì)胞(綠色)在 CBX3 位點的讀段覆蓋情況胸遇,說明了單個細(xì)胞內(nèi)聚腺苷酸位點使用的異質(zhì)性荧呐。
Para_02
- 我們利用單細(xì)胞RNA測序數(shù)據(jù)來量化每個細(xì)胞的基因表達(dá)和轉(zhuǎn)錄組范圍內(nèi)的聚腺苷酸位點使用情況(方法詳見STAR Methods)。
- 我們首先使用polyApipe來識別一組可能的聚腺苷酸位點纸镊,然后量化它們在單個細(xì)胞中的使用情況倍阐,從而為下游分析生成一個聚腺苷酸位點/細(xì)胞計數(shù)矩陣。
- 我們的分析僅限于距離polyA_DB v3.2中確定的聚腺苷酸位點50個核苷酸以內(nèi)的聚腺苷酸位點薄腻,polyA_DB v3.2是一個從多個人類細(xì)胞系生成的聚腺苷酸位點數(shù)據(jù)庫。
- 我們還只包括位于基因的內(nèi)含子或最后一個外顯子中的位點(方法詳見STAR Methods)届案。
Para_03
- 我們共鑒定出35,882個多腺苷酸化位點庵楷,分布在12,617個檢測到的基因中。
- 我們發(fā)現(xiàn)8,558個基因在我們的數(shù)據(jù)集中表現(xiàn)出使用兩個或更多的多腺苷酸化位點(其中5,661個基因表現(xiàn)出使用三個或更多)(圖S1A)楣颠。
- 大多數(shù)多腺苷酸化位點包含在剪切位點上游的典型AATAAA/ATTAAA剪切基序尽纽,正如預(yù)期的那樣(圖S1B)。
- 我們使用3′RACE結(jié)合Illumina測序在7個位點驗證了我們預(yù)測的多腺苷酸化位點童漩,發(fā)現(xiàn)我們預(yù)測的多腺苷酸化位點和3′轉(zhuǎn)錄本末端敏感映射高度一致(STAR方法弄贿;表S3;圖S1C和S1D)矫膨。
- 我們在NUDT21擾動細(xì)胞中重復(fù)了3′RACE實驗差凹,以評估我們檢測多腺苷酸化位點使用變化的能力期奔,當(dāng)比較NUDT21擾動在3′RACE和CPA-Perturb-seq數(shù)據(jù)之間的效果時,觀察到高度一致(R=0.86)(圖S1E-S1G)危尿。
- 我們還發(fā)現(xiàn)我們估計的多腺苷酸化位點使用比例與使用批量黃金標(biāo)準(zhǔn)檢測PAPERCLIP和A-seq獲得的轉(zhuǎn)錄組范圍定量之間有高度相關(guān)性(STAR方法呐萌;圖S1H和S1I)。
Para_04
- 我們觀察到了不同調(diào)控因子在多聚A位點使用上的多樣化影響(圖1C和S3)谊娇,并且這些變化在生物學(xué)重復(fù)實驗和多克隆sgRNAs(每個基因3-4個肺孤;圖S2B)中均可重現(xiàn)。
- 我們將受干擾細(xì)胞的polyA位點/細(xì)胞計數(shù)矩陣與4336個NT對照一起作為線性判別分析(LDA)济欢、UMAP可視化(圖1D)和無監(jiān)督聚類分析polyA位點矩陣(圖S2C)的輸入赠堵。
- 這些分析揭示細(xì)胞不僅根據(jù)擾動聚集,而且還聚集到更廣泛的復(fù)合物中法褥。
- 例如茫叭,NUDT21和CPSF6(CFIm復(fù)合物的兩個成員)擾動后的細(xì)胞輪廓高度相關(guān),CPSF(CPSF1-4和FIP1L1)挖胃、CSTF(CSTF1/3)和多聚酶相關(guān)因子(PAF)(PAF1杂靶、CTR9、LEO1和CDC73)復(fù)合物的成員輪廓也是高度相關(guān)的酱鸭。
[圖片上傳失敗...(image-6ccf16-1727280015645)]
- 圖S3:CPA-Perturb-Seq數(shù)據(jù)集中代表性的讀覆蓋圖吗垮,與圖1相關(guān)(A-G)讀覆蓋圖描繪了代表性位點上替代性polyA位點的差異使用情況。每條軌跡代表了一個根據(jù)目標(biāo)基因擾動分組的細(xì)胞的偽批量平均值凹髓。所選位點基于圖1烁登、2、3蔚舀、4和5中顯示的讀覆蓋圖饵沧,并展示了36個調(diào)節(jié)因子和NT對照細(xì)胞的數(shù)據(jù)。在ATP6V1G1位點(A)上赌躺,我們主要觀察到調(diào)節(jié)因子之間的總基因豐度的變化狼牺,而不是相對polyA位點使用情況的變化。
Para_04
- 這些結(jié)果表明礼患,我們的數(shù)據(jù)集可以用來發(fā)現(xiàn)特定于復(fù)制的共同調(diào)控的多聚腺苷酸化位點"模塊"是钥,每一個都對功能相關(guān)的調(diào)控因子的擾動有響應(yīng)。
- 然而缅叠,我們注意到悄泥,多聚腺苷酸化位點/細(xì)胞計數(shù)矩陣的變化可以反映多聚腺苷酸化位點利用的變化以及基因總體豐度的變化。
- 例如肤粱,當(dāng)敲低CSTF3時弹囚,我們發(fā)現(xiàn)了基因近端多聚腺苷酸化位點利用的變化僅與總RNA豐度的變化相對應(yīng)的情況(ATP6V1G1),僅與由于3' UTR縮短導(dǎo)致的轉(zhuǎn)錄本長度變化相對應(yīng)的情況(HNRNPH3)领曼,或者與豐度和相對異構(gòu)體使用的變化都相關(guān)的情況(CDK1)鸥鹉。
[圖片上傳失敗...(image-4958b6-1727280015645)]
- 圖2:PolyA殘留物在單細(xì)胞分辨率下量化替代性多腺苷酸化蛮穿。
- (A)NT細(xì)胞(x軸)和CSTF3擾動細(xì)胞(y軸)中6019個近端多腺苷酸化位點的平均使用情況。只考慮至少有兩個串聯(lián)多腺苷酸化位點的基因宋舷。不同條件之間的變化可能反映相對多腺苷酸化位點使用情況绪撵、總基因表達(dá)量或兩者的變化。
- (B-D)在(A)中突出顯示的三個位點的讀覆蓋圖祝蝠。陰影標(biāo)記近端多腺苷酸化位點音诈。
- (E)計算多腺苷酸化殘留物的程序示意圖(完整描述見STAR方法部分)锈锤。
- (F-H)小提琴圖描繪了NT和CSTF3擾動細(xì)胞的單細(xì)胞基因表達(dá)水平(左)或近端多腺苷酸化位點的單細(xì)胞多腺苷酸化殘留物掂骏。RNA比較中的不顯著(NS)表示絕對log2FC<0.25或使用威爾科克森秩和檢驗的Bonferroni調(diào)整p值>0.05并炮。多腺苷酸化殘留物比較中的NS表示差異多腺苷酸化分析中描述的百分比變化<0.05或調(diào)整后的p值>0.05(詳見STAR方法部分)
Quantifying relative polyadenylation levels at single-cell resolution
在單細(xì)胞分辨率下量化相對多腺苷酸化水平
Para_01
- 為了具體描述擾動驅(qū)動的替代性多腺苷酸化效應(yīng)狡汉,我們試圖設(shè)計一種計算方法來解析這兩種效應(yīng)孕惜。
- 雖然計算基因內(nèi)每個位點的多腺苷酸酸計數(shù)值之比通常用于批量分析中研究替代性多腺苷酸化瞒爬,但在單細(xì)胞RNA測序數(shù)據(jù)中計算這些比例通常是不可行的或噪聲較大牛柒,這是由于數(shù)據(jù)的稀疏性务豺。
- 我們清楚地觀察到了同一細(xì)胞內(nèi)多個多腺苷酸酸位點的使用蹦狂,但在較低的測序深度下誓篱,單細(xì)胞多腺苷酸位點使用比例存在噪聲(見圖S2D和S2E)。
- 相反凯楔,對于每個單細(xì)胞中的每個多腺苷酸位點窜骄,我們的目標(biāo)是建模與對照細(xì)胞相比的過度使用或使用不足的程度。
Para_02
- 我們注意到摆屯,這個問題在概念上與量化單個細(xì)胞中基因表達(dá)的變化相似邻遏,正如我們和其他人使用廣義線性模型所解決的問題一樣。
- 我們擴(kuò)展了這一框架以模擬替代性多腺苷酸化(圖2E)虐骑。
- 我們使用了狄利克特-多項分布來模擬NT細(xì)胞中多腺苷酸酸位點使用的背景分布准验,同時控制基因表達(dá)。
- 與標(biāo)準(zhǔn)多項式相比廷没,狄利克特多項式允許過度分散糊饱,這種做法與使用負(fù)二項分布來模擬基因豐度時的泊松過度分散類似。
- 這種過度分散考慮了背景群體中自然生物異質(zhì)性和"內(nèi)在"噪聲颠黎。
- 正如在sctransform中所做的那樣另锋,我們首先為每個多腺苷酸位點單獨參數(shù)化過度分散估計,但隨后對這些估計進(jìn)行正則化處理盏缤,以適應(yīng)類似位點(STAR方法)砰蠢。
- 我們的程序的輸出是每個多腺苷酸位點的統(tǒng)計模型蓖扑,描述了其在4,336個NT對照細(xì)胞中的背景使用情況唉铜。
Para_03
- 通過比較每個細(xì)胞中每個聚腺苷酸位點觀察到的計數(shù)與Dirichlet多項式模型預(yù)期的值和方差,我們計算了每個聚腺苷酸位點的Pearson殘差(聚腺苷酸殘差)律杠。這個殘差的符號和大小描述了每個細(xì)胞相對于每個聚腺苷酸位點的背景分布的相對偏差潭流。正殘差反映了相對于背景分布竞惋,單個細(xì)胞中某個聚腺苷酸位點的使用頻率更高,反之亦然灰嫉。我們使用線性模型檢測聚腺苷酸殘差的變化拆宛,使我們能夠識別與擾動相關(guān)的聚腺苷酸位點使用變化,而不會受到基因豐度變化的影響(STAR方法)讼撒。當(dāng)應(yīng)用于我們之前的示例(圖2F-2H)時浑厚,這種方法成功地識別出了我們在其中觀察到轉(zhuǎn)錄結(jié)構(gòu)、豐度或兩者都發(fā)生變化的位點根盒。使用基于LDA的聚腺苷酸殘差矩陣可視化(圖S4A)確認(rèn)我們的觀察到的共調(diào)節(jié)模式是由聚腺苷酸變化的協(xié)調(diào)變化驅(qū)動的钳幅。
[圖片上傳失敗...(image-408e3d-1727280015645)]
- 圖 S4:與圖 3 和 4 相關(guān)的串聯(lián)和內(nèi)含子多腺苷酸化擾動驅(qū)動變化。
- (A)通過 CPA-Perturb-seq 分析的 HEK293FT(左)和 K562(右)細(xì)胞的 UMAP 可視化炎滞。
- 細(xì)胞根據(jù)目標(biāo)基因的身份進(jìn)行著色(每個基因的顏色與圖 1C 中使用的顏色相同)敢艰。
- 可視化是基于串聯(lián)和內(nèi)含子多腺苷酸化位點的多腺苷酸殘差線性判別分析(LDA)計算得出的。
- (B)與圖 3A 相同册赛,但來自 K562 數(shù)據(jù)集钠导。
- (C)箱線圖表示 NUDT21 擾動后的基因表達(dá)觀察到的 log2 倍變化(HEK293FT 細(xì)胞)。
- 基因根據(jù) NUDT21 擾動后觀察到的 3' UTR 變化的程度被劃分為十分位數(shù)森瘪。
- (D)內(nèi)含子多腺苷酸化位點使用發(fā)生變化的基因數(shù)量牡属,根據(jù) HEK293FT(左)和 K562(右)細(xì)胞內(nèi)含子位點的使用增加或減少進(jìn)行分類。
- 調(diào)節(jié)因子 PAF1柜砾、CTR9湃望、CDC73、SCAF8痰驱、SCAF4证芭、CPSF3L、RABP2 和 PABPN1 主要表現(xiàn)出內(nèi)含子多腺苷酸化位點的使用增加担映。
- (E)展示 HEK293FT 細(xì)胞內(nèi)含子多腺苷酸化調(diào)節(jié)因子之間關(guān)系的皮爾遜相關(guān)矩陣废士。
- 相關(guān)性是使用差異多腺苷酸化分析期間學(xué)習(xí)的線性模型系數(shù)計算的(STAR 方法)。
- 基因通過層次聚類進(jìn)行排序蝇完。
- (F)與 NT 對照細(xì)胞相比官硝,PAF1 擾動(左)和 CPSF3L 擾動(右)細(xì)胞的多腺苷酸化位點使用百分比變化(y 軸)。
- 這作為與下一個多腺苷酸位點距離的函數(shù)(在 x 軸十分位上分箱)短蜕。
- 與下一個多腺苷酸位點的距離與內(nèi)含子位點對 PAF1 擾動的響應(yīng)相關(guān)氢架,但與 CPSF3L 擾動無關(guān)。
- 皮爾遜相關(guān)性是在距離(對數(shù)刻度)和百分比變化之間計算的朋魔。
- (G)與(F)相同岖研,但對于 PAF1 擾動,分別顯示位于第一個內(nèi)含子(左)和不位于第一個內(nèi)含子(右)的位點。
- (H)與(F)相同孙援,但將內(nèi)含子多腺苷酸化位點按 GC 含量十分位進(jìn)行分箱害淤。
- (I)與(F)相同,但將內(nèi)含子多腺苷酸化位點按內(nèi)含子寬度十分位進(jìn)行分箱拓售。
- (J)熱圖顯示 K562 的模塊 A 基因和模塊 B 基因的遠(yuǎn)端位點的多腺苷酸殘差窥摄。
- 熱圖中顯示的多腺苷酸位點身份和順序與圖 4C 相同。
- (K)與圖 4F 相同础淤,顯示 K562 細(xì)胞中模塊 A 和 B 遠(yuǎn)端位點的使用崭放。
Characterizing perturbation-dependent changes in polyadenylation
表征依賴于擾動變化的聚腺苷酸化
Para_01
- 我們鑒定出7,402個基因在至少36個基因擾動中的至少一個中表現(xiàn)出差異性的選擇性多腺苷酸化(至少有一個多A位點的使用差異)。
- 但是鸽凶,我們在調(diào)控因子之間觀察到了實質(zhì)性的差異莹菱。
- 例如,CFIm復(fù)合體的成員NUDT21表現(xiàn)出最強(qiáng)的擾動響應(yīng)(圖3A)吱瘩,包括多A位點使用和總轉(zhuǎn)錄本豐度的廣泛變化道伟。
- 相比之下,PABPC1的擾動(該蛋白在核輸出后與多A尾結(jié)合)主要影響轉(zhuǎn)錄本水平的變化使碾,而不是結(jié)構(gòu)(圖3A和S4B)蜜徽。
[圖片上傳失敗...(image-1dbf4a-1727280015645)]
- 圖3. 在CPA-Perturb-seq中定性串聯(lián)和內(nèi)含子替代多聚腺苷酸化(A)(左) HEK293FT數(shù)據(jù)集中每個調(diào)節(jié)因子擾動后多聚腺苷酸化位點使用、基因表達(dá)或兩者都有變化的基因數(shù)量票摇。(中) 擾動驅(qū)動內(nèi)含子或串聯(lián)多聚腺苷酸化位點使用發(fā)生變化的基因數(shù)量拘鞋。(右) 串聯(lián)多聚腺苷酸化位點使用發(fā)生變化的基因數(shù)量,按3' UTR縮短或3' UTR延長分類矢门。
- (B和C)讀覆蓋圖顯示ZSCAN9(B)和EXOSC4(C)位點內(nèi)含子位點(方框內(nèi))的差異使用盆色。
- (D)熱圖顯示在PAF復(fù)合物成員(PAF1/CTR9/CDC73)、反終止子(SCAF4/SCAF8)祟剔、PABPN1和CPSF3L/RPAP2擾動后唯一差異使用的內(nèi)含子位點的多聚腺苷酸殘差隔躲。每個熱圖單元格顯示按sgRNA身份分組的細(xì)胞后的偽批量平均值。
- (E)熱圖顯示預(yù)測每種擾動內(nèi)含子多聚腺苷酸位點使用時不同特征的重要性物延。顏色代表從預(yù)測線性模型(STAR方法)獲得的每個協(xié)變量的t統(tǒng)計量宣旱,也用于層次聚類。
- (F)元基因圖顯示每個調(diào)節(jié)因子內(nèi)含子多聚腺苷酸位點顯著變化的規(guī)范化位置叛薯。
- (G)對于每個調(diào)節(jié)因子浑吟,使用有顯著變化的內(nèi)含子多聚腺苷酸位點的內(nèi)含子的GC含量。
- (H)對于每個調(diào)節(jié)因子耗溜,包含有多聚腺苷酸位點使用顯著變化的內(nèi)含子的寬度组力。
- (I)對于每個調(diào)節(jié)因子,按Mukherjee等人的分類抖拴,按內(nèi)含子剪接速度分組燎字,包含多聚腺苷酸位點使用顯著變化的內(nèi)含子的比例。參見圖S4。
Para_01
- 我們接下來根據(jù)聚腺苷酸化位點使用情況的變化將其分類為內(nèi)含子聚腺苷酸化或串聯(lián)聚腺苷酸化轩触,對于串聯(lián)位點,我們確定了它們是代表使用增加還是近端(縮短)或遠(yuǎn)端(延長)位點(STAR方法家夺;圖3A)脱柱。大多數(shù)調(diào)控因子影響串聯(lián)聚腺苷酸化,表現(xiàn)出超過70%的偏向于縮短或延長拉馋,這也在我們K562數(shù)據(jù)集中得到了驗證(圖S4B榨为;表S4)。3' UTR縮短通常與總基因豐度的增加有關(guān)(圖S4C)煌茴,這與3' UTR長度與可能影響RNA穩(wěn)定性的調(diào)控元件存在的關(guān)系相一致随闺。
- 一般情況下,待整理文本中有多少句話蔓腐,輸出的json就應(yīng)該有多少個item矩乐。
Para_02
- 將我們的結(jié)果與之前利用批量3'端測序技術(shù)的研究進(jìn)行比較,突顯了Perturb-seq技術(shù)在定義擾動特征方面的優(yōu)勢回论。之前的研究一致發(fā)現(xiàn)散罕,NUDT21擾動影響了一部分基因(范圍在375到1600個)的多聚腺苷酸位點使用,并導(dǎo)致串聯(lián)UTR的3' UTR縮短傀蓉。
- 在我們的HEK293FT和K562數(shù)據(jù)集中(分別見圖3A和S4B)欧漱,我們觀察到高靈敏度(超過5400個基因在擾動后多聚腺苷酸位點使用發(fā)生了顯著變化)以及高特異性(超過91%的串聯(lián)UTR變化導(dǎo)致縮短)。
- 同樣葬燎,RBBP6擾動與3' UTR延長有關(guān)误甚,但我們的數(shù)據(jù)集以高特異性識別出更多基因(超過94%的3' UTR縮短,見圖3A和S4B)谱净。
Distinct regulatory mechanisms drive intronic polyA site usage
不同的調(diào)控機(jī)制驅(qū)動內(nèi)含子多A位點的使用
Para_01
- 我們確定了八個調(diào)節(jié)因子窑邦,其中干擾反應(yīng)主要與內(nèi)含子多腺苷酸化增加相關(guān)(圖3A和S4D)。
- 這些包括反終止蛋白SCAF8和SCAF4壕探,22 PAF復(fù)合物成員66(PAF1奕翔、CDC73和CTR9)、PABPN1浩蓉、RPAP2和CPSF3L派继,這是整合器復(fù)合物的一個成員67。
- 這些調(diào)節(jié)因子每一個都直接與RNA聚合酶II或新合成的轉(zhuǎn)錄本相互作用捻艳,68,69,70,71,72但是這些調(diào)節(jié)因子的干擾影響了不同的內(nèi)含子位點驾窟。
- 這表明內(nèi)含子多腺苷酸化有多種調(diào)節(jié)模式(圖3B-3D)。
Para_02
- 我們對具有相關(guān)擾動響應(yīng)的調(diào)控因子進(jìn)行了層次聚類分析(圖 S4E)认轨。
- 我們發(fā)現(xiàn) PAF 復(fù)合物成員(PAF1绅络、CDC73 和 CTR9)調(diào)控類似的內(nèi)含子多 A 位點(圖 3D),并且整合素復(fù)合物成員 CPSF3L 和相關(guān)蛋白 RPAP2 之間存在類似的擾動響應(yīng)。
- 我們進(jìn)行了線性建模以識別預(yù)測內(nèi)含子多 A 位點使用變化的特征(圖 3E)恩急,并發(fā)現(xiàn)特征預(yù)測強(qiáng)度在不同調(diào)控因子間差異很大杉畜。
- PABPN1 的擾動與內(nèi)含子首個多 A 位點的使用增加強(qiáng)烈相關(guān)(圖 3F)。
- 與這一發(fā)現(xiàn)一致的是衷恭,PABPN1 作為一個串聯(lián)的 3' UTR 調(diào)控因子發(fā)揮作用(圖 3A)此叠,但它也通過與識別 5' 帽結(jié)構(gòu)的因子結(jié)合,參與核監(jiān)控和降解短的聚腺苷酸化轉(zhuǎn)錄本(參考文獻(xiàn) 68)随珠。
Para_03
- 我們發(fā)現(xiàn)灭袁,內(nèi)含子GC含量以及轉(zhuǎn)錄本中到下一個切割位點的距離(衡量切割事件間延伸時間的一個指標(biāo))都能預(yù)測對PAF1擾動的反應(yīng)性。這種關(guān)系在位于第一個內(nèi)含子的polyA位點最強(qiáng)窗看,但也適用于下游位點(圖S4F和S4G)茸歧。在我們的數(shù)據(jù)集中,只有21%的受調(diào)控的內(nèi)含子polyA位點對PAF1擾動有反應(yīng)显沈,這突顯了這一特定位點子集對延伸動力學(xué)的廣泛變化有反應(yīng)软瞎。
- 這種關(guān)系在位于第一個內(nèi)含子的polyA位點最強(qiáng),但也適用于下游位點(圖S4F和S4G)拉讯。
- 在我們的數(shù)據(jù)集中铜涉,只有21%的受調(diào)控的內(nèi)含子polyA位點對PAF1擾動有反應(yīng),這突顯了這一特定位點子集對延伸動力學(xué)的廣泛變化有反應(yīng)遂唧。
Para_04
- 整合子亞單位CPSF3L及其相關(guān)因子RPAP2在整個基因體上調(diào)節(jié)內(nèi)含子多聚A位點(圖3F)芙代。這些響應(yīng)位點主要位于短內(nèi)含子(中位長度:2,660 bp)和GC含量較高的內(nèi)含子中(圖3G、3H盖彭、S4H和S4I)纹烹。整合子復(fù)合物與多種不同的功能有關(guān),包括參與小核RNA(snRNA)生物發(fā)生67以及在識別暫停的啟動子近端RNAPII時驅(qū)動提前終止72召边。由于我們沒有觀察到內(nèi)含子富集在轉(zhuǎn)錄起始位點附近(圖3F)铺呵,因此我們認(rèn)為可能是snRNA處理缺陷導(dǎo)致了更廣泛的剪接異常,影響了內(nèi)含子多聚腺苷酸化隧熙。我們利用之前發(fā)表的RNA代謝數(shù)據(jù)集片挂,計算了我們數(shù)據(jù)集中2,212個基因的內(nèi)含子剪接速度(圖3I)62。我們發(fā)現(xiàn)CPSF3L/RPAP2特征富集于具有"慢"剪接動態(tài)的內(nèi)含子贞盯,這與其升高的GC含量77一起表明它們剪接效率低下音念。
Para_05
- 最后,我們發(fā)現(xiàn)通過干擾兩種抗終止蛋白躏敢,響應(yīng)內(nèi)含子多A位點的身份出現(xiàn)了明確的分支闷愤。SCAF4主要調(diào)節(jié)短內(nèi)含子(中位長度:7,529 bp)中多A位點的使用,這些內(nèi)含子具有高GC含量件余,而SCAF8則調(diào)節(jié)長內(nèi)含子(中位長度:33,798 bp)中位點的使用讥脐,這些內(nèi)含子具有低GC含量(圖3G和3H)遭居。我們的發(fā)現(xiàn)擴(kuò)展了之前的開創(chuàng)性工作,即SCAF4和SCAF8通過冗余機(jī)制阻止內(nèi)含子多A位點的使用旬渠。通過我們檢測方法的敏感性俱萍,我們能夠檢測到兩種單獨干擾后的表型,證明了這些蛋白質(zhì)在數(shù)百個位點上的非冗余作用告丢,并識別了指導(dǎo)這種選擇性的決定因素枪蘑。我們的分析表明,內(nèi)含子多聚腺苷酸化不是一個全局性調(diào)控的現(xiàn)象芋齿,不同的位點集合對調(diào)控不同RNA核生命周期組分的因素的干擾具有獨特的敏感性。
Modules of co-regulated tandem polyA sites exhibit distinct functional properties
共調(diào)節(jié)串聯(lián)多A位點的模塊表現(xiàn)出不同的功能特性
Para_01
- 我們對串聯(lián)多腺苷酸化調(diào)節(jié)因子的層次聚類分析進(jìn)行了重復(fù)成翩,以確定相關(guān)擾動的響應(yīng)(STAR方法觅捆;圖4A)。擾動簇反映了核心CPA復(fù)合物的成員結(jié)構(gòu)以及共調(diào)節(jié)的額外證據(jù)麻敌。
- 例如栅炒,RBBP6、FIP1L1和PCF11不是同一復(fù)合物的成員术羔,但它們的擾動導(dǎo)致在重疊位點3' UTR延長赢赊。
- 我們在K562數(shù)據(jù)集中觀察到了高度一致的相關(guān)性(圖4B)。
[圖片上傳失敗...(image-cf1583-1727280015644)]
- 圖4顯示了共調(diào)節(jié)的多腺苷酸化位點模塊在功能上的差異级历。(A)展示在HEK293FT細(xì)胞中串聯(lián)干擾之間的關(guān)系的皮爾遜相關(guān)系數(shù)矩陣释移。相關(guān)性是通過使用差異多腺苷酸化分析期間學(xué)習(xí)的線性模型系數(shù)來計算的(STAR方法)×戎常基因通過層次聚類進(jìn)行排序玩讳。(B)與(A)相同,但相關(guān)系數(shù)矩陣是由K562多腺苷酸化殘差生成的嚼贡。(C)熱圖顯示模塊A基因(CSTF和CPSF與CPSF6/NUDT21的方向相反)和模塊B基因(CSTF和CPSF與CPSF6/NUDT21的方向相同)的遠(yuǎn)端峰位點的多腺苷酸化殘差熏纯。每個模塊顯示了排名前100的多腺苷酸化位點(按CSTF干擾排序)。(D)模塊A和B所屬基因的示意圖粤策。(E)讀取覆蓋率圖顯示了屬于模塊A(左樟澜,CCT6A)和模塊B(右,TMEM106C)的代表性基因的多腺苷酸化位點使用情況叮盘。(F)密度圖顯示了NT對照細(xì)胞中屬于模塊A(左)與模塊B(右)的基因的遠(yuǎn)端位點使用情況秩贰。另見圖S4。
Para_01
- 我們發(fā)現(xiàn)柔吼,相關(guān)性結(jié)構(gòu)并非僅僅由全球性偏好于縮短和延長驅(qū)動萍膛,還受到位點特定差異在擾動響應(yīng)中的影響。
- RBBP6的擾動(偏好于3' UTR延長)以及CFIm復(fù)合體成員CPSF6和NUDT21的擾動(偏好于3' UTR縮短)表現(xiàn)出強(qiáng)烈的反相關(guān)響應(yīng)嚷堡,反映出全局性的相反調(diào)控蝗罗。
- 相比之下艇棕,CSTF和CPSF復(fù)合體成員(偏好于3' UTR延長)與CFIm成員僅表現(xiàn)出較弱的反相關(guān)性,反映出更為復(fù)雜的共調(diào)控模式串塑。
Para_02
- 為了進(jìn)一步探索這個問題沼琉,我們考慮了一組在CFIm擾動后轉(zhuǎn)錄縮短的基因(STAR方法)。
- 我們根據(jù)CSTF擾動反應(yīng)將這些基因進(jìn)行了分類桩匪,并觀察到了一個預(yù)期的模塊(圖4C-4E打瘪,模塊A),該模塊包含323個多聚A位點(20%)傻昙,在這些位點上闺骚,CSTF擾動導(dǎo)致了相反的延長反應(yīng)。
- 然而妆档,我們還確定了一個包含149個基因的模塊(模塊B)(9%)僻爽,其中CSTF擾動導(dǎo)致了縮短,這種現(xiàn)象模仿了CFIm擾動贾惦。
- 剩余的71%的位點在CSTF擾動后未表現(xiàn)出利用上的變化胸梆。
- 我們在K562細(xì)胞中的相同位點觀察到了可重復(fù)的模式(圖S4J)。
Para_03
- 此外须板,我們發(fā)現(xiàn)碰镜,在CSTF擾動時3' UTR延長(模塊A)的基因在NT細(xì)胞中強(qiáng)烈傾向于近端位點的使用,而具有相反CSTF擾動表型的基因(模塊B)則表現(xiàn)出遠(yuǎn)端位點偏差(圖4F和S4K)习瑰。這些基因遠(yuǎn)端偏差程度的變異很可能是由它們近端和遠(yuǎn)端位點CSTF活性的相對強(qiáng)度差異驅(qū)動的绪颖。
APARENT-Perturb reveals an interactive cis-regulatory code
APARENT-Perturb 揭示了一個交互性的順式調(diào)控代碼
Para_01
- 我們發(fā)現(xiàn)的差異多聚腺苷酸化可重復(fù)模式強(qiáng)調(diào)了局部序列在決定多聚A位點對干擾反應(yīng)中的作用。
- 我們試圖擴(kuò)展準(zhǔn)確預(yù)測基線條件下全基因組替代多聚腺苷酸化模式的深度學(xué)習(xí)模型甜奄,以預(yù)測干擾反應(yīng)菠发。
- 這些模型成功捕捉非線性相互作用的能力,包括基序之間的位置和組合依賴性贺嫂,突顯了它們學(xué)習(xí)復(fù)雜順式調(diào)控決定因素的能力滓鸠。
Para_02
- 為了預(yù)測未受干擾細(xì)胞中的基線聚腺苷酸化位點使用情況,我們使用了APARENT2模型第喳,這是一個最初在HEK293FT細(xì)胞中測量的MPRA數(shù)據(jù)集上訓(xùn)練的殘差神經(jīng)網(wǎng)絡(luò)糜俗。
- 受到MTSplice模型的啟發(fā),我們隨后訓(xùn)練了一種新的基于集成學(xué)習(xí)的多任務(wù)干擾網(wǎng)絡(luò)(APARENT-Perturb)曲饱,它能預(yù)測我們在10個最強(qiáng)的干擾中聚腺苷酸化位點的使用情況悠抹,輸入的是200個核苷酸序列與核心六聚體的對齊以及APARENT2基線得分(見圖5A)。
- APARENT-Perturb準(zhǔn)確預(yù)測了在NT條件下保留基因的聚腺苷酸化位點的同種形式比例(RS=0.70)扩淀,以及在干擾中的比例(0.65≤RS≤0.73)楔敌,這是通過10倍交叉驗證測量的(見圖5B和S5A)。
[圖片上傳失敗...(image-ae3e99-1727280015644)]
- 圖 5. 一個多任務(wù)神經(jīng)網(wǎng)絡(luò)預(yù)測 RNA 序列的擾動響應(yīng)
- (A)APARENT-Perturb 的示意圖驻谆,這是一個基于集成的神經(jīng)網(wǎng)絡(luò)架構(gòu)卵凑,用于預(yù)測擾動響應(yīng)庆聘。綠色/藍(lán)色/紅色輸出頭對應(yīng)于模型對 K 個擾動條件的預(yù)測。
- (B)在預(yù)測遠(yuǎn)端異構(gòu)體比例(頂部行)或相對于 NT 條件的遠(yuǎn)端異構(gòu)體比例差異(底部行)時的 10 折交叉驗證性能勺卢。
- (C)KMT5A 基因中 2 個示例擾動的特定序列歸因分?jǐn)?shù)伙判。歸因分?jǐn)?shù)是在與 NT 細(xì)胞計算殘差后顯示的。
- (D)10 個擾動位置的平均歸因分?jǐn)?shù)黑忱。對于每個擾動宴抚,展示了 3 個頂級 MoDISco 基序(STAR 方法)。
- (E)熱圖顯示每個基因最遠(yuǎn)端位點每個擾動位置的平均歸因分?jǐn)?shù)甫煞。
- (F)CSTF1 擾動在模塊 A 與模塊 B 中對近端(左)和遠(yuǎn)端(右)位點的平均歸因分?jǐn)?shù)菇曲。核心六聚體和下游序列元素(DSEs)的位置分別用實線和虛線垂直線標(biāo)記。圖表顯示了單堿基對分辨率的平均歸因分?jǐn)?shù)(點)以及 loess 平滑趨勢(線)抚吠。
- (G)針對 GC 豐富(紅色)或 AT 豐富(藍(lán)色)背景中的雙重 TGTA 基序的表型分析常潮。y 軸反映了在預(yù)測 NUDT21 擾動時,同時插入兩個基序與一次插入一個基序的效果比較(STAR 方法)埃跷。
- (H)基于 RBBP6 擾動的典型六聚體和 GT 豐富基序的表型分析蕊玷。另見圖 S5邮利。
[圖片上傳失敗...(image-d42dc3-1727280015644)]
- 圖 S5. APARENT-Perturb 的評估與解釋弥雹,與圖 5 (A) 相關(guān)。(左)在三種擾動條件(NUDT21延届、CSTF3 和 RBBP6)下的預(yù)測與實測遠(yuǎn)端聚腺苷酸位點使用情況剪勿。(右)相對于非目標(biāo)(NT)條件的預(yù)測與實測近端或遠(yuǎn)端聚腺苷酸位點使用差異。僅包含交叉驗證過程中保留集的預(yù)測方庭。
- (B)與圖 5C 相同厕吉,但適用于其他位點。
- (C)所有 10 個學(xué)習(xí)擾動的平均殘差歸因得分械念,按近端和遠(yuǎn)端聚腺苷酸位點分開头朱。每個圖下方顯示了與近端和遠(yuǎn)端位點對應(yīng)的排名前 5 的 MoDISco 基序。這些基序都與正貢獻(xiàn)得分相關(guān)(即增加擾動幅度)龄减,除了 RBBP6 的遠(yuǎn)端基序和 THOC5 的近端基序项钮;這些基序與負(fù)貢獻(xiàn)得分相關(guān)(減少擾動幅度)。
- (D)按擾動分組的特定類別 MoDISco 基序命中的平均歸因得分希停。紅色表示基序類別與擾動幅度的增加相關(guān)烁巫。藍(lán)色表示基序類別與擾動幅度的減少相關(guān)。
- (E)(左)NUDT21 和 CSTF1/3 擾動中具有高歸因得分的序列特征共存情況宠能。NUDT21 擾動中遠(yuǎn)端 pA 信號的 平均歸因得分(紅色)以及 NUDT21 擾動與 CSTF1(橙色)或 CSTF3(紫色)之間歸因得分的平均差異亚隙。(右)NUDT21 和 CSTF3 擾動中符合 U/G 富含基序的 MoDISco 基序命中共存分析(用費舍爾精確檢驗計算的優(yōu)勢比和 p 值)。
- (F)與圖 5D 相同违崇,但顯示了響應(yīng) NUDT21 擾動的所有遠(yuǎn)端聚腺苷酸位點阿弃。聚腺苷酸位點根據(jù)模型分配的重要性分?jǐn)?shù)(DSE诊霹;用垂直線表示)分為十分位。對于第 1 十分位的位點恤浪,DSE 與 NUDT21 的正歸因得分相關(guān)畅哑,而第 10 十分位的位點具有負(fù)貢獻(xiàn)得分。
- (G)CPA-Perturb-seq 數(shù)據(jù)集中調(diào)節(jié)因子在十分位 1 和十分位 10 的聚腺苷酸位點的平均聚腺苷酸殘差(按擾動縮放)水由。這些十分位是由 NUDT21 擾動模型定義的荠呐,但也對不同 CSTF 擾動有不同的響應(yīng)。?表示 t 檢驗中十分位 1 和十分位 10 的殘差 p 值 <0.05砂客;??表示 p 值 <0.001泥张。
- (H)在遠(yuǎn)端聚腺苷酸信號中精確兩個野生型 UGUA 基序的組合消融,這表明了整體亞加性交互鞠值。用指數(shù)函數(shù)估計的擬表型優(yōu)勢比(y 軸)媚创,即在 NUDT21 條件下預(yù)測的擾動對數(shù)優(yōu)勢比,當(dāng)同時替換兩個基序為隨機(jī)序列時與一次替換一個基序時對數(shù)優(yōu)勢比之和的差異彤恶。
- (I)在變化的側(cè)翼核苷酸環(huán)境下對雙重 UGUA 基序的插入模擬钞钙。y 軸表示在 NUDT21 條件下插入兩個基序和一次插入一個基序時預(yù)測的擾動對數(shù)優(yōu)勢比的指數(shù)函數(shù)差異。
- (J)典型核心六聚體基序和下游 U/G 富含基序的組合消融声离。將 U/G 富含基序替換為隨機(jī)序列芒炼,而核心六聚體替換為隨機(jī)選擇的一位點突變的六聚體。
- (K)當(dāng)在 NUDT21 條件下相對于 NT 對遠(yuǎn)端擾動對數(shù)優(yōu)勢比擬合回歸模型時术徊,計數(shù)特征和組合指標(biāo)變量的線性回歸系數(shù)本刽。系數(shù)分布是從 1000 次引導(dǎo)重采樣生成的。
- (L)當(dāng)對 RBBP6 擾動對數(shù)優(yōu)勢比擬合時的回歸系數(shù)分析赠涮。
Para_02
- 接下來子寓,我們進(jìn)行了計算機(jī)模擬突變(ISM),得到了一系列核苷酸水平的"歸因得分"笋除,這些得分反映了每個堿基對模型預(yù)測的貢獻(xiàn)斜友。
- 重要的是,通過減去NT(基線)輸出的得分垃它,我們可以孤立每個序列在預(yù)測擾動響應(yīng)中的重要性鲜屏。
- 例如,KMT5A基因中遠(yuǎn)端多A位點的歸因得分突出了預(yù)測能夠驅(qū)動對NUDT21擾動響應(yīng)的上游TGTA基序和驅(qū)動對CSTF3擾動響應(yīng)的獨特的下游GT豐富區(qū)基序(圖5C和S5B)嗤瞎。
- 對于每種擾動墙歪,我們平均了跨位點的ISM得分以識別含有重要序列元件的區(qū)域(圖5D和5E)。
- 然后贝奇,我們使用了一個基序發(fā)現(xiàn)工具TF-MoDISco虹菲,將每種擾動的歸因得分聚類成一組顯著的基序(圖5D,S5C和S5D)掉瞳。
- 這些結(jié)果概括并擴(kuò)展了之前建立的結(jié)合基序和位置毕源。
- 例如浪漠,CSTF1和CSTF3在下游區(qū)域展示了T-或GT豐富序列的重要性峰。
- NUDT21和CPSF6在多A位點的上游區(qū)域展示了高平均重要性霎褐,但也用A-和T-豐富的翼端擴(kuò)展了規(guī)范的TGTA基序址愿。
- 有趣的是,NUDT21和CPSF6的擾動響應(yīng)還受到大約30-50 bp下游的序列元件的驅(qū)動(下游元件[DSE])冻璃。
- 這個DSE與預(yù)測對CSTF擾動重要性的區(qū)域重疊响谓。
- 這反映了兩者在相同位點上的功能序列共同富集,表明這些因子之間存在調(diào)控相互作用省艳。
Para_03
- 我們之前觀察到CSTF和CFIm復(fù)合物成員可以共同調(diào)節(jié)polyA位點娘纷,無論是在同一方向還是相反方向(圖4C-4F)。
- 我們發(fā)現(xiàn)跋炕,在CFIm擾動導(dǎo)致轉(zhuǎn)錄縮短而CSTF擾動導(dǎo)致延長的基因(模塊A)中赖晶,近端polyA位點的DSE由具有高CSTF歸屬分?jǐn)?shù)的序列元素組成。
- 然而辐烂,在兩個復(fù)合物擾動都導(dǎo)致轉(zhuǎn)錄縮短的基因(模塊B)中遏插,近端位點的序列元素顯著較弱(圖5F,左纠修,p < 2.0 × 10?5胳嘲,威爾科克森雙尾秩和檢驗)。
- 相比之下分瘾,我們觀察到模塊B基因在遠(yuǎn)端位點的歸屬分?jǐn)?shù)增加(圖5F耸黑,右斗蒋,p < 1.6 × 10?4)。
- 綜合這些發(fā)現(xiàn)喻犁,我們提出了一個模型汽纤,在該模型中上岗,近端polyA位點的序列內(nèi)容對于建立近端偏向和擾動響應(yīng)尤其重要。
Para_04
- 最后蕴坪,我們模擬了單個和成對的主題插入肴掷,以識別CPA調(diào)節(jié)因子之間的上位性相互作用,正如轉(zhuǎn)錄因子所做的那樣背传。
- 例如呆瞻,CFIm復(fù)合物包括一個NUDT21同源二聚體,但目前尚不清楚多個TGTA基序是否以及如何影響結(jié)合径玖。
- APARENT-Perturb給具有A-和T-豐富側(cè)翼的NUDT21基序賦予了更高的重要性得分痴脾,因此我們在進(jìn)行插入時測試了多種可能的側(cè)翼序列。
Para_05
- 當(dāng)在短距離內(nèi)插入相鄰的TGTA基序時梳星,我們觀察到當(dāng)兩個基序都被GC豐富的序列包圍時赞赖,NUDT21的擾動有協(xié)同效應(yīng)滚朵,而AT豐富的背景與次加性相互作用相關(guān)(圖5G、S5H和S5I)前域。
- 插入典型的核心六聚體和GT豐富的DSE元素辕近,這兩種元素都與RBBP6和CSTF的調(diào)控有關(guān),展現(xiàn)出一種協(xié)同的表型關(guān)系匿垄,這種關(guān)系在20-bp插入距離時達(dá)到最大(圖5H和S5J)移宅。
- 我們使用多項式特征回歸驗證了這些結(jié)果(圖S5K-S5L)。
- 我們得出結(jié)論椿疗,將深度學(xué)習(xí)模型應(yīng)用于Perturb-seq數(shù)據(jù)集可以揭示順式調(diào)控景觀吞杭,該景觀編碼了在多個復(fù)合物中復(fù)雜的共調(diào)控模式。
Validating sequence predictions by massively parallel screening with perturbations
通過大量并行篩選擾動來驗證序列預(yù)測的有效性
Para_01
- 我們的結(jié)果表明APARENT-Perturb能夠識別驅(qū)動聚腺苷酸化位點選擇的序列变丧,將這些序列分配給特定的調(diào)節(jié)因子芽狗,并識別它們之間的相互作用。
- 在任何基因座驗證這些預(yù)測都需要兩個組成部分:證明突變預(yù)測重要性高的序列元素會改變聚腺苷酸化位點的使用痒蓬,并且這些改變依賴于所分配的調(diào)節(jié)因子的存在童擎。
- 我們在373個基因座設(shè)計了修改后的序列(總共產(chǎn)生3,802個野生型[WT]和突變序列),并利用之前描述的報道基因構(gòu)建體攻晒,進(jìn)行了一些小的修改顾复,以可擴(kuò)展地驗證APARENT-Perturb的預(yù)測(見STAR方法;圖6A和S6A)鲁捏。
- 我們在有和沒有CRISPRi擾動CSTF3的樣本中進(jìn)行了MPRA芯砸,使我們能夠探索每個序列突變與基因擾動的影響。
[圖片上傳失敗...(image-c301ca-1727280015644)]
- 圖6.通過在多種遺傳背景下進(jìn)行大規(guī)模平行報告分析(MPRA)驗證APARENT-Perturb给梅。
- (A)用于驗證APARENT-Perturb的大規(guī)模平行報告分析(MPRA)示意圖假丧。
- (B)根據(jù)APARENT-Perturb預(yù)測的373個WT位點的近端聚腺苷酸位點使用情況(對數(shù)幾率)(x軸)和通過MPRA測量的結(jié)果(y軸)。預(yù)測在NT(頂部)和CSTF3擾動(底部)樣本中均準(zhǔn)確动羽,對于近端和遠(yuǎn)端位點均準(zhǔn)確包帚。
- (C)比較CSTF3和NT樣本的近端聚腺苷酸位點使用情況(對數(shù)幾率比)的變化,針對APARENT-Perturb預(yù)測的響應(yīng)CSTF3擾動的序列(n = 107运吓,右側(cè))與不響應(yīng)的序列(n = 109渴邦,左側(cè))。**表示p值<0.0001拘哨,威爾科克森檢驗比較響應(yīng)與中性序列的對數(shù)幾率比谋梭。
- (D)基于CPA-Perturb-seq推斷的切割位點構(gòu)建的GYG2 3' UTR的基因模型。紅色突出顯示的區(qū)域插入到MPRA構(gòu)建體中倦青。
- (E)(頂部)APARENT-Perturb CSTF模型在GYG2基因(chrX:2882818)遠(yuǎn)端位點的歸因分?jǐn)?shù)瓮床,對于野生型(WT)序列(頂部)以及在進(jìn)行了序列改變后的結(jié)果。這些改變包括重新排列預(yù)測的CSTF響應(yīng)元素以最小化擾動效應(yīng)(中間)以及設(shè)計合成突變以最大化CSTF3響應(yīng)。彩色核苷酸表示改變的核苷酸纤垂。
- (底部)GYG2位點的MPRA數(shù)據(jù)的可視化矾策。線條表示包含聚腺苷酸序列(聚腺苷酸讀數(shù))的讀數(shù)比例,這表示近端切割峭沦,用于NT和CST3F擾動細(xì)胞(STAR方法)贾虽。
- (F)在107個CSTF3響應(yīng)位點上執(zhí)行(E)中描述的序列改變的效果,包括(左)和不包括(右)典型的CSTF結(jié)合基序吼鱼。CSTF3與NT的對數(shù)幾率比(y軸)對于改善和重新排列的序列改變(x軸)進(jìn)行了展示蓬豁。*表示p值<0.0001;表示p值=0.0001-0.05菇肃;NS地粪,無統(tǒng)計學(xué)意義。
- (G)比較NUDT21與NT樣本的近端聚腺苷酸位點使用情況的對數(shù)幾率比(y軸)琐谤,對于WT序列以及在(F)中重新排列CSTF序列元素后的結(jié)果蟆技。**表示p值<0.0001。
- (H)FAM13C位點上聚腺苷酸讀數(shù)的比例斗忌,表示近端切割质礼,在NUDT21擾動和NT細(xì)胞中,對于WT序列以及在重新排列CSTF序列元素后的結(jié)果织阳。
- (I)WT模塊A序列(n = 47眶蕉,綠色)和將CSTF響應(yīng)序列元素插入近端聚腺苷酸位點后(右側(cè),橙色)遠(yuǎn)端聚腺苷酸位點使用的密度唧躲。
- (J)基于CPA-Perturb-seq推斷的切割位點構(gòu)建的PGRM1(模塊B基因)3' UTR的基因模型造挽。紅色突出顯示的區(qū)域插入到MPRA構(gòu)建體中。
- (K)將CSTF響應(yīng)序列元素插入(J)中描繪的構(gòu)建體中對聚腺苷酸讀數(shù)比例的影響(y軸)弄痹。
- (L)將NUDT21基序(TGTA)插入中性序列時對聚腺苷酸位點使用的對數(shù)幾率比(y軸饭入,在NT細(xì)胞中插入的對數(shù)幾率比)的影響,當(dāng)基序被AT富集(左)和GC富集(右)側(cè)翼包圍時界酒,按遠(yuǎn)端位點圣拄。
- (M)在PIP5K1C位點上單獨或雙重插入TTTGTAAT基序的序列的APARENT-Perturb ISM分?jǐn)?shù)嘴秸。
- (N)在多個距離(x軸)處插入具有AT富集側(cè)翼的TGTA基序的表型幾率比(y軸)對于NT(灰色)和NUDT21(綠色)樣本毁欣。**表示單側(cè)t檢驗的p值<0.0001,表型幾率比為1岳掐。另見圖S6凭疮。
[圖片上傳失敗...(image-d7e25b-1727280015644)]
- 圖S6展示了在多種遺傳背景下對數(shù)千個APARENT-Perturb預(yù)測的分析,與圖6相關(guān)(A)示意圖展示了野生型(WT)和打亂序列的示例構(gòu)建體串述,它們被插入到MPRA構(gòu)建體中执解,以及來自每個序列的代表性mRNA分子的讀取。構(gòu)建體的前20 bp由一個獨特的條形碼(紅色)組成,確保每個近端位點構(gòu)建體的可識別性衰腌。每個構(gòu)建體還以一個核心六聚體(綠色)為錨新蟆。在所示示例中,我們確定了一個9-bp的下游元件右蕊,預(yù)測CSTF3擾動響應(yīng)(橙色)琼稻,并用隨機(jī)序列(紫色)替換了該元件。通過直接讀取近端位點的使用情況(當(dāng)我們測序多A尾時饶囚,以藍(lán)色突出顯示)帕翻,我們測量了序列修飾如何改變多A位點的使用。
- (B)密度圖顯示了所有3802個測試序列的遠(yuǎn)端位點使用率(遠(yuǎn)端位點使用情況的分?jǐn)?shù))萝风,分為5個遠(yuǎn)端位點背景嘀掸。
- (C)散點圖表示了在不同生物重復(fù)實驗中多A位點使用測量(近端位點使用情況的分?jǐn)?shù))的可重復(fù)性,對于NT(左)和CSTF3(中)规惰,顏色代表核密度估計睬塌。對于獨立針對CSTF3的引導(dǎo)序列,我們也觀察到了高可重復(fù)性(右)歇万。
- (D)與圖6F相同衫仑,但按遠(yuǎn)端位點背景分開。
- (E)與圖6F相同堕花,但對于APARENT-Perturb預(yù)測的CSTF3非響應(yīng)序列文狱。
- (F)APARENT-Perturb NUDT21模型在FAM13C基因(chr10:59246514)的遠(yuǎn)端位點的歸因得分,對于野生型(WT)序列(頂部)和在預(yù)測的CSTF3序列元件(綠色突出顯示)打亂后的序列(底部)缘挽。上游NUDT21結(jié)合位點(TGTA)以橙色顯示瞄崇。
- (G)與圖6G相同,但按遠(yuǎn)端位點分開壕曼。
- (H)直方圖顯示了APARENT-Perturb預(yù)測的9-bp區(qū)域的最大歸因得分距離(核心六聚體的下游)苏研,針對CSTF3模型(左)。這些區(qū)域內(nèi)的WT序列中最常見的4-mer包括T-和GT-豐富元件腮郊,但不包括NUDT21結(jié)合位點TGTA(右)摹蘑。
- (I)在模塊A基因中打亂預(yù)測的CSTF響應(yīng)元件(n = 49,左)或在模塊B基因中插入GT-豐富區(qū)域(n = 47轧飞,右)對近端位點使用產(chǎn)生相反影響(通過比較修改后的序列與WT的log-odds比衅鹿,y軸),在5個遠(yuǎn)端位點中一致过咬。
- (J)(左)CSTF3擾動響應(yīng)(log-odds比大渤,y軸)對于WT模塊A基因的近端位點使用和進(jìn)行序列打亂后的情況。(右)WT模塊B位點的擾動響應(yīng)和進(jìn)行序列插入后的情況掸绞。??表示p值<0.0001泵三。
- (K)插入TGTA基序,帶有AT-豐富(左)或GC-豐富(右)側(cè)翼對近端位點使用的影響(插入與WT序列比較的log-odds比,y軸)烫幕。??表示p值<0.0001俺抽;?表示p值=0.0001–0.05。
Para_01
- 我們將3,802個測試位點逐一插入報告基因的近端位點较曼,并使用了帶有五個不同強(qiáng)度的遠(yuǎn)端位點的構(gòu)建體(方法詳見STAR Methods凌埂;圖S6B;表S5)诗芜。
- 對于每種遺傳條件瞳抓,我們用我們的MPRA庫轉(zhuǎn)染細(xì)胞,進(jìn)行了兩次生物學(xué)重復(fù)伏恐,并觀察到了可重復(fù)的多聚A位點定量結(jié)果(相關(guān)系數(shù)R為0.96–0.98孩哑;圖S7C)。
[圖片上傳失敗...(image-3b6ec3-1727280015644)]
- 圖 S7. 從全基因組 Perturb-seq 中鑒定替代性多腺苷酸化調(diào)控因子翠桦,與圖 7 相關(guān)(A)與圖 7C 相同横蜒。坐標(biāo)軸顯示了相關(guān)性矩陣中所有基因名稱。(B)GWPS 數(shù)據(jù)集中具有串聯(lián)多 A 位點使用顯著變化的基因數(shù)量销凑,根據(jù) 3' UTR 縮短或 3' UTR 延長進(jìn)行分類丛晌。(C)GWPS 數(shù)據(jù)集中具有內(nèi)含子多 A 位點使用顯著變化的基因數(shù)量,根據(jù)內(nèi)含子多 A 位點使用增加或減少進(jìn)行分類斗幼。(D–I)覆蓋圖描繪了每個模塊中代表性基因的替代性多 A 位點的差異測序讀段覆蓋度和使用情況澎蛛。
Para_01
- 首先,我們將APARENT-Perturb對CSTF3擾動反應(yīng)的預(yù)測與我們的MPRA進(jìn)行了比較蜕窿。
- 在NT對照細(xì)胞(平均R = 0.88)和CSTF3KD細(xì)胞(平均R = 0.89)中谋逻,我們觀察到每個五個遠(yuǎn)端位點都與預(yù)測值明確一致(圖6B)。
- 預(yù)測的響應(yīng)位點在CSTF3擾動后表現(xiàn)出位移(p < 3.4 × 10?37)桐经,而預(yù)測的非響應(yīng)位點表現(xiàn)出最小的變化(圖6C)毁兆。
Para_02
- 我們接下來測試了APARENT-Perturb是否能夠識別特定的序列元素驅(qū)動這種關(guān)系。
- 在每個位點上阴挣,我們識別并打亂了具有最大ISM分?jǐn)?shù)的9-bp序列元素气堕,用于CSTF3擾動(STAR方法;圖6D和6E中的示例)畔咧。
- 這些突變正確地消除了NT和CSTF3擾動細(xì)胞之間的差異(圖6F和S6D)茎芭。
- 此外,我們還設(shè)計了"超響應(yīng)"位點盒卸,類似于基于模型的合成增強(qiáng)子序列對TF結(jié)合的設(shè)計骗爆。86,87
- 我們對原始位點進(jìn)行了10個或20個單核苷酸突變,APARENT-Perturb預(yù)測這將增加位點的響應(yīng)性(STAR方法)蔽介。
- 這些序列在CSTF3擾動后的MPRA中顯示出對聚腺苷酸位點使用的改變增加(圖6F)。
Para_03
- 我們還發(fā)現(xiàn),APARENT-Perturb 成功地識別出缺乏與 CSTF 結(jié)合有關(guān)的 GT-或 T-富集基序的 CSTF3 響應(yīng)元件(參考文獻(xiàn) 88,89)(占響應(yīng)序列的 10%虹蓄,圖 6F)犀呼。相反,我們預(yù)測并驗證為對 CSTF3 擾動無反應(yīng)的一組序列中包含一個典型的 DSE(圖 S6E)薇组。這突顯出 APARENT-Perturb 在預(yù)測調(diào)節(jié)子活性方面優(yōu)于基于通用基序的方法外臂。
Para_04
- 我們之前的分析(圖5D、5E和S5D-S5F)表明律胀,驅(qū)動CSTF調(diào)控的序列特征對NUDT21的反應(yīng)性也很重要宋光。
- 在NUDT21 KD細(xì)胞中測試相同的構(gòu)建體時發(fā)現(xiàn),打亂CSTF基序也會影響對NUDT21干擾的反應(yīng)性(p < 3 × 10^-11炭菌,圖6G罪佳、6H和S6G)。
- 這些調(diào)控元件位于規(guī)范六聚體的下游黑低,并且不包含下游TGTA基序(圖S6H)赘艳。
- 與CSTF3干擾相比,這種效應(yīng)有所減弱克握,這可能是由剩余的NUDT21調(diào)控基序引起的(圖S6F)蕾管。
- 這很可能反映了NUDT21和CSTF3之間的由序列驅(qū)動的間接調(diào)控相互作用。
Para_05
- 我們還測試了我們的假設(shè)菩暗,即差異性的CSTF結(jié)合決定了我們在模塊A與模塊B基因中觀察到的近端與遠(yuǎn)端偏差掰曾。
- 為了驅(qū)動CSTF3反應(yīng),我們在模塊B基因的近端位點插入了一個由APARENT-Perturb預(yù)測的9個堿基序列停团。
- 令人驚訝的是婴梧,我們發(fā)現(xiàn)這個單個序列的修改逆轉(zhuǎn)了模塊之間的差異,將位點從遠(yuǎn)端偏差(WT序列)轉(zhuǎn)變?yōu)榻似睿ㄍ蛔冃蛄校▓D6I-6K和S6I)客蹋。
- 這些更改的效果在CSTF3干擾的細(xì)胞中有所減少塞蹭,突顯出CSTF3活性驅(qū)動這種行為(圖S6J)。
- 相比之下讶坯,打亂模塊A近端位點的預(yù)測CSTF反應(yīng)元件導(dǎo)致向遠(yuǎn)端聚A位點使用的轉(zhuǎn)變(圖S6I)番电。
- 這證明了APARENT-Perturb除了識別擾動反應(yīng)外,還成功識別了決定近端與遠(yuǎn)端偏差的序列元件辆琅。
Para_06
- 最后漱办,我們測試了APARENT-Perturb對序列基序之間相互作用的預(yù)測。我們在49個位點上進(jìn)行了單次和雙次的NUDT21 TGTA基序插入婉烟,測試了AT富集側(cè)翼和GC富集側(cè)翼娩井。
- 與APARENT-Perturb的預(yù)測一致,與GC富集基序插入相比似袁,AT富集基序的單次插入在聚腺苷酸位點使用上導(dǎo)致了顯著更強(qiáng)的變化(p < 3.0 × 10^-54)(圖6L)洞辣。
- 這種插入的強(qiáng)度在NUDT21干擾細(xì)胞中相比于NT對照組被減弱了(圖S6K)咐刨。
- 我們還觀察到,當(dāng)在短距離內(nèi)進(jìn)行帶有AT富集側(cè)翼的TGTA基序的雙插入時扬霜,存在次加性效應(yīng)(圖6M和6N)定鸟,盡管GC側(cè)翼基序的插入顯示出最小的影響。
Identification of CPA regulators from genome-wide screening datasets
從全基因組篩選數(shù)據(jù)集中鑒定CPA調(diào)節(jié)因子
Para_01
- 為了了解附加調(diào)節(jié)因子如何影響聚A位點的使用著瓶,我們對最近發(fā)表的K562細(xì)胞中的全基因組Perturb-seq(GWPS)數(shù)據(jù)集進(jìn)行了重新分析联予。
- 我們計算了聚A殘差,并將其作為差異聚腺苷酸化分析(STAR方法)的輸入材原。
- 由于GWPS數(shù)據(jù)集中每個擾動所包含的細(xì)胞數(shù)量遠(yuǎn)少于我們的數(shù)據(jù)集(對于36個重疊的擾動沸久,中位數(shù)分別為94個細(xì)胞和1142個細(xì)胞),因此我們識別出在聚A位點使用方面發(fā)生變化的基因數(shù)量明顯更少(每個重疊擾動中位數(shù)為72個基因余蟹,而我們的數(shù)據(jù)中為1389個)卷胯。
- 然而,GWPS數(shù)據(jù)集仍然能夠準(zhǔn)確地表征每個調(diào)節(jié)因子客叉。
- 例如诵竭,我們觀察到通過同時擾動串聯(lián)聚腺苷酸化調(diào)節(jié)因子,兩個數(shù)據(jù)集都趨向于3' UTR縮短或延長的一致偏差(圖7A)兼搏。
[圖片上傳失敗...(image-5ec2b1-1727280015643)]
- 圖 7. 在基因組規(guī)模 Perturb-seq 數(shù)據(jù)集中相對多聚腺苷酸位點使用異質(zhì)性的特征化(A)在 CPA-Perturb-seq 數(shù)據(jù)集中擾動串聯(lián)調(diào)節(jié)因子后觀察到的 3' UTR 縮短偏好(x 軸)和 GWPS 數(shù)據(jù)集(y 軸)卵慰。
- (B)與圖 3B 相同,但對于 GWPS 數(shù)據(jù)集佛呻。
- (C)相關(guān)性矩陣描述 GWPS 數(shù)據(jù)集中的擾動之間的關(guān)系裳朋,如圖 4A。(左側(cè)顯示六個相關(guān)模塊各自的代表基因吓著。所有基因均列于圖 S7A鲤嫡。)
- (D)代表多聚腺苷酸位點(n = 100),在擾動外泌體/PAXT 復(fù)合物成員后其使用增加绑莺。
- (E)CPSF3L 擾動(來自 CPA-Perturb-seq)與 GWPS 數(shù)據(jù)中的其他整合復(fù)合物成員和剪接體因子相關(guān)性最高(y 軸)暖眼。
- (F)代表讀段覆蓋圖,展示在 CPSF3L纺裁、其他整合復(fù)合物成員和 SMN 復(fù)合物成員擾動后多聚腺苷酸位點使用共享的變化诫肠。
- (G)CPA-Perturb-seq 內(nèi)含子特征在 GWPS 模塊響應(yīng)位點中的富集(y 軸)。點的大小對應(yīng)于超幾何富集檢驗的 -log10(p 值)欺缘,顏色對應(yīng)于每個特征的 平均多聚腺苷酸殘差栋豫。
- (H)我們數(shù)據(jù)集中所有內(nèi)含子多聚腺苷酸位點的剪接供體位點(5')MaxEnt 評分與 CPSF3L/RPAP2 擾動中顯著增加使用的位點進(jìn)行比較。??表示 p 值 <0.0001谚殊,Wilcoxon 檢驗丧鸯。另見圖 S7。
Para_01
- 為了關(guān)注直接修飾RNA的調(diào)節(jié)因子嫩絮,我們將分析限制在一組1280個RNA結(jié)合蛋白上丛肢。
- 我們識別出134個擾動围肥,這些擾動至少在100個基因中引起了多聚A位點使用的改變(圖7B;表S4)摔踱,包括高度相關(guān)的擾動(圖7C和S7A)虐先。
- CFIm復(fù)合物成員CPSF6和NUDT21以及轉(zhuǎn)錄-輸出復(fù)合物成員THOC3的擾動表現(xiàn)出相關(guān)的3' UTR縮短(圖S7B和S7D)怨愤,而由上調(diào)移位復(fù)合物成員派敷、小核糖體亞基和核糖體成熟因子組成的模塊與3' UTR延長相關(guān)(模塊4;圖S7G)撰洗。
- 盡管這些基因是翻譯控制和RNA穩(wěn)定性的良好研究調(diào)節(jié)因子篮愉,但之前未曾有報道與多聚A位點選擇調(diào)節(jié)相關(guān)。
- 我們還識別出一個包含大核糖體亞基組件以及翻譯起始因子EIF6的模塊(模塊2差导;圖S7E)试躏,這表明替代性多腺苷酸化和多個RNA調(diào)節(jié)過程之間存在緊密的交互作用。
Para_02
- 我們發(fā)現(xiàn)多聚腺苷酸尾外泌體靶向(PAXT)復(fù)合物(模塊3)的成員之間存在相互關(guān)聯(lián)的擾動響應(yīng)设褐,該復(fù)合物還包含核帽結(jié)合復(fù)合物成員NCBP2和剪接調(diào)節(jié)因子MBNL1颠蕴。
- 對此模塊的擾動主要與內(nèi)含子多腺苷酸化轉(zhuǎn)錄本的上調(diào)有關(guān)(圖7B、7D和S7C)助析。
- 這種反應(yīng)可能是由于PAXT復(fù)合物在降解過早終止的RNA轉(zhuǎn)錄物中的作用犀被,盡管具體識別過早轉(zhuǎn)錄本的監(jiān)控機(jī)制尚不清楚。
Para_03
- 最后外冀,我們旨在驗證我們之前的假設(shè)寡键,即與整合器擾動相關(guān)的內(nèi)含子多A位點變化是由于剪接動態(tài)變化引起的(圖3D和3I)。
- 我們的CPA-Perturb-seq整合器簽名與運動神經(jīng)元生存(SMN)復(fù)合體的成員以及其他整合器復(fù)合體成員(包括一個額外的模塊雪隧,模塊5西轩;圖7E,7F和S7H)相關(guān)性最強(qiáng)脑沿。
- 我們確認(rèn)GWPS中受剪接模塊調(diào)控的位點集合獨特地與我們的整合器擾動響應(yīng)特征重疊(圖7G)藕畔。
- 最后,我們觀察到這些位點位于具有較弱的典型5′供體剪接位點得分的內(nèi)含子中庄拇,這與剪接效率降低一致(圖7H)注服。
- 這為我們的假設(shè)提供了正交支持,即整合器擾動改變內(nèi)含子中多A位點的使用丛忆,這些內(nèi)含子的剪接效率低下祠汇,表明它們對剪接動態(tài)變化敏感。
Para_04
- 我們得出結(jié)論熄诡,3'端scRNA-seq數(shù)據(jù)可以與定制的計算管線結(jié)合可很,用于探索多聚A位點使用的細(xì)胞異質(zhì)性,并且我們開發(fā)了一個開源的R包凰浮,即使用相對轉(zhuǎn)錄豐度進(jìn)行多聚A位點分析(PASTA)我抠,它實現(xiàn)了本文描述的分析方法苇本。
- PASTA與我們的分析工具包Seurat完全兼容,軟件發(fā)布包括了演示如何用戶可以探索循環(huán)人外周血單核細(xì)胞數(shù)據(jù)集中的替代多聚腺苷酸化細(xì)胞異質(zhì)性的指南菜拓。
- 這些數(shù)據(jù)和代碼資源將促進(jìn)在多種生物系統(tǒng)中異質(zhì)替代多聚腺苷酸化的表征瓣窄,并深入理解調(diào)控轉(zhuǎn)錄后調(diào)控的序列和調(diào)控因子。
Discussion
Para_01
- 在這項研究中纳鼎,我們證明了Perturb-seq技術(shù)俺夕,該技術(shù)已被廣泛用于研究轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò),也可以成功地應(yīng)用于研究轉(zhuǎn)錄后調(diào)控贱鄙。我們引入了一個統(tǒng)計框架劝贸,以在單細(xì)胞分辨率下量化調(diào)節(jié)因子之間的相對多聚A位點使用變化,并確定共同調(diào)控的多聚A位點模塊逗宁。
- 我們引入了一個統(tǒng)計框架映九,以在單細(xì)胞分辨率下量化調(diào)節(jié)因子之間的相對多聚A位點使用變化,并確定共同調(diào)控的多聚A位點模塊瞎颗。
Para_02
- 我們的CPA-Perturb-seq數(shù)據(jù)集揭示了擾動反應(yīng)的顯著異質(zhì)性件甥,包括與每個調(diào)節(jié)因子相關(guān)的變化數(shù)量、類型和方向性哼拔。
- 這表明替代性多腺苷酸化并不是統(tǒng)一調(diào)節(jié)的引有,即所有的多A位點對核心調(diào)節(jié)因子的擾動同等敏感。
- 相反管挟,我們一致觀察到了多A位點模塊間的不同調(diào)節(jié)反應(yīng)的證據(jù)轿曙。
Para_03
- 利用我們的深度神經(jīng)網(wǎng)絡(luò)APARENT-Perturb,我們發(fā)現(xiàn)這種局部調(diào)控結(jié)構(gòu)部分由剪切位點周圍的序列特異性元素編碼僻孝。
- 通過將先前訓(xùn)練的基于序列的模型與我們的擾動數(shù)據(jù)整合导帝,我們直接學(xué)習(xí)序列元素與調(diào)控因子之間的關(guān)聯(lián),為順式調(diào)控元件的功能提供了更機(jī)械的理解穿铆,包括調(diào)控因子之間的相互作用您单。
- 我們注意到這種策略可以擴(kuò)展到其他基于序列的深度學(xué)習(xí)模型。
Para_04
- 盡管我們的分析旨在關(guān)注影響CPA決策的調(diào)控機(jī)制荞雏,但我們反復(fù)觀察到額外的RNA調(diào)控過程改變了替代多腺苷酸化轉(zhuǎn)錄本的相對豐度虐秦。
- 我們發(fā)現(xiàn),影響RNA聚合酶延伸凤优、RNA輸出悦陋、翻譯和剪接的蛋白質(zhì)的擾動導(dǎo)致多腺苷酸化位點的差異使用,突顯了RNA調(diào)控過程之間的廣泛相互依賴性筑辨。
- 未來的工作可能會利用這些相互依賴性俺驶,從3'端單細(xì)胞RNA測序數(shù)據(jù)中推斷RNA動力學(xué)參數(shù)。
- 更廣泛地說棍辕,我們的統(tǒng)計方法可以擴(kuò)展到描述轉(zhuǎn)錄組多樣性的其他來源暮现,例如選擇性剪接还绘。
Para_05
- 我們的方法在測量和解釋多腺苷酸化變化方面存在局限性。盡管調(diào)控因子之間的相關(guān)性擾動響應(yīng)可能反映了共享功能栖袋,但我們不能排除間接效應(yīng)(即一個調(diào)控因子的擾動影響另一個的表達(dá))也可能影響相關(guān)性結(jié)構(gòu)拍顷。
- 擾動可能會改變單個轉(zhuǎn)錄本的生產(chǎn)和降解速率,而Perturb-seq無法明確區(qū)分這兩種現(xiàn)象塘幅。
- 此外昔案,大幅度縮短多聚A尾長度的擾動可能會產(chǎn)生我們在本研究中無法解決的轉(zhuǎn)錄本捕獲偏差。
- 最后晌块,我們對多腺苷酸化位點的注釋基于polyA_DB數(shù)據(jù)庫爱沟,我們可能偶爾會將串聯(lián)多腺苷酸化位點誤分類為內(nèi)含子帅霜。
- 未來的研究如果將CPA-Perturb-seq工作流程與RNA代謝標(biāo)記101,102或長讀測序103相結(jié)合匆背,可以更準(zhǔn)確地定量異構(gòu)體,代表了我們工作的激動人心擴(kuò)展身冀。
Para_06
- 展望未來钝尸,我們相信單細(xì)胞RNA測序(scRNA-seq)分析后的轉(zhuǎn)錄后調(diào)控,來自擾動篩選和原始樣本的分析將相互提供信息搂根。
- 功能性基因組學(xué)工具如Perturb-seq非常適合用來識別分子調(diào)節(jié)器的靶標(biāo)珍促。
- 我們設(shè)想,從建立因果關(guān)系的實驗中推斷出的分子特征代表著重要的資源剩愧,可用于解釋那些因果關(guān)系不明的分子特征猪叙,如疾病狀況。
- 因此仁卷,這些數(shù)據(jù)集的整合代表了一條潛在的途徑穴翩,可以系統(tǒng)地重建指導(dǎo)RNA生命周期的調(diào)控網(wǎng)絡(luò)。
STAR★Methods
Key resources table
關(guān)鍵資源表
Resource availability
資源可用性
Lead contact
主要聯(lián)系人
Para_01
- 進(jìn)一步的信息和資源锦积、試劑的請求應(yīng)直接聯(lián)系負(fù)責(zé)人 Rahul Satija(rsatija@nygenome.org)芒帕,他將負(fù)責(zé)滿足這些需求。
Materials availability
材料可用性
Para_01
- 本研究未生成獨特的試劑丰介。
Data and code availability
數(shù)據(jù)和代碼的可獲得性
Para_01
- 本次研究生成的CPA-Perturb-seq數(shù)據(jù)集可在https://zenodo.org/record/7619593#.Y-P7Zi1h2X0下載背蟆。所有原始數(shù)據(jù)均可在GEO數(shù)據(jù)庫中找到,訪問號為GEO: GSE269600哮幢。
- CPA-Perturb-seq 數(shù)據(jù)可以通過定制的 UCSC GenomeBrowser 軌道進(jìn)行探索带膀,該軌道可在 https://satijalab.org/cpa-perturb-seq 獲得。
- Seurat 和 PASTA 均可作為開源 R 包在 https://github.com/satijalab/seurat 和 https://github.com/satijalab/PASTA 獲得橙垢。
- 用于訓(xùn)練和解釋APARENT-Perturb模型的代碼可在https://github.com/johli/aparent-perturb找到垛叨。
- 本文報告的數(shù)據(jù)需要重新分析時所需的任何額外信息,可應(yīng)要求從主要聯(lián)系人處獲得钢悲。