作者:ahworld
鏈接:SCENIC | 以single-cell RNA-seq數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡和細胞功能聚類
)
來源:微信公眾號
著作權歸作者所有哀托,任何形式的轉載都請聯(lián)系作者。
目前單細胞轉錄組領域用的比較多的細胞聚類方法大多是直接從基因表達矩陣推斷劳秋,但是對于多樣本合并分析仓手,很多情況下會出現(xiàn)難以解決的批次效應胖齐,例如:
- 有些癌癥多樣本的聚類結果大多每個樣本單獨分成一群
- 對于發(fā)育樣本,發(fā)育前期和后期細胞類型可能存在較大差異俗或,某些樣本特異的細胞群市怎,難以判斷是批次效應產(chǎn)生的還是真正的生物學效應。
2017年發(fā)表在Nature Methods雜志上的SCENIC算法辛慰,利用單細胞RNA-seq數(shù)據(jù)区匠,同時進行基因調(diào)控網(wǎng)絡重建和細胞狀態(tài)鑒定,應用于腫瘤和小鼠大腦單細胞圖譜數(shù)據(jù)帅腌,提出并證明了順式調(diào)控網(wǎng)絡分析能夠用于指導轉錄因子和細胞狀態(tài)的鑒定驰弄。SCENIC通過使用生物學驅(qū)動的features自動清除腫瘤樣本特異性等批次效應。
基因調(diào)控網(wǎng)絡
我們要深刻了解SCENIC并應用在我們的項目上就要對基因調(diào)控網(wǎng)絡(GRN, gene regulatory network)
的背景有一些認識速客。細胞的轉錄狀態(tài)來自潛在的基因調(diào)控網(wǎng)絡戚篙,GRN由數(shù)量有限的轉錄因子(TFs)和輔因子相互調(diào)節(jié)及調(diào)節(jié)下游靶基因構成。
單細胞轉錄組分析的最新進展為高分辨率識別轉錄狀態(tài)和狀態(tài)之間的過渡提供了令人興奮的機會溺职。例如岔擂,在分化過程中針對單細胞RNA-seq進行優(yōu)化的統(tǒng)計和生物信息學方法帶來了新的生物學見解。但是浪耘,穩(wěn)定細胞狀態(tài)下的特異性和強健的(robust)GRN是否能夠被確定還尚不清楚
乱灵。
鑒于在單細胞水平來做這件事情,這可能確實具有挑戰(zhàn)性七冲。由于轉錄爆發(fā)和其他來源的基因表達的隨機變化痛倚,基因表達可能會與TF輸入的動力學部分斷開(不相關)。目前已經(jīng)有一些從單細胞RNA-seq數(shù)據(jù)推斷共表達網(wǎng)絡的方法發(fā)表澜躺,但是蝉稳,這些方法未使用調(diào)控序列(regulatory sequence)分析來預測TF與靶基因之間的相互作用。
作者認為掘鄙,將順式調(diào)控序列與單細胞基因表達連接可以克服缺失(基因表達豐度檢測不到)和技術多樣性耘戚,從而優(yōu)化細胞狀態(tài)的發(fā)現(xiàn)和表征。鑒于此操漠,作者開發(fā)了單細胞調(diào)控網(wǎng)絡推斷和聚類(SCENIC)來繪制GRN毕莱,通過評估每個細胞中GRN的活性,來識別穩(wěn)定的細胞狀態(tài)颅夺。
SCENIC workflow
SCENIC workflow 包含3個主要步驟:
- 用GENIE3(隨機森林) 或GRNBoost (Gradient Boosting) 推斷轉錄因子與候選靶基因之間的共表達模塊朋截。每個模塊包含一個轉錄因子及其靶基因,純粹基于共表達吧黄。
- 使用RcisTarget分析每個共表達模塊中的基因部服,以鑒定enriched motifs;僅保留TF motif富集的模塊和targets拗慨,每個TF及其潛在的直接targets gene被稱作一個
調(diào)節(jié)子(regulon)
- 使用AUCell評估每個細胞中每個regulon的活性廓八,AUCell分數(shù)用于生成Regulon活性矩陣奉芦,通過為每個regulon設置AUC閾值,可以將該矩陣進行二值化(0|1剧蹂,on|off)声功,這將確定Regulon在哪些細胞中處于“打開”狀態(tài)。
使用RcisTarget是SCENIC不同于大多共表達算法的重要區(qū)別宠叼。由于GENIE3模塊僅基于共表達先巴,因此結果可能包含許多誤報和間接target,為了鑒定推斷的直接結合的靶標基因冒冬,使用RcisTarget對每個共表達模塊進行順式調(diào)控基序(motif)分析伸蚯。 僅保留具有正確基因上游調(diào)節(jié)子且顯著富集TF motif的模塊,并對它們進行修剪以除去缺乏基序支持的間接靶標简烤,這些處理后的模塊才稱為regulon剂邮。
AUCell對regulon活性打分
作為SCENIC的一部分,作者開發(fā)了AUCell算法來對每個細胞中的每個regulon的活性進行評分横侦。
對于一個給定的regulon挥萌,通過比較所有細胞間的AUCell打分值,我們可以識別哪些細胞具有更顯著高的regulon活性枉侧。通過卡閾值得到的二元活性矩陣使矩陣維數(shù)減少(可理解為只有 0|1引瀑,on|off),對于下游分析很有用棵逊。 例如,基于regulon二元活性矩陣的聚類银酗,可以根據(jù)某個調(diào)控子網(wǎng)絡(regulon)的活性來識別細胞群類型和細胞狀態(tài)辆影。由于regulon是整體評分的,而不是使用單個基因的表達黍特,因此這種方法對于個別基因的dropouts很有效蛙讥。
SCENIC性能評估
作者對SCENIC進行了準確性
和魯棒性
評估。
SCENIC準確性評估
作者拿成年小鼠大腦的已知細胞類型的scRNA-seq數(shù)據(jù)集來測試SCENIC灭衷,來評估其準確性次慢。
分析了1,046個初始共表達模塊中的151個Regulons,這些Regulons包含對應TF的顯著富集的motif(占初始TFs的7%)翔曲。每個細胞的Regulon活性評分確定了預期的細胞類型(上圖d迫像,e
)以及每種細胞類型的潛在主調(diào)控因子的列表(例如下圖中的小膠質(zhì)細胞網(wǎng)絡),細胞聚類的結果比一些專用的單細胞聚類方法(SC3)要準確瞳遍。
SCENIC魯棒性評估
作者用以下方式分析了小鼠大腦單細胞RNA-seq圖譜數(shù)據(jù):
- 全部的細胞
- 隨機選取其中100個細胞
- 三分之一的測序reads來模擬低深度的數(shù)據(jù)
SCENIC鑒定出了僅由少量細胞代表的細胞類型(例如闻妓,來自小膠質(zhì)細胞,星形膠質(zhì)細胞或中間神經(jīng)元的2至6個細胞掠械;下圖)由缆。此外注祖,預測的TFs與細胞類型的關聯(lián)也與先前已知的一致,并且此準確性優(yōu)于標準分析流程均唉。
為了驗證鑒定小鼠interneurons的Dlx1/2調(diào)控網(wǎng)絡是晨,作者分析了人腦的sNuc-Seq(Single nuclei RNA-Seq)數(shù)據(jù)集。
在人類腦sNuc-Seq數(shù)據(jù)集上舔箭,SCENIC也鑒定出由DLX1/2強烈驅(qū)動的interneurons細胞群罩缴,該群具有與小鼠相同的motif,并且識別出一組保守的靶標限嫌,包括DLX1本身靴庆。
接下來,作者將這種跨物種分析擴展到其他細胞類型怒医。 與基于歸一化表達的標準聚類(產(chǎn)生強大的物種驅(qū)動聚類)不同炉抒,SCENIC分析有效地按細胞類型對細胞進行了分組(下圖)。 這表明網(wǎng)絡活性的評分是可靠的(robust)稚叹,可以用來克服批處理或測序方法等技術影響焰薄。
上圖為:人和小鼠大腦scRNA-seq數(shù)據(jù)基于GRN活性的聯(lián)合聚類,彩色標注的TF為人和小鼠中共同鑒定到的regulons
鑒定腫瘤scRNA-seq數(shù)據(jù)集中的復雜細胞狀態(tài)
由于腫瘤特異性突變和復雜的基因組畸變扒袖,癌細胞狀態(tài)的鑒定比正常細胞狀態(tài)更具挑戰(zhàn)性塞茅。一般的標準聚類會通過表達矩陣將細胞按其腫瘤起源分組(各個樣品聚成一類),但SCENIC的結果揭示了不同的圖景季率。
以下是作者將SCENIC用在少突膠質(zhì)細胞瘤
(來自6個腫瘤的4,043個細胞)和黑素瘤
(來自14個樣本的1,252個細胞)的scRNA-seq數(shù)據(jù)集上的結果野瘦。
少突膠質(zhì)細胞瘤
對于少突膠質(zhì)細胞瘤(oligodendroglioma),在所以腫瘤細胞中鑒定出三種癌細胞狀態(tài)(上圖c-e)飒泻,每種狀態(tài)均由預期的TF驅(qū)動鞭光,包括:
- oligodendrocyte-like stat:SOX10/4/8, OLIG1/2, 和 ASCL1
- astrocyte-like state:ASCL1, SOX9泞遗,NFIB
- cycling cells:E2F和FOXM1
此外惰许,作者將擴散映射(Diffusion Maps)應用于二元SCENIC矩陣(上上圖)重建了從stem-like到oligodendrocyte-like 和 astrocyte-like分支的分化軌跡。值得注意的是史辙,與正常oligodendrocyte分化相比汹买,此路徑代表不同的“軌跡”。
黑素瘤
在黑素瘤(melanoma)數(shù)據(jù)上觀察到了類似的腫瘤效應校正聊倔,其中SCENIC識別了跨腫瘤的細胞群晦毙。包括一群與少突膠質(zhì)細胞瘤中類似的TF驅(qū)動的周期細胞(例如,E2F1/2/8 和 MYBL2)
Combat和Limma之類的專用批處理效應去除方法耙蔑,需要預先指定批處理效應的來源结序;與這些方法相反,SCENIC通過使用生物學驅(qū)動的features自動清除腫瘤的效應纵潦。
黑色素瘤細胞大致分為兩組:
- MITFhigh state:典型的擴散狀態(tài)徐鹤,以MITF和STAT / IRF為主要regulators垃环;
- MITFlow state:WNT5A, LOXL2 和 ZEB1等已知的侵襲狀態(tài)的markers表達上調(diào)
SCENIC在MITFlow state的細胞群下鑒定到了兩個新的TFs:
- NFATC2 (114 predicted target genes)
- NFIB (15 predicted target genes)
NFATC2是JNK/MAPK途徑中的轉錄阻遏物,參與黑色素瘤去分化和免疫逃逸返敬;
NFIB與毛囊和黑素細胞干細胞的干細胞行為有關遂庄,它在小細胞肺癌轉移過程中起著重要作用。
為了進一步探索NFATC2和NFIB在MITFlow狀態(tài)下的潛在作用劲赠,作者對25個具有不同腫瘤進展的黑色素瘤標本進行了免疫組織化學分析涛目。
作者發(fā)現(xiàn)NFIB和NFATC2在前哨淋巴結(sentinel lymph nodes)中表達最高,這與ZEB1表達共定位凛澎,這與ZEB1表達共定位霹肝,這表明這些markers的表達與最早的轉移事件之間存在關系。
在A375黑色素瘤細胞系塑煎,NFATC2和NFIB的表達很高沫换,當使用siRNA敲除NFATC2時,作者發(fā)現(xiàn)NFATC2調(diào)節(jié)子中的基因被顯著上調(diào)最铁。這與先前證實的NFATC2作為阻遏物是一致的讯赏。此外參與細胞粘附、細胞外基質(zhì)和幾個先前發(fā)表的代表黑色素瘤浸潤狀態(tài)調(diào)控的基因也被上調(diào)冷尉。這表明NFATC2確實可能在疾病進展中起重要作用漱挎。作為黑色素瘤regulons的第二次驗證,作者使用ChIP-seq數(shù)據(jù)確定了MITF和STAT的預測靶標雀哨。
SCENIC使用建議
隨著單細胞數(shù)據(jù)集大小的增加磕谅,作者建議兩種補充方法來擴展網(wǎng)絡推斷:
- 取采樣數(shù)據(jù)集的子集來推斷出GRN,并在AUCell評分步驟中包括所有細胞
- 使用更高效的機器學習和大數(shù)據(jù)處理解決方案雾棺,作者應用GRNBoost 梯度增強來代替random-forest regression膊夹,這種實現(xiàn)方式大大減少了推斷GRN所需的時間,并將為在非常大的數(shù)據(jù)集上進行網(wǎng)絡推斷鋪平道路垢村。
SCENIC是一種普遍適用的分析scRNA-seq數(shù)據(jù)的方法割疾,利用TF和順式調(diào)控序列來指導細胞狀態(tài)的發(fā)現(xiàn)嚎卫。文章的結果表明嘉栓,GRNs是確定細胞狀態(tài)的可靠方法,并且scRNA-seq數(shù)據(jù)非常適合跟蹤基因調(diào)控過程拓诸,在基因調(diào)控過程中特定組合的TFs驅(qū)動細胞特異性的轉錄組侵佃。
作者開發(fā)的pyscenic使用教程請參考:https://pyscenic.readthedocs.io/en/latest/或者查看 pyscenic github
最新SCENIC文章應用
最近發(fā)表的單細胞轉錄組測序繪制小鼠內(nèi)皮細胞精細圖譜分析研究轉錄因子在不同ECs中的調(diào)控作用,發(fā)現(xiàn)了轉錄因子調(diào)控網(wǎng)絡呈現(xiàn)了組織特異性奠支。
參考
- http://scenic.aertslab.org
- Aibar S, González-Blas C B, Moerman T, et al. SCENIC: single-cell regulatory network inference and clustering[J]. Nature methods, 2017, 14(11): 1083-1086.