title:scenic: single-cell regulatory network inference and clustering
journal:Nature methods
IF:28.46
概述:SCENIC是一個(gè)基于計(jì)算和機(jī)器學(xué)習(xí)開(kāi)發(fā)的通過(guò)順式調(diào)控分析來(lái)對(duì)單細(xì)胞數(shù)據(jù)中的轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò)和細(xì)胞狀態(tài)進(jìn)行鑒定葱蝗。開(kāi)發(fā)者們認(rèn)為某個(gè)狀態(tài)下的細(xì)胞的轉(zhuǎn)錄狀態(tài)是由它上游的轉(zhuǎn)錄因子和共調(diào)因子(cofactor)以及這些下游的靶基因組成的基因調(diào)控網(wǎng)絡(luò)(gene regulatory network羡蛾,GRN)來(lái)決定的狈惫。目前很多單細(xì)胞的鑒定方法都是基于單個(gè)基因或者markergene的表達(dá),而作者提出使用轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)來(lái)確定細(xì)胞狀態(tài)可能會(huì)有更好的效果活合。
SCENIC的操作主要分為三個(gè)流程,第一是使用GENIE3來(lái)確定與轉(zhuǎn)錄因子共表達(dá)的基因(注意是共表達(dá))物赶,這只是初步篩選白指,共表達(dá)分析同時(shí)會(huì)得到一些假陽(yáng)性和間接的作用的基因,因此第二步是使用RcisTarget通過(guò)motif分析來(lái)確定真正的轉(zhuǎn)錄因子和對(duì)應(yīng)的靶基因块差,把其他的富集不顯著或者沒(méi)有motif數(shù)據(jù)支持的數(shù)據(jù)刪除侵续,同時(shí)作者把最終獲得的轉(zhuǎn)錄因子和靶基因的組合成為調(diào)節(jié)子(regulons)。第三步是使用AUCell的算法來(lái)對(duì)每一組regulons在每一個(gè)細(xì)胞中的轉(zhuǎn)錄活性進(jìn)行打分憨闰,通過(guò)打分的高低來(lái)確定每個(gè)細(xì)胞中特有的轉(zhuǎn)錄模式,通過(guò)設(shè)定閾值需五,可以得到一個(gè)二維的矩陣鹉动,用于下游分析,比如聚類分析宏邮。這種基于轉(zhuǎn)錄調(diào)控對(duì)細(xì)胞進(jìn)行分類的方法被認(rèn)為是相對(duì)于使用單個(gè)基因表達(dá)更穩(wěn)健的鑒定方法泽示。
作者在之后的實(shí)驗(yàn)中分析了幾組單細(xì)胞數(shù)據(jù),分別模擬了SCENIC在處理全數(shù)據(jù)集蜜氨,低覆蓋數(shù)據(jù)集械筛,和小數(shù)據(jù)集中的表現(xiàn)能力,發(fā)現(xiàn)這種方法在“預(yù)測(cè)”一些已知的轉(zhuǎn)錄因子方面具有很好的效果飒炎,甚至比一些目前標(biāo)準(zhǔn)的方法還要好埋哟。作者使用了人和鼠的腦部單細(xì)胞數(shù)據(jù)用該方法進(jìn)行分析,發(fā)現(xiàn)了基于Dlx1/2在兩個(gè)物種中共同調(diào)控的靶基因郎汪,同時(shí)進(jìn)行聚類分析赤赊,發(fā)現(xiàn)聚類想過(guò)很好。因?yàn)槟[瘤細(xì)胞存在變異煞赢,在使用算法聚類過(guò)程中比正常狀態(tài)的細(xì)胞聚類更有挑戰(zhàn)性抛计,作者使用這個(gè)方法分析了少膠質(zhì)母細(xì)胞瘤數(shù)據(jù)集,發(fā)現(xiàn)SCENIC可以很好的處理這類細(xì)胞的分簇照筑,并鑒定出一些已知的轉(zhuǎn)錄因子吹截。同時(shí)作者發(fā)現(xiàn)在腫瘤進(jìn)展(發(fā)育軌跡)過(guò)程中,會(huì)有一些轉(zhuǎn)錄因子在其中起作用凝危。另外波俄,傳統(tǒng)的去除批次效應(yīng)的方法需要提供參數(shù)(根據(jù)經(jīng)驗(yàn)),而該方法在去除批次效應(yīng)時(shí)是根據(jù)生物學(xué)特征自動(dòng)去除的媒抠。
方法學(xué):SCENIC的工作流程是由四個(gè)R包完成的弟断,包括GENIE3、RcisTarget趴生、AUCell阀趴、GRNBoost昏翰,其中最后一個(gè)R包等價(jià)于GENIE3,是用來(lái)處理大的數(shù)據(jù)集的刘急。SCENIC code and tutorials are available at http://scenic.aertslab.org
GENIE3棚菊,一個(gè)從基因表達(dá)數(shù)據(jù)中推測(cè)基因調(diào)控網(wǎng)絡(luò)的方法,它采用隨機(jī)森林的模型叔汁。不同的決策樹(shù)會(huì)對(duì)每個(gè)轉(zhuǎn)錄因子針對(duì)假定的靶基因予以權(quán)重估計(jì)统求,選取最高的權(quán)重作為T(mén)F的調(diào)控連接。GENIE3的輸入文件是一個(gè)表達(dá)矩陣据块,一般使用raw counts或者UMI码邻,也可以用TPM等數(shù)據(jù),但是可能會(huì)損失信息另假。輸出文件是一個(gè)包含了基因像屋、基因的潛在的調(diào)控因子,及二者的關(guān)聯(lián)(一個(gè)權(quán)重IM值)边篮,我們一般通過(guò)設(shè)定IM閾值》0.001來(lái)確定顯著性的共表達(dá)信息己莺。最后,一個(gè)基因集最少要有20個(gè)基因用于下游分析戈轿。
RcisTarget凌受,一個(gè)用于motif富集分析和候選轉(zhuǎn)錄因子篩選的R包,它主要基于兩步方法思杯,第一步是先挑選出顯著的具有代表性的位于轉(zhuǎn)錄起始位點(diǎn)的motif胜蛉,這步操作是基于一個(gè)收錄全基因組跨物種的motif數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)的,這個(gè)數(shù)據(jù)庫(kù)中分?jǐn)?shù)高于30的motif會(huì)被留下用作后續(xù)分析智蝠,第二步是對(duì)保留下來(lái)的motif做富集分析腾么,富集的方法是i-cirTarget或者是i-Regulon(cytoscape)。最終杈湾,所有通過(guò)motif 富集的TF modules被整合作為一個(gè)完整的輸出解虱。
AUCell,是一個(gè)打分軟件漆撞,通過(guò)分?jǐn)?shù)的高低來(lái)確定每個(gè)細(xì)胞內(nèi)特有的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)殴泰。AUCell的輸入是一個(gè)基因集,輸出是每個(gè)細(xì)胞中對(duì)每個(gè)基因集的打分浮驳。調(diào)節(jié)子在細(xì)胞中的富集程度是通過(guò)AUC的線下面積決定的悍汛,其中x軸為某個(gè)細(xì)胞中基因按照表達(dá)值排列的秩次信息,?y-axis is the number of genes recovered from the input set至会,AUCell then uses the AUC to calculate whether a critical subset of the input gene set is enriched at the top of the ranking for each cell离咐。最后文件的輸出是一個(gè)打分矩陣,我們可以直接使用上面的連續(xù)的打分?jǐn)?shù)值對(duì)細(xì)胞進(jìn)行聚類,也可以使用一個(gè)cutoff值轉(zhuǎn)化成(0宵蛀,1)二維矩陣昆著,這個(gè)cutoff值可以是自動(dòng)生成的,也可以手動(dòng)設(shè)置术陶。
下游分析凑懂,AUC輸出的矩陣中每行是調(diào)節(jié)子,每列是細(xì)胞名 梧宫,可以使用Rtsne等方法對(duì)細(xì)胞進(jìn)行降維可視化接谨,并進(jìn)一步分簇。
有關(guān)文中示例數(shù)據(jù)集中基因和樣本的篩選:cell塘匣,3 UMI counts × 1% of cells = minimum xxx counts per gene