植物單細(xì)胞文章見的少點(diǎn)屿讽,但是經(jīng)常在人和動(dòng)物的文章中見過(guò)SCENIC分析的結(jié)果,所以也來(lái)學(xué)習(xí)一下谈山。
SCENIC是一種同時(shí)重建基因調(diào)控網(wǎng)絡(luò)并從單細(xì)胞RNA-seq數(shù)據(jù)中鑒定stable cell states的工具。基于共表達(dá)和DNA挠洳颍基序 (motif)分析推斷基因調(diào)控網(wǎng)絡(luò) 篓吁,然后在每個(gè)細(xì)胞中分析網(wǎng)絡(luò)活性以鑒定細(xì)胞狀態(tài)茫因。
SCENIC發(fā)表于2017年的Nature method文章。當(dāng)前版本的SCENIC好像只支持人類杖剪,鼠和果蠅(Drosophila melanogaster)冻押。
============原理===========
GRN(gene regulatory network)基因調(diào)控網(wǎng)絡(luò)包括TF(transcription factor轉(zhuǎn)錄因子)、cofactor(共調(diào)因子)與其調(diào)節(jié)的target gene 組成盛嘿,決定了某個(gè)狀態(tài)下的細(xì)胞的轉(zhuǎn)錄狀態(tài)洛巢。SCENIC流程包括三步驟:
(1)使用GENIE3或GRNBoost (Gradient Boosting) 基于共表達(dá)推斷轉(zhuǎn)錄因子與候選靶基因之間的共表達(dá)模塊。
(2)由于GENIE3模型只是基于共表達(dá)次兆,會(huì)存在很多假陽(yáng)性和間接靶標(biāo)稿茉,為了識(shí)別直接結(jié)合靶標(biāo)(direct-binding targets),使用RcisTarget對(duì)每個(gè)共表達(dá)模塊進(jìn)行順式調(diào)控基序(cis-regulatory motif)分析。進(jìn)行TF-motif富集分析漓库,識(shí)別直接靶標(biāo)恃慧。(僅保留具有正確的上游調(diào)節(jié)子且顯著富集的motif modules,并對(duì)它們進(jìn)行修剪以除去缺乏motif支持的間接靶標(biāo)渺蒿。)這些處理后的每個(gè)TF及其潛在的直接targets gene被稱作一個(gè)調(diào)節(jié)子(regulon)痢士;
(3)使用AUCell算法對(duì)每個(gè)細(xì)胞的每個(gè)regulon活性進(jìn)行打分。對(duì)于一個(gè)regulon來(lái)說(shuō)茂装,比較細(xì)胞間的AUCell 得分可以鑒定出哪種細(xì)胞有顯著更高的subnetwork活性怠蹂。結(jié)果生成一個(gè)二進(jìn)制的regulon活性矩陣(binarized activity matrix),這將確定Regulon在哪些細(xì)胞中處于“打開”狀態(tài)少态。
SCENIC需要輸入的是單細(xì)胞RNA-seq表達(dá)矩陣—— 每列對(duì)應(yīng)于樣品(細(xì)胞)城侧,每行對(duì)應(yīng)一個(gè)基因】鲈觯基因ID應(yīng)該是gene-symbol并存儲(chǔ)為rownames (尤其是基因名字部分是為了與RcisTarget數(shù)據(jù)庫(kù)兼容)赞庶;表達(dá)數(shù)據(jù)是Gene的reads count。根據(jù)作者的測(cè)試澳骤,提供原始的或Normalized UMI count歧强,無(wú)論是否log轉(zhuǎn)換,或使用TPM值为肮,結(jié)果相差不大摊册。
在進(jìn)行GENIE3分析前要對(duì)數(shù)據(jù)進(jìn)行過(guò)濾:
(1)過(guò)濾基因:對(duì)每個(gè)基因的總reads數(shù)進(jìn)行過(guò)濾,去除最可能不可信的只提供噪音的基因颊艳。具體的值取決于數(shù)據(jù)茅特,文章中用到3 UMI counts × 30 (1% of cells) = minimum 90 counts per gene
(2)過(guò)濾基因:在多少細(xì)胞中被檢測(cè)到。去除只在少量細(xì)胞中表達(dá)的基因棋枕,如果這些基因正好在一個(gè)細(xì)胞中集合白修,將獲得很大的權(quán)重。推薦1%重斑。