SCENIC workflow 包含3個主要步驟:
以single-cell RNA-seq數(shù)據推斷基因調控網絡和細胞功能聚類
1.用GENIE3(隨機森林) 或GRNBoost (Gradient Boosting) 推斷轉錄因子與候選靶基因之間的共表達模塊匾灶。每個模塊包含一個轉錄因子及其靶基因筐咧,純粹基于共表達窿侈。
2.使用RcisTarget分析每個共表達模塊中的基因,以鑒定enriched motifs首繁;僅保留TF motif富集的模塊和targets践宴,每個TF及其潛在的直接targets gene被稱作一個調節(jié)子(regulon)
3.使用AUCell評估每個細胞中每個regulon的活性坏为,AUCell分數(shù)用于生成Regulon活性矩陣究驴,通過為每個regulon設置AUC閾值镊绪,可以將該矩陣進行二值化(0|1,on|off)洒忧,這將確定Regulon在哪些細胞中處于“打開”狀態(tài)蝴韭。
使用RcisTarget是SCENIC不同于大多共表達算法的重要區(qū)別。
由于GENIE3模塊僅基于共表達熙侍,因此結果可能包含許多誤報和間接target榄鉴,為了鑒定推斷的直接結合的靶標基因,使用RcisTarget對每個共表達模塊進行順式調控基序(motif)分析蛉抓。僅保留具有正確基因上游調節(jié)子且顯著富集TF motif的模塊庆尘,并對它們進行修剪以除去缺乏基序支持的間接靶標,這些處理后的模塊才稱為regulon芝雪。
AUCell對regulon的活性打分
每個細胞的Regulon活性評分確定了預期的細胞類型以及每種細胞類型的潛在主調控因子的列表. 作為SCENIC的一部分,作者開發(fā)了AUCell算法來對每個細胞中的每個regulon的活性進行評分综苔。對于一個給定的regulon惩系,通過比較所有細胞間的AUCell打分值,我們可以識別哪些細胞具有更顯著高的regulon活性如筛。通過卡閾值得到的二元活性矩陣使矩陣維數(shù)減少(可理解為只有 0|1堡牡,on|off),對于下游分析很有用杨刨。例如晤柄,基于regulon二元活性矩陣的聚類,可以根據某個調控子網絡(regulon)的活性來識別細胞群類型和細胞狀態(tài)妖胀。由于regulon是整體評分的芥颈,而不是使用單個基因的表達,因此這種方法對于個別基因的dropouts很有效赚抡。
AUCell提供了細胞中調控子的活性爬坑。通過基于這種調控子活動(無論是連續(xù)的還是二進制AUC矩陣)對細胞進行聚類,我們可以看到是否有一組細胞傾向于具有相同的活動調控子涂臣,并揭示跨多個細胞重復出現(xiàn)的網絡狀態(tài)盾计。這些狀態(tài)等于網絡的吸引子狀態(tài)。結合這些聚類和不同的可視化方法赁遗,我們可以探索細胞狀態(tài)與特定調控子的關聯(lián)署辉。