SCENIC是干啥的侦镇?
【輸入】motif數(shù)據(jù)庫(kù)灵疮、單細(xì)胞RNA-seq數(shù)據(jù)
【輸出】regulons、每個(gè)細(xì)胞的regulon activity scores (RAS)
【意義】構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)壳繁、鑒定cell-state震捣,幫你挖轉(zhuǎn)錄調(diào)控機(jī)制荔棉。
啥樣的文章用到SCENIC?
引用SCENIC文章的要么是頂級(jí)生信綜述蒿赢,要么是CNS润樱。
應(yīng)用領(lǐng)域廣泛,從人到小鼠羡棵、果蠅壹若,從腫瘤、心血管疾病皂冰、肺纖維化到新冠病毒店展。
SCENIC怎樣用到文章里?
我們來(lái)看FigureYa194pySCENIC所復(fù)現(xiàn)的例文的研究思路秃流。文章一共四個(gè)Figure赂蕴,前三個(gè)都用到了SCENIC。
第一步剔应,找到regulon
通過(guò)基因共表達(dá)分析,建立可能的TF-target調(diào)控關(guān)系语御;
通過(guò)motif分析峻贮,建立TF-target的直接調(diào)控關(guān)系。
這樣對(duì)每個(gè)TF应闯,我們可能會(huì)找到若干個(gè)直接下游纤控,這些基因我們將之命名為regulon。
對(duì)每個(gè)細(xì)胞計(jì)算regulon activity score (RAS)碉纺;
再用RAS對(duì)細(xì)胞降維船万,畫(huà)出Figure 1。
Figure 1. Mapping Mouse Cell Network Atlas with Regulon Activity
第二步骨田,找到細(xì)胞類(lèi)型特異的regulon
計(jì)算RSS(Regulon specific score) matrix耿导,尋找特定細(xì)胞特異的regulon,并利用SEEK進(jìn)行驗(yàn)證态贤。繪制文章的Figure2舱呻。
Figure 2. Cell-Type-Specific Regulon Activity Analysis
第三步,找regulon Modules和Cell type的對(duì)應(yīng)關(guān)系
計(jì)算CSI(Connection Specificity Index) matrix悠汽,基于CSI對(duì)regulon進(jìn)行層次聚類(lèi)箱吕,繪制Figure3的Heatmap。從JASPAR數(shù)據(jù)庫(kù)下載給定轉(zhuǎn)錄因子的motif矩陣柿冲,繪制Figure3的motif logo茬高。
Figure 3. Identification of Combinatorial Regulon Modules
FigureYa194pySCENIC帶你復(fù)現(xiàn)****文章的KEY Figure——Figure 2,順便畫(huà)出Figure 1和Figure 3假抄。
怎樣實(shí)現(xiàn)以上研究?jī)?nèi)容怎栽?
看Jarning詳細(xì)解析文章的method:
用的是已發(fā)表的數(shù)據(jù)
2018年郭國(guó)冀團(tuán)隊(duì)利用其自主的高通量單細(xì)胞轉(zhuǎn)錄組技術(shù)Microwell-seq對(duì)小鼠全身的組織進(jìn)行了單細(xì)胞轉(zhuǎn)錄組測(cè)序丽猬。這組數(shù)據(jù)標(biāo)記清晰,有兩個(gè)數(shù)據(jù)集:subsampled ~61K cells和whole MCA ~250K cells婚瓜。本文用的是前者宝鼓。
用SCENIC推測(cè)regulons及其activity
作者沒(méi)有直接用SCENIC進(jìn)行分析。而是在分析前對(duì)數(shù)據(jù)做了一個(gè)pooling巴刻,即:將同一個(gè)cluster的細(xì)胞每20個(gè)pooling到一塊(無(wú)放回抽樣)愚铡,得到一個(gè)新的轉(zhuǎn)錄組,作者稱(chēng)為Avg20
胡陪。作者的考慮如下:
SCENIC對(duì)細(xì)胞數(shù)量的擴(kuò)展性不夠好沥寥。(太多細(xì)胞會(huì)降低SCENIC的性能)
測(cè)序深度不夠會(huì)影響SCENIC的結(jié)果。(
Micorwell-seq
的測(cè)序深度相對(duì)于其它技術(shù)較淺)
作者隨后在figure S1
中說(shuō)明了Avg20的對(duì)聚類(lèi)效果的提升以及對(duì)regulon的穩(wěn)定性的影響柠座。
作者主要選擇了三個(gè)指標(biāo)進(jìn)行性能比較:
Silhouette Value(boxplot + t test)
TF-Regulon的一致性(Venn plot + fisher exact test)
不同replicates之間RAS(Regulon Activity Scores)的相關(guān)性
【注1】Silhouette Value:輪廓系數(shù)邑雅。見(jiàn):https://blog.csdn.net/wangxiaopeng0329/article/details/53542606
【注2】Regulon Activity Scores:來(lái)自于SCENIC的結(jié)果。用來(lái)描述一個(gè)TF + Regulon在細(xì)胞中的轉(zhuǎn)錄活性妈经。
計(jì)算cell-type specificity score
在通過(guò)SCENIC分析得到了regulon的結(jié)果后淮野,作者定義了RSS(Regulon Specificity Score)來(lái)尋找細(xì)胞類(lèi)型特異的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。
換個(gè)方法驗(yàn)證
作者對(duì)找到的cell specific regulon利用其它的方法進(jìn)行了驗(yàn)證吹泡。
(1)SEEK analysis骤星,2000+ GEO datasets. 檢驗(yàn)
a)regulon genes是否是共表達(dá)的
b)regulon基因是否和給定細(xì)胞類(lèi)型有相關(guān)性
(2)CoCiter analysis,文獻(xiàn)挖掘爆哑,檢驗(yàn)一組基因是否和某個(gè)term(本文使用的是細(xì)胞類(lèi)型)有相關(guān)性洞难。
分析Regulon module
作者在這里分析了regulon之間的關(guān)系。首先顯而易見(jiàn)的方法是通過(guò)RAS來(lái)計(jì)算不同regulon之間的相關(guān)性系數(shù)(PCC, Pearson Correlation Coefficient)揭朝。
作者基于PCC队贱,計(jì)算了CSI(Connection Specificity Index)來(lái)衡量regulon pairs之間的相關(guān)性。
regulon A和regulon B的CSI定義為所有和A潭袱,B相關(guān)的regulons pairs中柱嫌,PCC小于PCC(A,B)的比例。顯而易見(jiàn)屯换,CSI越大慎式,那么regulon A和regulon B的相關(guān)性越大。
CSI的好處是可以不受到極端值的影響趟径。regulon A和regulon B的CSI的計(jì)算如下
這樣我們就得到了CSI matrix瘪吏。接下來(lái)作者對(duì)CSI matrix進(jìn)行層次聚類(lèi),畫(huà)出Figure 3蜗巧。
CSI > 0.7對(duì)CSI matrix進(jìn)行二值化掌眠,在此基礎(chǔ)上構(gòu)建相關(guān)性網(wǎng)絡(luò),即Figure 4幕屹。