作者尿招,追風(fēng)少年i
最近呢加叁,收到了很多粉絲的提問,其實關(guān)于多樣本通訊分析比較的內(nèi)容我已經(jīng)在單細(xì)胞個性化分析之多樣本細(xì)胞通訊比較篇一文中詳細(xì)說明,還有一個提問較多的問題就是關(guān)于SCENIC的分析內(nèi)容解讀跟磨,聽了很多客戶的意見杆怕,我發(fā)現(xiàn)很多人都無法掌握SCENIC該如何運(yùn)用族购,分析完的結(jié)果也不知道有哪些用處,該如何解讀陵珍,其實關(guān)于SCENIC寝杖,我已經(jīng)寫了一下代碼文,這一篇帶大家來進(jìn)行如何解讀和文章中的運(yùn)用互纯。
首先思考一個問題瑟幕,直接拿注釋好的單細(xì)胞樣本分析SCENIC有意義嗎?留潦?只盹?免疫細(xì)胞和組織細(xì)胞比較分析的調(diào)節(jié)子能說明什么?兔院?殖卑?
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)之基因網(wǎng)絡(luò)推斷方法之間的優(yōu)劣勢
10X單細(xì)胞數(shù)據(jù)分析轉(zhuǎn)錄因子的前世今生---scenic
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)轉(zhuǎn)錄因子活性分析之DoRothEA
9月初人生迎來轉(zhuǎn)折秆乳,面臨重要選擇,當(dāng)斷不斷屹堰,必受其亂
首先我們先來看看TF調(diào)節(jié)靶基因的原理
原則上轉(zhuǎn)錄因子跟基因的開放情況相關(guān),但一般我們只有單細(xì)胞轉(zhuǎn)錄組的數(shù)據(jù)扯键。
我們解讀一下原理
If only scRNA-seq data is available, then it is natural to identify such TFs by searching for TFs whose expression correlation with the differential TG is significantly different in the two linked subpopulations
first construct a numerical index to represent the regulatory potential of a TF on a TG. This index, which we call transcription factor regulatory potential (TFRP), is a cell-specific index defined as the product of the (cell-specific) expression of the TF and its regulatory potential on the TG, where the regulatory potential is calculated by integrating accessibility information from multiple REs that may mediate the activity of the TF to regulate the TG
TF對TG的差異調(diào)節(jié)可能是由于以下一種或兩種機(jī)制。
TFRP(調(diào)控潛能) 的變化:TF 在兩種條件下都調(diào)節(jié) TG荣刑,但兩種條件下的 TFRP 差異很大伦乔。這兩種情況是
1> TF 表達(dá)量或 RE 可及性的變化會導(dǎo)致差異的 TFRP。
-
2> 調(diào)控網(wǎng)絡(luò)結(jié)構(gòu)的變化:兩種條件下的TFRP相似董习, 但TF在一種條件下對TG進(jìn)行調(diào)控烈和,而在另一種條件下不存在調(diào)控 .
這表明我們可以通過測試這種條件分布的變化來檢測差異規(guī)則皿淋。
在這個基礎(chǔ)上,我們就來分析一下SCENIC這個軟件窝趣,這個軟件很多人都寫了文章,無論是原理還是代碼妇拯,但是很多生信人員還是不太會使用
SCENIC是2017年11月發(fā)表在Nature Methods 期刊的一種單細(xì)胞轉(zhuǎn)錄因子分析方法洗鸵,也是目前進(jìn)行單細(xì)胞轉(zhuǎn)錄因子分析的主流軟件越锈,該軟件在進(jìn)行數(shù)據(jù)分析的同時也能得到可視化結(jié)果圖预麸。另外,SCENIC是一款開源軟件对蒲,可以免費(fèi)下載使用贡翘,目前軟件有R和python兩個版本,每個版本都配備了詳細(xì)的使用說明(軟件官網(wǎng)https://scenic.aertslab.org/)鸣驱。但有一點(diǎn)需要特別注意,該軟件是有物種限制的北滥,目前只能分析人闸翅、小鼠和果蠅的數(shù)據(jù),具體限制原因济赎,在后面的分析原理中揭曉~
SCENIC分析原理
在輸入單細(xì)胞基因表達(dá)量矩陣后,SCENIC經(jīng)過以下三個步驟完成轉(zhuǎn)錄因子分析:第一步是構(gòu)建共表達(dá)網(wǎng)絡(luò)、第二步是構(gòu)建TF-targets網(wǎng)絡(luò)司训、第三步是計算Regulons活性,每一個步驟都由一個專門的軟件包完成壳猜。我們來看一下各步驟詳解。
GENIE3——共表達(dá)網(wǎng)絡(luò)構(gòu)建
第一步由GENIE3或GRNBoost軟件完成捂蕴,這里以GENIE3為例介紹闪幽。GENIE3 (GEne NetworkInference with Ensemble of trees) 涡匀,基于樹的基因網(wǎng)絡(luò)推理,是一種從基因表達(dá)數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡(luò)的方法腕够。軟件以單細(xì)胞基因表達(dá)量矩陣為輸入文件舌劳,以每個目標(biāo)基因 (gene) 為輸出,以轉(zhuǎn)錄因子 (TF) 為輸入大诸,構(gòu)建P個隨機(jī)森林樹(P=矩陣中基因數(shù)量)贯卦,并計算每個TF與gene之間的重要性評分 (IM) ,最終可以獲得TF-genes共表達(dá)模塊撵割。最后刪除IM低于閾值的基因關(guān)系啡彬,過濾基因數(shù)低于50的模塊。如果覺得不太好理解庶灿,下圖也為大家做了簡化~
RcisTarget——motif富集及靶基因預(yù)測
從第一步獲得了TF-genes共表達(dá)網(wǎng)絡(luò)跳仿,但這個網(wǎng)絡(luò)只是基于TF和gene表達(dá)量相關(guān)性推測的,TF和gene之間是否現(xiàn)實存在調(diào)控關(guān)系還需要進(jìn)一步確證。確證的方法主要從TF功能結(jié)構(gòu)入手惑灵,從下圖可以看出眼耀,TF是通過直接與DNA結(jié)合而發(fā)揮作用的,因此我們可以通過反向查看gene上是否存在TF結(jié)合的motif序列來驗證TF與gene的靶向關(guān)系干花。
這一步可以借助RcisTarget軟件完成楞黄,該軟件運(yùn)行必備兩個數(shù)據(jù)庫:1)gene-motif排名數(shù)據(jù)庫:為每個motif提供所有g(shù)ene的排名(~分?jǐn)?shù));2)motif-TF注釋數(shù)據(jù)庫:對每一個motif注釋其所對應(yīng)的TF肿仑。由于不同物種基因組不一樣碎税,導(dǎo)致每個motif對應(yīng)靶基因不同,因此針對不同物種需要構(gòu)建不同的數(shù)據(jù)庫伟端,軟件目前配置了人匪煌、小鼠、果蠅數(shù)據(jù)庫虐杯,其他物種需要自己構(gòu)建數(shù)據(jù)庫噢~這也是在開頭提醒大家注意物種限制的原因。
那么具體驗證過程支子,首先基于gene-motif數(shù)據(jù)庫达舒,每個motif對模塊中所有基因進(jìn)行累積,模塊中的基因排名越靠前昨登,累積曲線越高贯底,曲線下面積 (AUC) 越大,表明motif在該模塊中的富集程度越高,然后對每個模塊選取顯著富集的motif飘哨,并預(yù)測其靶基因琐凭,最終綜合TF-genes模塊和靶基因預(yù)測結(jié)果,構(gòu)成一個包含了TF和靶基因的基因調(diào)控網(wǎng)絡(luò)模塊 (regulons)胚吁。下圖也為大家做了簡要概括愁憔。
AUCell——Regulons活性定量
第三步就是Regulons活性定量。這一步由AUCell軟件完成蕉毯,AUCell是一種新的方法思犁,允許在scRNA-seq數(shù)據(jù)中識別具有活性基因調(diào)控網(wǎng)絡(luò)的細(xì)胞进肯。
實際分析過程中,輸入到AUCell的是一個基因集学辱,輸出的是每個細(xì)胞中的基因集“活性” (AUC, Area Under Curve)环形。在SCENIC中,這些基因集即Regulons中所有基因萨咕,針對每個細(xì)胞火本,將細(xì)胞中所有基因按照表達(dá)量從高到低進(jìn)行排序,根據(jù)Regulons中的基因在序列中的位置钙畔,計算累計曲線面積 (AUC) ,即為Regulons在細(xì)胞中的活性簿盅。
但由于不同regulons包含的基因不同,它們之間的AUC值不具有可比較性见秽,因此基于AUC值在所有細(xì)胞中的雙峰分布特征讨盒,增加了Regulons“on/off”的概念,認(rèn)為雙峰之間的低谷為判斷Regulons活性開放的閾值返顺,如果AUC值小于閾值,則判定為該Regulons在該細(xì)胞中未開放振乏,即未發(fā)揮調(diào)控作用秉扑。最終獲得每個Regulons在每個細(xì)胞中的開放性熱圖。
結(jié)果解讀(簡單版)
結(jié)果可視化也是SCENIC軟件功能之一,默認(rèn)輸出的結(jié)果圖主要是以下兩種秦躯,一個是基于AUC值繪制的Regulons活性熱圖,圖中每一行表示一個Regulons倡缠,每一列為一個細(xì)胞茎活,顏色表示AUC值大小,這類熱圖主要用于比較同一Regulons在不同細(xì)胞中的活性盾饮,尋找Regulons特異性活化的細(xì)胞亞群身辨;另一種是基于AUC二值矩陣?yán)L制的Regulons開放性熱圖,這類熱圖可用于尋找細(xì)胞中開放的Regulons煌珊,有利于細(xì)胞亞群功能判斷。