目前單細(xì)胞轉(zhuǎn)錄組領(lǐng)域用的比較多的細(xì)胞聚類方法大多是直接從基因表達(dá)矩陣推斷,但是對于多樣本合并分析凯力,很多情況下會出現(xiàn)難以解決的批次效應(yīng),例如:
- 有些癌癥多樣本的聚類結(jié)果大多每個樣本單獨(dú)分成一群
- 對于發(fā)育樣本,發(fā)育前期和后期細(xì)胞類型可能存在較大差異吭狡,某些樣本特異的細(xì)胞群宅倒,難以判斷是批次效應(yīng)產(chǎn)生的還是真正的生物學(xué)效應(yīng)攘宙。
2017年發(fā)表在Nature Methods雜志上的SCENIC算法,利用單細(xì)胞RNA-seq數(shù)據(jù)拐迁,同時進(jìn)行基因調(diào)控網(wǎng)絡(luò)重建和細(xì)胞狀態(tài)鑒定蹭劈,應(yīng)用于腫瘤和小鼠大腦單細(xì)胞圖譜數(shù)據(jù),提出并證明了順式調(diào)控網(wǎng)絡(luò)分析能夠用于指導(dǎo)轉(zhuǎn)錄因子和細(xì)胞狀態(tài)的鑒定线召。SCENIC通過使用生物學(xué)驅(qū)動的features自動清除腫瘤樣本特異性等批次效應(yīng)铺韧。
基因調(diào)控網(wǎng)絡(luò)
我們要深刻了解SCENIC并應(yīng)用在我們的項目上就要對基因調(diào)控網(wǎng)絡(luò)(GRN, gene regulatory network)
的背景有一些認(rèn)識。細(xì)胞的轉(zhuǎn)錄狀態(tài)來自潛在的基因調(diào)控網(wǎng)絡(luò)缓淹,GRN由數(shù)量有限的轉(zhuǎn)錄因子(TFs)和輔因子相互調(diào)節(jié)及調(diào)節(jié)下游靶基因構(gòu)成哈打。
單細(xì)胞轉(zhuǎn)錄組分析的最新進(jìn)展為高分辨率識別轉(zhuǎn)錄狀態(tài)和狀態(tài)之間的過渡提供了令人興奮的機(jī)會塔逃。例如,在分化過程中針對單細(xì)胞RNA-seq進(jìn)行優(yōu)化的統(tǒng)計和生物信息學(xué)方法帶來了新的生物學(xué)見解前酿。但是患雏,穩(wěn)定細(xì)胞狀態(tài)下的特異性和強(qiáng)健的(robust)GRN是否能夠被確定還尚不清楚
。
鑒于在單細(xì)胞水平來做這件事情罢维,這可能確實具有挑戰(zhàn)性淹仑。由于轉(zhuǎn)錄爆發(fā)和其他來源的基因表達(dá)的隨機(jī)變化,基因表達(dá)可能會與TF輸入的動力學(xué)部分?jǐn)嚅_(不相關(guān))肺孵。目前已經(jīng)有一些從單細(xì)胞RNA-seq數(shù)據(jù)推斷共表達(dá)網(wǎng)絡(luò)的方法發(fā)表匀借,但是,這些方法未使用調(diào)控序列(regulatory sequence)分析來預(yù)測TF與靶基因之間的相互作用平窘。
作者認(rèn)為吓肋,將順式調(diào)控序列與單細(xì)胞基因表達(dá)連接可以克服缺失(基因表達(dá)豐度檢測不到)和技術(shù)多樣性,從而優(yōu)化細(xì)胞狀態(tài)的發(fā)現(xiàn)和表征瑰艘。鑒于此是鬼,作者開發(fā)了單細(xì)胞調(diào)控網(wǎng)絡(luò)推斷和聚類(SCENIC)來繪制GRN,通過評估每個細(xì)胞中GRN的活性紫新,來識別穩(wěn)定的細(xì)胞狀態(tài)均蜜。
SCENIC workflow
SCENIC workflow 包含3個主要步驟:
- 用GENIE3(隨機(jī)森林) 或GRNBoost (Gradient Boosting) 推斷轉(zhuǎn)錄因子與候選靶基因之間的共表達(dá)模塊。每個模塊包含一個轉(zhuǎn)錄因子及其靶基因芒率,純粹基于共表達(dá)囤耳。
- 使用RcisTarget分析每個共表達(dá)模塊中的基因,以鑒定enriched motifs偶芍;僅保留TF motif富集的模塊和targets充择,每個TF及其潛在的直接targets gene被稱作一個
調(diào)節(jié)子(regulon)
- 使用AUCell評估每個細(xì)胞中每個regulon的活性,AUCell分?jǐn)?shù)用于生成Regulon活性矩陣匪蟀,通過為每個regulon設(shè)置AUC閾值椎麦,可以將該矩陣進(jìn)行二值化(0|1,on|off)萄窜,這將確定Regulon在哪些細(xì)胞中處于“打開”狀態(tài)铃剔。
使用RcisTarget是SCENIC不同于大多共表達(dá)算法的重要區(qū)別。由于GENIE3模塊僅基于共表達(dá)查刻,因此結(jié)果可能包含許多誤報和間接target,為了鑒定推斷的直接結(jié)合的靶標(biāo)基因凤类,使用RcisTarget對每個共表達(dá)模塊進(jìn)行順式調(diào)控基序(motif)分析穗泵。 僅保留具有正確基因上游調(diào)節(jié)子且顯著富集TF motif的模塊,并對它們進(jìn)行修剪以除去缺乏基序支持的間接靶標(biāo)谜疤,這些處理后的模塊才稱為regulon佃延。
AUCell對regulon活性打分
作為SCENIC的一部分现诀,作者開發(fā)了AUCell算法來對每個細(xì)胞中的每個regulon的活性進(jìn)行評分。
對于一個給定的regulon履肃,通過比較所有細(xì)胞間的AUCell打分值仔沿,我們可以識別哪些細(xì)胞具有更顯著高的regulon活性。通過卡閾值得到的二元活性矩陣使矩陣維數(shù)減少(可理解為只有 0|1尺棋,on|off)封锉,對于下游分析很有用。 例如膘螟,基于regulon二元活性矩陣的聚類成福,可以根據(jù)某個調(diào)控子網(wǎng)絡(luò)(regulon)的活性來識別細(xì)胞群類型和細(xì)胞狀態(tài)。由于regulon是整體評分的荆残,而不是使用單個基因的表達(dá)奴艾,因此這種方法對于個別基因的dropouts很有效。
SCENIC性能評估
作者對SCENIC進(jìn)行了準(zhǔn)確性
和魯棒性
評估内斯。
SCENIC準(zhǔn)確性評估
作者拿成年小鼠大腦的已知細(xì)胞類型的scRNA-seq數(shù)據(jù)集來測試SCENIC蕴潦,來評估其準(zhǔn)確性。
分析了1,046個初始共表達(dá)模塊中的151個Regulons俘闯,這些Regulons包含對應(yīng)TF的顯著富集的motif(占初始TFs的7%)潭苞。每個細(xì)胞的Regulon活性評分確定了預(yù)期的細(xì)胞類型(上圖d,e
)以及每種細(xì)胞類型的潛在主調(diào)控因子的列表(例如下圖中的小膠質(zhì)細(xì)胞網(wǎng)絡(luò))备徐,細(xì)胞聚類的結(jié)果比一些專用的單細(xì)胞聚類方法(SC3)要準(zhǔn)確萄传。
SCENIC魯棒性評估
作者用以下方式分析了小鼠大腦單細(xì)胞RNA-seq圖譜數(shù)據(jù):
- 全部的細(xì)胞
- 隨機(jī)選取其中100個細(xì)胞
- 三分之一的測序reads來模擬低深度的數(shù)據(jù)
SCENIC鑒定出了僅由少量細(xì)胞代表的細(xì)胞類型(例如,來自小膠質(zhì)細(xì)胞蜜猾,星形膠質(zhì)細(xì)胞或中間神經(jīng)元的2至6個細(xì)胞秀菱;下圖)。此外蹭睡,預(yù)測的TFs與細(xì)胞類型的關(guān)聯(lián)也與先前已知的一致衍菱,并且此準(zhǔn)確性優(yōu)于標(biāo)準(zhǔn)分析流程。
為了驗證鑒定小鼠interneurons的Dlx1/2調(diào)控網(wǎng)絡(luò)肩豁,作者分析了人腦的sNuc-Seq(Single nuclei RNA-Seq)數(shù)據(jù)集脊串。
在人類腦sNuc-Seq數(shù)據(jù)集上,SCENIC也鑒定出由DLX1/2強(qiáng)烈驅(qū)動的interneurons細(xì)胞群清钥,該群具有與小鼠相同的motif琼锋,并且識別出一組保守的靶標(biāo),包括DLX1本身祟昭。
接下來缕坎,作者將這種跨物種分析擴(kuò)展到其他細(xì)胞類型。 與基于歸一化表達(dá)的標(biāo)準(zhǔn)聚類(產(chǎn)生強(qiáng)大的物種驅(qū)動聚類)不同篡悟,SCENIC分析有效地按細(xì)胞類型對細(xì)胞進(jìn)行了分組(下圖)谜叹。 這表明網(wǎng)絡(luò)活性的評分是可靠的(robust)匾寝,可以用來克服批處理或測序方法等技術(shù)影響。
上圖為:人和小鼠大腦scRNA-seq數(shù)據(jù)基于GRN活性的聯(lián)合聚類荷腊,彩色標(biāo)注的TF為人和小鼠中共同鑒定到的regulons
鑒定腫瘤scRNA-seq數(shù)據(jù)集中的復(fù)雜細(xì)胞狀態(tài)
由于腫瘤特異性突變和復(fù)雜的基因組畸變艳悔,癌細(xì)胞狀態(tài)的鑒定比正常細(xì)胞狀態(tài)更具挑戰(zhàn)性。一般的標(biāo)準(zhǔn)聚類會通過表達(dá)矩陣將細(xì)胞按其腫瘤起源分組(各個樣品聚成一類)女仰,但SCENIC的結(jié)果揭示了不同的圖景猜年。
以下是作者將SCENIC用在少突膠質(zhì)細(xì)胞瘤
(來自6個腫瘤的4,043個細(xì)胞)和黑素瘤
(來自14個樣本的1,252個細(xì)胞)的scRNA-seq數(shù)據(jù)集上的結(jié)果。
少突膠質(zhì)細(xì)胞瘤
對于少突膠質(zhì)細(xì)胞瘤(oligodendroglioma)董栽,在所以腫瘤細(xì)胞中鑒定出三種癌細(xì)胞狀態(tài)(上圖c-e)码倦,每種狀態(tài)均由預(yù)期的TF驅(qū)動,包括:
- oligodendrocyte-like stat:SOX10/4/8, OLIG1/2, 和 ASCL1
- astrocyte-like state:ASCL1锭碳, SOX9袁稽,NFIB
- cycling cells:E2F和FOXM1
此外,作者將擴(kuò)散映射(Diffusion Maps)應(yīng)用于二元SCENIC矩陣(上上圖)重建了從stem-like到oligodendrocyte-like 和 astrocyte-like分支的分化軌跡擒抛。值得注意的是推汽,與正常oligodendrocyte分化相比,此路徑代表不同的“軌跡”歧沪。
黑素瘤
在黑素瘤(melanoma)數(shù)據(jù)上觀察到了類似的腫瘤效應(yīng)校正歹撒,其中SCENIC識別了跨腫瘤的細(xì)胞群。包括一群與少突膠質(zhì)細(xì)胞瘤中類似的TF驅(qū)動的周期細(xì)胞(例如诊胞,E2F1/2/8 和 MYBL2)
Combat和Limma之類的專用批處理效應(yīng)去除方法暖夭,需要預(yù)先指定批處理效應(yīng)的來源;與這些方法相反撵孤,SCENIC通過使用生物學(xué)驅(qū)動的features自動清除腫瘤的效應(yīng)迈着。
黑色素瘤細(xì)胞大致分為兩組:
- MITFhigh state:典型的擴(kuò)散狀態(tài),以MITF和STAT / IRF為主要regulators邪码;
- MITFlow state:WNT5A, LOXL2 和 ZEB1等已知的侵襲狀態(tài)的markers表達(dá)上調(diào)
SCENIC在MITFlow state的細(xì)胞群下鑒定到了兩個新的TFs:
- NFATC2 (114 predicted target genes)
- NFIB (15 predicted target genes)
NFATC2是JNK/MAPK途徑中的轉(zhuǎn)錄阻遏物裕菠,參與黑色素瘤去分化和免疫逃逸;
NFIB與毛囊和黑素細(xì)胞干細(xì)胞的干細(xì)胞行為有關(guān)闭专,它在小細(xì)胞肺癌轉(zhuǎn)移過程中起著重要作用奴潘。
為了進(jìn)一步探索NFATC2和NFIB在MITFlow狀態(tài)下的潛在作用,作者對25個具有不同腫瘤進(jìn)展的黑色素瘤標(biāo)本進(jìn)行了免疫組織化學(xué)分析影钉。
作者發(fā)現(xiàn)NFIB和NFATC2在前哨淋巴結(jié)(sentinel lymph nodes)中表達(dá)最高画髓,這與ZEB1表達(dá)共定位,這與ZEB1表達(dá)共定位平委,這表明這些markers的表達(dá)與最早的轉(zhuǎn)移事件之間存在關(guān)系雀扶。
在A375黑色素瘤細(xì)胞系,NFATC2和NFIB的表達(dá)很高肆汹,當(dāng)使用siRNA敲除NFATC2時愚墓,作者發(fā)現(xiàn)NFATC2調(diào)節(jié)子中的基因被顯著上調(diào)。這與先前證實的NFATC2作為阻遏物是一致的昂勉。此外參與細(xì)胞粘附浪册、細(xì)胞外基質(zhì)和幾個先前發(fā)表的代表黑色素瘤浸潤狀態(tài)調(diào)控的基因也被上調(diào)。這表明NFATC2確實可能在疾病進(jìn)展中起重要作用岗照。作為黑色素瘤regulons的第二次驗證村象,作者使用ChIP-seq數(shù)據(jù)確定了MITF和STAT的預(yù)測靶標(biāo)。
SCENIC使用建議
隨著單細(xì)胞數(shù)據(jù)集大小的增加攒至,作者建議兩種補(bǔ)充方法來擴(kuò)展網(wǎng)絡(luò)推斷:
- 取采樣數(shù)據(jù)集的子集來推斷出GRN厚者,并在AUCell評分步驟中包括所有細(xì)胞
- 使用更高效的機(jī)器學(xué)習(xí)和大數(shù)據(jù)處理解決方案,作者應(yīng)用GRNBoost 梯度增強(qiáng)來代替random-forest regression迫吐,這種實現(xiàn)方式大大減少了推斷GRN所需的時間库菲,并將為在非常大的數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)推斷鋪平道路。
SCENIC是一種普遍適用的分析scRNA-seq數(shù)據(jù)的方法志膀,利用TF和順式調(diào)控序列來指導(dǎo)細(xì)胞狀態(tài)的發(fā)現(xiàn)熙宇。文章的結(jié)果表明,GRNs是確定細(xì)胞狀態(tài)的可靠方法溉浙,并且scRNA-seq數(shù)據(jù)非常適合跟蹤基因調(diào)控過程烫止,在基因調(diào)控過程中特定組合的TFs驅(qū)動細(xì)胞特異性的轉(zhuǎn)錄組。