SCENIC: 單細胞RNA-seq數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡和細胞功能聚類

作者:ahworld
鏈接:SCENIC | 以single-cell RNA-seq數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡和細胞功能聚類
)
來源:微信公眾號
著作權歸作者所有哀托,任何形式的轉載都請聯(lián)系作者。

目前單細胞轉錄組領域用的比較多的細胞聚類方法大多是直接從基因表達矩陣推斷劳秋,但是對于多樣本合并分析仓手,很多情況下會出現(xiàn)難以解決的批次效應胖齐,例如:

  • 有些癌癥多樣本的聚類結果大多每個樣本單獨分成一群
  • 對于發(fā)育樣本,發(fā)育前期和后期細胞類型可能存在較大差異俗或,某些樣本特異的細胞群市怎,難以判斷是批次效應產(chǎn)生的還是真正的生物學效應。

2017年發(fā)表在Nature Methods雜志上的SCENIC算法辛慰,利用單細胞RNA-seq數(shù)據(jù)区匠,同時進行基因調(diào)控網(wǎng)絡重建和細胞狀態(tài)鑒定,應用于腫瘤和小鼠大腦單細胞圖譜數(shù)據(jù)帅腌,提出并證明了順式調(diào)控網(wǎng)絡分析能夠用于指導轉錄因子和細胞狀態(tài)的鑒定驰弄。SCENIC通過使用生物學驅(qū)動的features自動清除腫瘤樣本特異性等批次效應。

基因調(diào)控網(wǎng)絡

我們要深刻了解SCENIC并應用在我們的項目上就要對基因調(diào)控網(wǎng)絡(GRN, gene regulatory network)的背景有一些認識速客。細胞的轉錄狀態(tài)來自潛在的基因調(diào)控網(wǎng)絡戚篙,GRN由數(shù)量有限的轉錄因子(TFs)和輔因子相互調(diào)節(jié)及調(diào)節(jié)下游靶基因構成。

單細胞轉錄組分析的最新進展為高分辨率識別轉錄狀態(tài)和狀態(tài)之間的過渡提供了令人興奮的機會溺职。例如岔擂,在分化過程中針對單細胞RNA-seq進行優(yōu)化的統(tǒng)計和生物信息學方法帶來了新的生物學見解。但是浪耘,穩(wěn)定細胞狀態(tài)下的特異性和強健的(robust)GRN是否能夠被確定還尚不清楚乱灵。

鑒于在單細胞水平來做這件事情,這可能確實具有挑戰(zhàn)性七冲。由于轉錄爆發(fā)和其他來源的基因表達的隨機變化痛倚,基因表達可能會與TF輸入的動力學部分斷開(不相關)。目前已經(jīng)有一些從單細胞RNA-seq數(shù)據(jù)推斷共表達網(wǎng)絡的方法發(fā)表澜躺,但是蝉稳,這些方法未使用調(diào)控序列(regulatory sequence)分析來預測TF與靶基因之間的相互作用。

作者認為掘鄙,將順式調(diào)控序列與單細胞基因表達連接可以克服缺失(基因表達豐度檢測不到)和技術多樣性耘戚,從而優(yōu)化細胞狀態(tài)的發(fā)現(xiàn)和表征。鑒于此操漠,作者開發(fā)了單細胞調(diào)控網(wǎng)絡推斷和聚類(SCENIC)來繪制GRN毕莱,通過評估每個細胞中GRN的活性,來識別穩(wěn)定的細胞狀態(tài)颅夺。

SCENIC workflow

scenic_1.png

SCENIC workflow 包含3個主要步驟:

  1. 用GENIE3(隨機森林) 或GRNBoost (Gradient Boosting) 推斷轉錄因子與候選靶基因之間的共表達模塊朋截。每個模塊包含一個轉錄因子及其靶基因,純粹基于共表達吧黄。
  2. 使用RcisTarget分析每個共表達模塊中的基因部服,以鑒定enriched motifs;僅保留TF motif富集的模塊和targets拗慨,每個TF及其潛在的直接targets gene被稱作一個調(diào)節(jié)子(regulon)
  3. 使用AUCell評估每個細胞中每個regulon的活性廓八,AUCell分數(shù)用于生成Regulon活性矩陣奉芦,通過為每個regulon設置AUC閾值,可以將該矩陣進行二值化(0|1剧蹂,on|off)声功,這將確定Regulon在哪些細胞中處于“打開”狀態(tài)。

使用RcisTarget是SCENIC不同于大多共表達算法的重要區(qū)別宠叼。由于GENIE3模塊僅基于共表達先巴,因此結果可能包含許多誤報和間接target,為了鑒定推斷的直接結合的靶標基因冒冬,使用RcisTarget對每個共表達模塊進行順式調(diào)控基序(motif)分析伸蚯。 僅保留具有正確基因上游調(diào)節(jié)子且顯著富集TF motif的模塊,并對它們進行修剪以除去缺乏基序支持的間接靶標简烤,這些處理后的模塊才稱為regulon剂邮。

AUCell對regulon活性打分

scenic_2.png

作為SCENIC的一部分,作者開發(fā)了AUCell算法來對每個細胞中的每個regulon的活性進行評分横侦。

對于一個給定的regulon挥萌,通過比較所有細胞間的AUCell打分值,我們可以識別哪些細胞具有更顯著高的regulon活性枉侧。通過卡閾值得到的二元活性矩陣使矩陣維數(shù)減少(可理解為只有 0|1引瀑,on|off),對于下游分析很有用棵逊。 例如,基于regulon二元活性矩陣的聚類银酗,可以根據(jù)某個調(diào)控子網(wǎng)絡(regulon)的活性來識別細胞群類型和細胞狀態(tài)辆影。由于regulon是整體評分的,而不是使用單個基因的表達黍特,因此這種方法對于個別基因的dropouts很有效蛙讥。

scenic_3.png

SCENIC性能評估

作者對SCENIC進行了準確性魯棒性評估。

scenic_4.png

SCENIC準確性評估

作者拿成年小鼠大腦的已知細胞類型的scRNA-seq數(shù)據(jù)集來測試SCENIC灭衷,來評估其準確性次慢。

分析了1,046個初始共表達模塊中的151個Regulons,這些Regulons包含對應TF的顯著富集的motif(占初始TFs的7%)翔曲。每個細胞的Regulon活性評分確定了預期的細胞類型(上圖d迫像,e)以及每種細胞類型的潛在主調(diào)控因子的列表(例如下圖中的小膠質(zhì)細胞網(wǎng)絡),細胞聚類的結果比一些專用的單細胞聚類方法(SC3)要準確瞳遍。

scenic_5.png

SCENIC魯棒性評估

作者用以下方式分析了小鼠大腦單細胞RNA-seq圖譜數(shù)據(jù):

  1. 全部的細胞
  2. 隨機選取其中100個細胞
  3. 三分之一的測序reads來模擬低深度的數(shù)據(jù)

SCENIC鑒定出了僅由少量細胞代表的細胞類型(例如闻妓,來自小膠質(zhì)細胞,星形膠質(zhì)細胞或中間神經(jīng)元的2至6個細胞掠械;下圖)由缆。此外注祖,預測的TFs與細胞類型的關聯(lián)也與先前已知的一致,并且此準確性優(yōu)于標準分析流程均唉。


scenic_6.png

為了驗證鑒定小鼠interneurons的Dlx1/2調(diào)控網(wǎng)絡是晨,作者分析了人腦的sNuc-Seq(Single nuclei RNA-Seq)數(shù)據(jù)集。


scenic_7.png

在人類腦sNuc-Seq數(shù)據(jù)集上舔箭,SCENIC也鑒定出由DLX1/2強烈驅(qū)動的interneurons細胞群罩缴,該群具有與小鼠相同的motif,并且識別出一組保守的靶標限嫌,包括DLX1本身靴庆。


scenic_8.png

scenic_9.png

接下來,作者將這種跨物種分析擴展到其他細胞類型怒医。 與基于歸一化表達的標準聚類(產(chǎn)生強大的物種驅(qū)動聚類)不同炉抒,SCENIC分析有效地按細胞類型對細胞進行了分組(下圖)。 這表明網(wǎng)絡活性的評分是可靠的(robust)稚叹,可以用來克服批處理或測序方法等技術影響焰薄。

scenic_10.png

上圖為:人和小鼠大腦scRNA-seq數(shù)據(jù)基于GRN活性的聯(lián)合聚類,彩色標注的TF為人和小鼠中共同鑒定到的regulons

鑒定腫瘤scRNA-seq數(shù)據(jù)集中的復雜細胞狀態(tài)

由于腫瘤特異性突變和復雜的基因組畸變扒袖,癌細胞狀態(tài)的鑒定比正常細胞狀態(tài)更具挑戰(zhàn)性塞茅。一般的標準聚類會通過表達矩陣將細胞按其腫瘤起源分組(各個樣品聚成一類),但SCENIC的結果揭示了不同的圖景季率。

scenic_11.png

以下是作者將SCENIC用在少突膠質(zhì)細胞瘤(來自6個腫瘤的4,043個細胞)和黑素瘤(來自14個樣本的1,252個細胞)的scRNA-seq數(shù)據(jù)集上的結果野瘦。

scenic_12.png

少突膠質(zhì)細胞瘤

對于少突膠質(zhì)細胞瘤(oligodendroglioma),在所以腫瘤細胞中鑒定出三種癌細胞狀態(tài)(上圖c-e)飒泻,每種狀態(tài)均由預期的TF驅(qū)動鞭光,包括:

  1. oligodendrocyte-like stat:SOX10/4/8, OLIG1/2, 和 ASCL1
  2. astrocyte-like state:ASCL1, SOX9泞遗,NFIB
  3. cycling cells:E2F和FOXM1

此外惰许,作者將擴散映射(Diffusion Maps)應用于二元SCENIC矩陣(上上圖)重建了從stem-like到oligodendrocyte-like 和 astrocyte-like分支的分化軌跡。值得注意的是史辙,與正常oligodendrocyte分化相比汹买,此路徑代表不同的“軌跡”。

黑素瘤

在黑素瘤(melanoma)數(shù)據(jù)上觀察到了類似的腫瘤效應校正聊倔,其中SCENIC識別了跨腫瘤的細胞群晦毙。包括一群與少突膠質(zhì)細胞瘤中類似的TF驅(qū)動的周期細胞(例如,E2F1/2/8 和 MYBL2)

Combat和Limma之類的專用批處理效應去除方法耙蔑,需要預先指定批處理效應的來源结序;與這些方法相反,SCENIC通過使用生物學驅(qū)動的features自動清除腫瘤的效應纵潦。

黑色素瘤細胞大致分為兩組:

  1. MITFhigh state:典型的擴散狀態(tài)徐鹤,以MITF和STAT / IRF為主要regulators垃环;
  2. MITFlow state:WNT5A, LOXL2 和 ZEB1等已知的侵襲狀態(tài)的markers表達上調(diào)

SCENIC在MITFlow state的細胞群下鑒定到了兩個新的TFs:

  1. NFATC2 (114 predicted target genes)
  2. NFIB (15 predicted target genes)

NFATC2是JNK/MAPK途徑中的轉錄阻遏物,參與黑色素瘤去分化和免疫逃逸返敬;

NFIB與毛囊和黑素細胞干細胞的干細胞行為有關遂庄,它在小細胞肺癌轉移過程中起著重要作用。

為了進一步探索NFATC2和NFIB在MITFlow狀態(tài)下的潛在作用劲赠,作者對25個具有不同腫瘤進展的黑色素瘤標本進行了免疫組織化學分析涛目。

作者發(fā)現(xiàn)NFIB和NFATC2在前哨淋巴結(sentinel lymph nodes)中表達最高,這與ZEB1表達共定位凛澎,這與ZEB1表達共定位霹肝,這表明這些markers的表達與最早的轉移事件之間存在關系。

scenic_13.png

在A375黑色素瘤細胞系塑煎,NFATC2和NFIB的表達很高沫换,當使用siRNA敲除NFATC2時,作者發(fā)現(xiàn)NFATC2調(diào)節(jié)子中的基因被顯著上調(diào)最铁。這與先前證實的NFATC2作為阻遏物是一致的讯赏。此外參與細胞粘附、細胞外基質(zhì)和幾個先前發(fā)表的代表黑色素瘤浸潤狀態(tài)調(diào)控的基因也被上調(diào)冷尉。這表明NFATC2確實可能在疾病進展中起重要作用漱挎。作為黑色素瘤regulons的第二次驗證,作者使用ChIP-seq數(shù)據(jù)確定了MITF和STAT的預測靶標雀哨。

scenic_14.png

SCENIC使用建議

隨著單細胞數(shù)據(jù)集大小的增加磕谅,作者建議兩種補充方法來擴展網(wǎng)絡推斷:

  1. 取采樣數(shù)據(jù)集的子集來推斷出GRN,并在AUCell評分步驟中包括所有細胞
  2. 使用更高效的機器學習和大數(shù)據(jù)處理解決方案雾棺,作者應用GRNBoost 梯度增強來代替random-forest regression膊夹,這種實現(xiàn)方式大大減少了推斷GRN所需的時間,并將為在非常大的數(shù)據(jù)集上進行網(wǎng)絡推斷鋪平道路垢村。

SCENIC是一種普遍適用的分析scRNA-seq數(shù)據(jù)的方法割疾,利用TF和順式調(diào)控序列來指導細胞狀態(tài)的發(fā)現(xiàn)嚎卫。文章的結果表明嘉栓,GRNs是確定細胞狀態(tài)的可靠方法,并且scRNA-seq數(shù)據(jù)非常適合跟蹤基因調(diào)控過程拓诸,在基因調(diào)控過程中特定組合的TFs驅(qū)動細胞特異性的轉錄組侵佃。

作者開發(fā)的pyscenic使用教程請參考:https://pyscenic.readthedocs.io/en/latest/或者查看 pyscenic github

最新SCENIC文章應用

最近發(fā)表的單細胞轉錄組測序繪制小鼠內(nèi)皮細胞精細圖譜分析研究轉錄因子在不同ECs中的調(diào)控作用,發(fā)現(xiàn)了轉錄因子調(diào)控網(wǎng)絡呈現(xiàn)了組織特異性奠支。

參考

  • http://scenic.aertslab.org
  • Aibar S, González-Blas C B, Moerman T, et al. SCENIC: single-cell regulatory network inference and clustering[J]. Nature methods, 2017, 14(11): 1083-1086.
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末馋辈,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子倍谜,更是在濱河造成了極大的恐慌迈螟,老刑警劉巖叉抡,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異答毫,居然都是意外死亡褥民,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門洗搂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來消返,“玉大人,你說我怎么就攤上這事耘拇∧旒眨” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵惫叛,是天一觀的道長倡勇。 經(jīng)常有香客問我,道長挣棕,這世上最難降的妖魔是什么译隘? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮洛心,結果婚禮上固耘,老公的妹妹穿的比我還像新娘。我一直安慰自己词身,他們只是感情好厅目,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著法严,像睡著了一般损敷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上深啤,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天拗馒,我揣著相機與錄音,去河邊找鬼溯街。 笑死诱桂,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的呈昔。 我是一名探鬼主播挥等,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼堤尾!你這毒婦竟也來了肝劲?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎辞槐,沒想到半個月后掷漱,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡榄檬,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年切威,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丙号。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡先朦,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出犬缨,到底是詐尸還是另有隱情喳魏,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布怀薛,位于F島的核電站刺彩,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏枝恋。R本人自食惡果不足惜创倔,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望焚碌。 院中可真熱鬧畦攘,春花似錦、人聲如沸十电。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鹃骂。三九已至台盯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間畏线,已是汗流浹背静盅。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留寝殴,地道東北人蒿叠。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像杯矩,于是被迫代替她去往敵國和親栈虚。 傳聞我的和親對象是個殘疾皇子袖外,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容