SCENIC單細(xì)胞轉(zhuǎn)錄因子分析原理

1. 簡介

SCENIC (single-cell regulatory network inference and clustering)是一個基于共表達(dá)和motif分析,計算單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)基因調(diào)控網(wǎng)絡(luò)重建以及細(xì)胞狀態(tài)鑒定的方法腰吟。

2017年發(fā)表在Nature Methods雜志上的SCENIC算法唆阿,利用單細(xì)胞RNA-seq數(shù)據(jù)广辰,同時進(jìn)行基因調(diào)控網(wǎng)絡(luò)重建和細(xì)胞狀態(tài)鑒定,應(yīng)用于腫瘤和小鼠大腦單細(xì)胞圖譜數(shù)據(jù),提出并證明了順式調(diào)控網(wǎng)絡(luò)分析能夠用于指導(dǎo)轉(zhuǎn)錄因子和細(xì)胞狀態(tài)的鑒定桩了。

SCENIC通過使用生物學(xué)驅(qū)動的features自動清除腫瘤樣本特異性等批次效應(yīng)蔓挖。

有一些文章寫的挺好的夕土,在這里匯總一下:

https://www.cnblogs.com/raisok/p/12425225.html

http://www.reibang.com/p/cd967c449177

https://cloud.tencent.com/developer/article/1692240

2. 原理

GRN(gene regulatory network)基因調(diào)控網(wǎng)絡(luò)包括TF(transcription factor轉(zhuǎn)錄因子)、cofactor(共調(diào)因子)與其調(diào)節(jié)的target gene 組成瘟判,決定了某個狀態(tài)下的細(xì)胞的轉(zhuǎn)錄狀態(tài)怨绣。SCENIC流程包括三步驟:

(1)使用GENIE3或GRNBoost (Gradient Boosting) 基于共表達(dá)推斷轉(zhuǎn)錄因子與候選靶基因之間的共表達(dá)模塊。

(2)由于GENIE3模型只是基于共表達(dá)拷获,會存在很多假陽性和間接靶標(biāo)梨熙,為了識別直接結(jié)合靶標(biāo)(direct-binding targets),使用RcisTarget對每個共表達(dá)模塊進(jìn)行順式調(diào)控基序(cis-regulatory motif)分析刀诬。進(jìn)行TF-motif富集分析咽扇,識別直接靶標(biāo)邪财。(僅保留具有正確的上游調(diào)節(jié)子且顯著富集的motif modules,并對它們進(jìn)行修剪以除去缺乏motif支持的間接靶標(biāo)质欲。)這些處理后的每個TF及其潛在的直接targets gene被稱作一個調(diào)節(jié)子(regulon)树埠;

(3)使用AUCell算法對每個細(xì)胞的每個regulon活性進(jìn)行打分。對于一個regulon來說嘶伟,比較細(xì)胞間的AUCell 得分可以鑒定出哪種細(xì)胞有顯著更高的subnetwork活性怎憋。結(jié)果生成一個二進(jìn)制的regulon活性矩陣(binarized activity matrix),這將確定Regulon在哪些細(xì)胞中處于“打開”狀態(tài)九昧。

image.png

補(bǔ)充:

蛋白質(zhì)中功能的基本單元是domain,是一種特殊的三維結(jié)構(gòu)绊袋,不同結(jié)構(gòu)的domain與其他分子特異性結(jié)合從而發(fā)揮功能。與此類似铸鹰,轉(zhuǎn)錄因子在于DNA序列結(jié)合時癌别,其結(jié)合位點(diǎn)的序列也由于一定的特異性,不同轉(zhuǎn)錄因子結(jié)合的DNA序列的模式是不同的蹋笼。為了更好的描述結(jié)合位點(diǎn)序列的模式展姐,科學(xué)家們提出了motif的概念。

2.1 GENIE3

GENIE3是一種從基因表達(dá)量數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡(luò)的方法剖毯。它訓(xùn)練預(yù)測數(shù)據(jù)集中每個基因表達(dá)的隨機(jī)森林模型圾笨,并使用TF的表達(dá)作為輸入。然后使用不同的模型來得出TF的權(quán)重逊谋,并測量它們各自的相關(guān)性以預(yù)測每個靶基因的表達(dá)擂达。

GENIE3的輸入為表達(dá)矩陣,最好使用gene-summarized counts(可能是也可能不是UMIs)胶滋。其他單位板鬓,比如counts,TPM和FPKM/RPKM也可以镀钓。但是要注意第一步的網(wǎng)絡(luò)相關(guān)分析基于共表達(dá)穗熬,一些作者建議也可以使用within-sample normalization比如TPM。

GENIE3的輸出是一個帶有基因丁溅、潛在調(diào)節(jié)因子以及IM(importance measure)的表唤蔗。IM代表了TF(input gene)在預(yù)測靶標(biāo)時的權(quán)重。作者探索了幾種確定閾值的方法窟赏,最終選擇為每個TF建立多個潛在靶標(biāo)基因集:(1)設(shè)置幾個IM閾值(IM>0.001 and IM >0.005)

(2)選取每個TF的前50哥靶標(biāo)targets

(3)每個target gene保留top5妓柜,10,50個TFs涯穷,然后按TF分開棍掐。

在以上結(jié)果中,只有IM>0.001的links被算入拷况。

每個基因集接著被分為positive- and negetive-correlated targets來區(qū)分可能激活的和抑制的targets作煌。(TF和潛在靶標(biāo)的Spearman相關(guān)性計算)

最終掘殴,只有包含30個基因以上的基因集(TF共表達(dá)模型)被保留,用于下游分析粟誓。

2.2 RcisTarget

RcisTarget是i-cisTarget和iRegulon的motif富集框架的新R / Bioconductor實(shí)現(xiàn)奏寨。

RcisTarget從一個基因列表識別富集的TF-binding motifs和候選轉(zhuǎn)錄因子。主要有兩步驟:

(1)選擇在基因集中基因TSS(transcription start site)附近顯著過表達(dá)的DNA motif鹰服。這一步通過在數(shù)據(jù)庫中應(yīng)用recovery-based method(基于恢復(fù)的方法)來實(shí)現(xiàn)的病瞳,該數(shù)據(jù)庫包含每個motif的全基因組跨物種排名。保留注釋到對應(yīng)TF并且NES(normalized enrichment score)>3的motif悲酷。

(2)對于每一個motif和基因集套菜,RcisTarget預(yù)測候選靶標(biāo)基因,也就是基因集中排名領(lǐng)先的基因设易。這一步提供的結(jié)果跟i-cisTarget和iiRegulon相同逗柴。

為了構(gòu)建最終的regulon,作者合并了每個TF module中預(yù)測的靶基因亡嫌,這些基因顯示了給定TF的任何motif的富集嚎于。但是在作者分析的數(shù)據(jù)中掘而,這些modules數(shù)量很少而且motif富集很低挟冠。因此,最終決定從流程中去除對于直接表達(dá)的檢測袍睡,只使用positive-correlated targets進(jìn)行下游分析知染。

2.3 AUCell

對于一個給定的regulon,通過比較所有細(xì)胞間的AUCell(area under the recovery curve)打分值斑胜,我們可以識別哪些細(xì)胞具有更顯著高的regulon活性控淡。

輸入為一個基因集,輸出為基因集每個細(xì)胞的‘a(chǎn)ctivity’挽鞠。這些基因集即regulon筷转,包含TFs和他們假定的的target梆砸。基于recovery analysis將根據(jù)表達(dá)水平將所有基因進(jìn)行排序涧狮。AUC代表了與細(xì)胞內(nèi)其他基因相比,特征基因中表達(dá)基因的比例及其相對表達(dá)值么夫。AUCell使用AUC來計算輸入基因集的關(guān)鍵子集是否在每個細(xì)胞的排名頂部都得到了富集者冤。將輸出一個每個基因集在每個細(xì)胞的AUC score矩陣。

通過卡閾值得到的二元活性矩陣使矩陣維數(shù)減少(可理解為只有 0|1档痪,on|off)涉枫,對于下游分析很有用。 例如腐螟,基于regulon二元活性矩陣的聚類愿汰,可以根據(jù)某個調(diào)控子網(wǎng)絡(luò)(regulon)的活性來識別細(xì)胞群類型和細(xì)胞狀態(tài)困后。由于regulon是整體評分的,而不是使用單個基因的表達(dá)衬廷,因此這種方法對于個別基因的dropouts很有效操灿。
參考:https://g.yuque.com/u103816/kvy887/eukoou

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市泵督,隨后出現(xiàn)的幾起案子趾盐,更是在濱河造成了極大的恐慌,老刑警劉巖小腊,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件救鲤,死亡現(xiàn)場離奇詭異,居然都是意外死亡秩冈,警方通過查閱死者的電腦和手機(jī)本缠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來入问,“玉大人丹锹,你說我怎么就攤上這事》沂В” “怎么了楣黍?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長棱烂。 經(jīng)常有香客問我租漂,道長,這世上最難降的妖魔是什么颊糜? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任哩治,我火速辦了婚禮,結(jié)果婚禮上衬鱼,老公的妹妹穿的比我還像新娘业筏。我一直安慰自己,他們只是感情好鸟赫,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布蒜胖。 她就那樣靜靜地躺著,像睡著了一般惯疙。 火紅的嫁衣襯著肌膚如雪翠勉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天霉颠,我揣著相機(jī)與錄音对碌,去河邊找鬼。 笑死蒿偎,一個胖子當(dāng)著我的面吹牛朽们,可吹牛的內(nèi)容都是我干的怀读。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼骑脱,長吁一口氣:“原來是場噩夢啊……” “哼菜枷!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起叁丧,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤啤誊,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后拥娄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蚊锹,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年稚瘾,在試婚紗的時候發(fā)現(xiàn)自己被綠了牡昆。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡摊欠,死狀恐怖丢烘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情些椒,我是刑警寧澤播瞳,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站摊沉,受9級特大地震影響狐史,放射性物質(zhì)發(fā)生泄漏痒给。R本人自食惡果不足惜说墨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望苍柏。 院中可真熱鬧尼斧,春花似錦、人聲如沸试吁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽熄捍。三九已至烛恤,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間余耽,已是汗流浹背缚柏。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留碟贾,地道東北人币喧。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓轨域,卻偏偏與公主長得像,于是被迫代替她去往敵國和親杀餐。 傳聞我的和親對象是個殘疾皇子干发,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容