介紹一篇文獻(xiàn):Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data卜录,2021年發(fā)表于Nature Biotechnology捌年,DOI號:10.1038/s41587-021-01091-3贯被。算法已經(jīng)寫成了R軟件包缩多,放在GitHub上供使用:https://github.com/sunduanchen/Scissor宪塔。
要從單細(xì)胞數(shù)據(jù)中識別關(guān)鍵亞群埋嵌,標(biāo)準(zhǔn)方法是執(zhí)行無監(jiān)督聚類來定義細(xì)胞群第献,檢查每個細(xì)胞群的marker基因贡必,并在已知的細(xì)胞類型和通路中評估m(xù)arker基因的富集情況,以計(jì)算每個細(xì)胞群的重要性庸毫。然而仔拟,識別驅(qū)動表型(如疾病階段、腫瘤轉(zhuǎn)移飒赃、治療反應(yīng)和生存結(jié)果)的細(xì)胞亞群具有不可缺少的重要性利花,這有利于細(xì)胞類型靶向治療和預(yù)后生物標(biāo)志物的發(fā)現(xiàn)。大多數(shù)單細(xì)胞實(shí)驗(yàn)涉及不到20個患者樣本盒揉,缺乏統(tǒng)計(jì)功效來識別驅(qū)動表型的細(xì)胞亞群晋被。
有價值的臨床表型信息可以從TCGA等大型項(xiàng)目中獲取。因此可利用這些表型信息來指導(dǎo)對單細(xì)胞數(shù)據(jù)的細(xì)胞亞群識別刚盈。本研究提出了Single-Cell Identification of Subpopulations with bulk Sample phenOtype coRrelation (Scissor) 算法羡洛,通過利用bulk數(shù)據(jù)和對應(yīng)表型信息,該算法自動從單細(xì)胞數(shù)據(jù)中選擇與表型差異最有關(guān)聯(lián)性的細(xì)胞亞群藕漱。
1. 概述
為了使用bulk數(shù)據(jù)和表型信息來協(xié)助單細(xì)胞數(shù)據(jù)分析欲侮,作者開發(fā)了一種算法Scissor,從單細(xì)胞數(shù)據(jù)中識別與給定表型相關(guān)度最高的細(xì)胞亞群肋联。 簡而言之威蕉,Scissor的三個數(shù)據(jù)源是單細(xì)胞表達(dá)矩陣、bulk表達(dá)矩陣和感興趣的表型橄仍。每個bulk樣本的表型注釋可以是一個連續(xù)型因變量韧涨、二元變量或臨床生存數(shù)據(jù)。
Scissor的關(guān)鍵步驟是量化單細(xì)胞數(shù)據(jù)和bulk數(shù)據(jù)之間的相似性侮繁,如每對細(xì)胞和bulk樣本的皮爾森相關(guān)性虑粥。之后Scissor優(yōu)化了相關(guān)性矩陣與樣本表型的回歸模型∠芰ǎ回歸模型的選擇取決于輸入表型的類型娩贷,例如,連續(xù)型變量—線性回歸锁孟,二分類變量—logistic回歸彬祖,臨床生存數(shù)據(jù)—Cox回歸茁瘦。因?yàn)轵?qū)動感興趣表型的細(xì)胞往往是一個小子集,對回歸模型施加稀疏懲罰和圖正則化储笑,以高置信度選擇對給定表型具有重要性的相似細(xì)胞甜熔。根據(jù)估計(jì)的回歸系數(shù)的符號,系數(shù)非零的細(xì)胞可表示為Scissor陽性細(xì)胞(Scissor+)和Scissor陰性細(xì)胞(Scissor?)南蓬,它們分別與感興趣的表型呈正相關(guān)和負(fù)相關(guān)纺非。系數(shù)為零的細(xì)胞表示為背景細(xì)胞。此外赘方,為了控制單細(xì)胞和bulk數(shù)據(jù)之間的假關(guān)聯(lián)烧颖,作者設(shè)計(jì)了一個可靠顯著性檢驗(yàn),以確定所選數(shù)據(jù)是否適合表型-細(xì)胞關(guān)聯(lián)(基于置換檢驗(yàn))窄陡。
這里用和分別表示單細(xì)胞數(shù)據(jù)的細(xì)胞數(shù)和bulk樣本數(shù)炕淮,樣本表型記為,構(gòu)建皮爾森關(guān)聯(lián)矩陣跳夭,量化單細(xì)胞數(shù)據(jù)和bulk數(shù)據(jù)之間的相似性涂圆。(此處巧妙地將bulk數(shù)據(jù)和單細(xì)胞數(shù)據(jù)相關(guān)聯(lián),生成的關(guān)聯(lián)矩陣币叹,將樣本轉(zhuǎn)化為觀測润歉,每個觀測對應(yīng)表型標(biāo)簽,個細(xì)胞則可看作個特征)颈抚。進(jìn)而建立一個關(guān)聯(lián)矩陣與表型之間的回歸模型:
是細(xì)胞的系數(shù)向量踩衩,是針對不同類型選擇的對數(shù)似然函數(shù),同時加了兩項(xiàng)懲罰項(xiàng)贩汉,一個是常規(guī)的正則驱富,有利于參數(shù)稀疏化,使對于給定表型識別到的細(xì)胞具有高置信度匹舞,一個是受Seurat啟發(fā)褐鸥,基于細(xì)胞-細(xì)胞相似性網(wǎng)絡(luò),計(jì)算得到的拉普拉斯懲罰項(xiàng)赐稽。其中和是模型超參數(shù)叫榕。
2. 在模擬數(shù)據(jù)中捕獲表型相關(guān)的細(xì)胞亞群
利用軟件模擬不同表型的單細(xì)胞細(xì)胞亞群數(shù)據(jù)和對應(yīng)bulk數(shù)據(jù)。在模擬時姊舵,存在兩種表型特異性細(xì)胞亞群間有真實(shí)差異表達(dá)基因翠霍,但標(biāo)準(zhǔn)單細(xì)胞分析流程卻因?yàn)閮煞N亞群被聚在一個cluster中而無法識別的情況。此時利用Scissor進(jìn)行識別蠢莺,可以發(fā)揮很好的效果,因?yàn)镾cissor不需要對單細(xì)胞數(shù)據(jù)進(jìn)行任何無監(jiān)督聚類零如,從而避免了對細(xì)胞聚類數(shù)量或聚類分辨率的主觀決定躏将。
3. 在肺癌數(shù)據(jù)中確定腫瘤和正常表型的亞群锄弱。
以577個TCGA LUAD bulk樣本指導(dǎo)Scissor的分析,表型是二元的祸憋,1代表腫瘤樣本会宪,0代表正常樣本。對共29,888個細(xì)胞的單細(xì)胞數(shù)據(jù)進(jìn)行識別蚯窥,得到361 Scissor+細(xì)胞掸鹅,534 Scissor?細(xì)胞。
4. 發(fā)現(xiàn)與較差生存相關(guān)的缺氧亞群拦赠,與TP53突變相關(guān)的細(xì)胞亞群
癌癥細(xì)胞是異質(zhì)性的巍沙,包括癌癥干細(xì)胞等亞群,眾所周知荷鼠,這些細(xì)胞會推動腫瘤進(jìn)展和不良預(yù)后句携。以471個TCGA LUAD匹配生存信息的bulk樣本指導(dǎo)Scissor的分析,從與上述同一個肺癌單細(xì)胞數(shù)據(jù)集的4102個癌細(xì)胞中識別侵襲性癌細(xì)胞亞群允乐。得到201個Scissor+ 細(xì)胞矮嫉,關(guān)聯(lián)于更差的預(yù)后,Scissor+細(xì)胞與其他細(xì)胞進(jìn)行差異表達(dá)分析牍疏,發(fā)現(xiàn)23個與缺氧相關(guān)的基因過表達(dá)蠢笋,功能富集分析證明了這一點(diǎn)。
以498個匹配了TP53突變信息的TCGA LUAD bulk樣本指導(dǎo)Scissor的分析鳞陨,得到414個Scissor+細(xì)胞和318個Scissor?細(xì)胞昨寞。對兩組細(xì)胞進(jìn)行差異表達(dá)分析,得到在Scissor+細(xì)胞中炊邦,337個基因上調(diào)编矾,14個基因下調(diào)。上調(diào)的基因包括E2F靶基因和細(xì)胞周期進(jìn)程相關(guān)的基因馁害,如AURKA, CDK1, CCNB2和TOP2A窄俏,通過主要調(diào)控因子分析,得到轉(zhuǎn)錄因子FOXM1和MYC上調(diào)碘菜,而它們在正常的TP53野生型狀態(tài)下處于抑制狀態(tài)凹蜈,F(xiàn)OXM1還與不良的預(yù)后相關(guān)。下調(diào)的基因包括HLA-A, B2M和CD74忍啸。
5. 鑒定與免疫治療相關(guān)的T細(xì)胞亞群
為了理解免疫檢查點(diǎn)阻斷響應(yīng)的機(jī)制仰坦,作者對黑色素瘤單細(xì)胞數(shù)據(jù)集進(jìn)行了Scissor分析,以識別與免疫檢查點(diǎn)阻斷響應(yīng)的T細(xì)胞亞群计雌。利用70個有免疫治療反應(yīng)信息的bulk樣本悄晃,對單細(xì)胞數(shù)據(jù)1,894個T細(xì)胞進(jìn)行識別,得到105個T cells作為Scissor+細(xì)胞,高表達(dá)與記憶T細(xì)胞相關(guān)的CCR7和SELL及生存相關(guān)的IL7R和轉(zhuǎn)錄因子TCF7妈橄,低表達(dá)抑制性基因HAVCR2, LAG3, PDCD1和CTLA4及MHC II類基因HLA-DRB5, HLA-DRB1, HLA-DPA1, HLA-DQB2和HLA-DRB6庶近。這些結(jié)果表明,單細(xì)胞數(shù)據(jù)的Scissor分析能夠識別與特定表型相關(guān)的亞群眷蚓,即使單細(xì)胞數(shù)據(jù)本身沒有這樣的表型信息鼻种。在非癌癥數(shù)據(jù)中,Scissor的有效性也得到驗(yàn)證沙热。
最后的最后叉钥,按慣例重溫一下重點(diǎn)和摘要:
One of the advantages is that Scissor does not require any unsupervised clustering on single-cell data, which avoids subjective decisions of cell cluster numbers or clustering resolution. Most importantly, Scissor provides a flexible framework to integrate various external phenotypes in bulk data to guide single-cell data analysis, enabling hypothesis-free identification of clinically and biologically relevant cell subpopulations.
參考:
https://sunduanchen.github.io/Scissor/vignettes/Scissor_Tutorial.html