寫在前面
自2009年第一篇單細胞轉(zhuǎn)錄組文章發(fā)表以來,經(jīng)過十多年的發(fā)展亡呵,各研究機構和生物公司相繼推出單細胞RNA測序(scRNA-seq)服務,這使得單細胞測序已經(jīng)從“王謝堂前燕”飛入了”尋常百姓家“抚芦,逐漸成為了科研人員使用的常規(guī)技術率拒。但是,測序公司提供的往往只是基礎的數(shù)據(jù)處理禁荒,想要根據(jù)自己的課題進行特定的高級分析猬膨,還需要我們有一定的生信基礎,至少要了解在拿到數(shù)據(jù)之后呛伴,能做的分析有哪些勃痴,這對很多生物醫(yī)學研究人員和臨床醫(yī)生來說,無疑有一定的難度热康。
最近沛申,小編發(fā)現(xiàn)了一篇發(fā)表在Military Medical Research期刊上的綜述,關于MMR這本國產(chǎn)雜志姐军,小編不得不多說幾句铁材,MMR創(chuàng)刊于2014年,2019年被SCI收錄奕锌,2020年首個IF為2.3著觉,2022年直接飆升到了34.9分,多少可能是有點貓膩的(小聲嗶嗶)惊暴。然鵝目前來看饼丘,該期刊走的還是優(yōu)質(zhì)路線,專業(yè)認可度也是較高的辽话。好了肄鸽,回歸正文卫病,在這篇綜述中,作者針對有科研需求但更偏向于臨床應用的生物人員典徘,總結了生物醫(yī)學方面單細胞數(shù)據(jù)分析的流程以及每一步的算法進展蟀苛,并推薦了更適合生物醫(yī)學的軟件工具。這篇綜述更nice的地方在于烂斋,它所有的軟件環(huán)境設置和數(shù)據(jù)分析的腳本都是直接奉上了屹逛,鏈接在:https://github.com/WXlab-NJMU/scrna-recom,對于有編程基礎的小伙伴汛骂,完全可以進行復現(xiàn)罕模。
單細胞分析流程
scRNA-seq數(shù)據(jù)的分析步驟可分為三個階段:1、原始數(shù)據(jù)處理和QC帘瞭;2淑掌、幾乎適用于所有scRNA-seq數(shù)據(jù)集的基礎分析;3蝶念、針對特定科學問題量身定做的高級數(shù)據(jù)分析抛腕。基本的數(shù)據(jù)分析步驟包括數(shù)據(jù)歸一化和整合媒殉、特征選擇担敌、降維、細胞聚類廷蓉、細胞類型注釋和標記基因識別全封,高級數(shù)據(jù)分析通常是指軌跡推斷、細胞通訊分析桃犬、調(diào)控子和TF活性預測以及代謝通量分析刹悴。
實驗設計
一個科研項目始于科學問題的提出,而實驗設計則關乎到項目成立與否攒暇,也是后續(xù)分析的前提和基礎土匀。很多臨床醫(yī)生,往往是能夠在工作中發(fā)現(xiàn)問題形用,但至于能不能研究就轧、怎么研究,就摸不著頭腦了尾序。其實钓丰,對于生物醫(yī)學領域來說,前期最關鍵的就是樣本的收集每币,通常是指人體組織或血液携丁,可能還會涉及小鼠等模式生物。樣本的臨床信息同樣需要采集,比如腫瘤分期分級梦鉴、治療記錄李茫、并發(fā)癥以及各項檢查結果等,這個就是多多益善了肥橙。為了研究疾病的發(fā)病機制和特定治療的有效性魄宏,通常采用病例對照設計,比如腫瘤活檢和癌旁組織存筏,或者患者與健康人宠互,在單細胞采樣中,最重要的就是要保證細胞的活性椭坚,這一部分予跌,就需要實驗人員的參與了。
數(shù)據(jù)處理
1.1善茎、原始數(shù)據(jù)處理
原始數(shù)據(jù)處理的步驟包括:測序reads QC券册、reads映射、文庫拆分和count矩陣的生成垂涯。各大scRNA-seq平臺一般都會提供標準化的數(shù)據(jù)處理管道烁焙,例如10x Genomics Chromium的Cell Ranger和Singleron的CeleScope,一些替代工具如UMI-tools耕赘、scPipe骄蝇、zUMIs、celseq2操骡、kallisto bustools和scruff等也可用于原始數(shù)據(jù)的初步處理乞榨,對結果的影響并不是很大。如果是送去公司測序当娱,我們拿到手的都是他們處理過的數(shù)據(jù),包括count矩陣和質(zhì)控報告考榨,可以直接進行下游的數(shù)據(jù)分析跨细。
1.2、細胞QC和雙細胞去除
對細胞QC的目的是確保所有被分析的細胞都是單個且完整的細胞河质,因此需要過濾掉那些受損細胞冀惭、垂死細胞、應激細胞和雙聯(lián)體掀鹅。細胞QC最常用的三個指標是:UMI總數(shù)散休、檢測到的基因數(shù)量和線粒體基因比例,閾值的設置沒有統(tǒng)一的標準乐尊,在很大程度上取決于所研究的組織戚丸、細胞解離方案、文庫制備方案等扔嵌,我們可以參考其他文章限府,根據(jù)QC結果來定夺颤。不過,保險起見胁勺,最好是盡可能的多保留細胞世澜。需要注意的是,當受損的細胞或細胞碎片在文庫中占據(jù)相當大的比例時署穗,count閾值就很難確定寥裂,需要考慮多個QC指標,或者用更復雜的方法來去除背景和低質(zhì)量細胞案疲。通常來說封恰,線粒體基因占比高表明細胞正處于死亡狀態(tài),當檢測到的基因數(shù)量少络拌、測序深度低時意味著細胞受損俭驮,反之,則考慮雙細胞春贸。在高通量scRNA-seq實驗中混萝,觀察到高雙聯(lián)體比例的情況并不少見,目前也有很多方法用以檢測萍恕,如Scrublet逸嘀、doubletCells、bcds允粤、DoubletDetection崭倘、DoubletFinder、Solo类垫、DoubletDecon等司光。此外,在質(zhì)控時還需要考慮和控制各種污染源悉患,例如残家,源自PBMC和實體組織的文庫可能會被紅細胞污染,因此高表達血紅蛋白基因的細胞通常會被丟棄售躁,再比如無細胞和環(huán)境RNA坞淮,可以利用SoupX、DecontX陪捷、FastCAR和CellBender等軟件去除此類背景信號回窘。在最近的一篇方法測評文章中,作者發(fā)現(xiàn)Doubletfinder在下游分析中表現(xiàn)出了最高的檢測精度和性能市袖。
基礎分析
1.1啡直、表達歸一化
每個細胞測得的count數(shù)取決于一系列技術和生物學因素,技術因素包括RNA捕獲、逆轉(zhuǎn)錄付枫、cDNA擴增和測序深度等烹玉,生物學因素則是指細胞大小和細胞周期階段。因此阐滩,在比較細胞間的基因表達譜時二打,通常用的都是RNA相對表達豐度。由于單細胞表達矩陣的稀疏性掂榔,bulk測序使用的歸一化方法继效,如TPM、TMM装获、上四分位數(shù)法和DESeq等都不適用瑞信。scRNA-seq數(shù)據(jù)使用的歸一化方法,包括單細胞差異表達(SCDE)穴豫、基于模型的單細胞轉(zhuǎn)錄組學分析(MAST),以及通過匯集具有相似基因表達譜的細胞進行歸一化的Scran凡简。在實操中,我們會先將單細胞數(shù)據(jù)Normalization精肃,以消除技術差異秤涩,確保同一基因在不同樣本中的表達具有可比性,然后通過Scale添加z-score計算司抱,使后續(xù)分析不受極值影響筐眷。Seurat團隊最近開發(fā)的SCTransform,將正則化負二項式回歸用于scRNA-seq數(shù)據(jù)的標準化和歸一化處理习柠。
一些已知的生物學效應匀谣,例如細胞周期和細胞應激,可能會影響我們感興趣的特定生物學信號的表征资溃,這時武翎,針對已知的生物學過程來標準化基因表達譜有助于我們更好的解釋數(shù)據(jù)。例如溶锭,校正細胞周期的影響可以改善發(fā)育軌跡的重建后频,不過,在校正一種生物學效應時暖途,可能又會無意中阻礙另一種生物學信號的表征,所以在選擇策略時需要小心謹慎膏执。
1.2驻售、數(shù)據(jù)整合
當研究樣本來自不同醫(yī)療中心時,需要在下游分析前進行整合更米,對于使用類器官的研究欺栗,在不同時間點采集的細胞也需要整合,即在保留生物變異的同時,去除批次效應迟几,在scRNA-seq中消请,這種批次效應可能是非線性的。目前类腮,已有的校正方法可以分為以下幾類:1) 針對bulk數(shù)據(jù)開發(fā)的工具臊泰,包括ComBat和limma;2) 基于高維基因表達空間或其子空間中相互最近鄰(MNN)的方法蚜枢,如mnnCorrect缸逃、fastMNN、Scanorama和batch balanced k nearest neighbors(BBKNN); 3) 將細胞與降維空間中的相關/共享特征對齊的方法厂抽,包括CCA需频、Harmony和LIGER; 4) 基于深度生成模型的方法,如scGen筷凤。Tran等人使用10多個數(shù)據(jù)集比較了14種整合方法昭殉,發(fā)現(xiàn)Harmony、LIGER和CCA的整體性能最佳藐守,根據(jù)實際經(jīng)驗挪丢,推薦依次用Harmony、Seurat3/4-CCA 和LIGER吗伤。Harmony運行速度最快吃靠,適合初步探索,Seurat3/4-CCA表現(xiàn)適中足淆,而LIGER將數(shù)據(jù)混合得最好巢块,相應的可能會損失細胞類型純度。為了評估批次效應的程度或校正效果巧号,我們可以將校正后的數(shù)據(jù)聚類并可視化族奢,與直接合并樣本的結果進行比較,通過計算kBET等測試指標來評估丹鸿。
1.3越走、特征選擇和降維
細胞QC是為了去除背景細胞和有問題的細胞,特征選擇則是為了篩選有代表性的基因靠欢。在人類基因組中廊敌,超過20,000個基因被注釋,但并非所有基因都可以提供表征細胞間異質(zhì)性或區(qū)分細胞類型/狀態(tài)的信息门怪,而且在單細胞數(shù)據(jù)中骡澈,一個細胞只表達幾千甚至幾百個基因。因此掷空,考慮到scRNA-seq數(shù)據(jù)的高噪聲比肋殴,特征選擇通常會識別高度可變基因(HVG)囤锉。為下游分析選擇的基因數(shù)量在理論上取決于所研究樣本中細胞組成的復雜性,通常HVG數(shù)量在1000到5000之間,Seurat默認為2000护锤。有研究表明官地,下游分析對HVG的數(shù)量并不敏感。特征選擇之后烙懦,需要通過降維技術進一步降低表達矩陣的維度驱入,并保留細胞間變異性的生物學信息。廣泛使用的降維方法包括PCA修陡、NMF沧侥、MDS、t-SNE和UMAP魄鸦,PCA已廣泛應用于scRNA-seq數(shù)據(jù)分析宴杀,通過將原始表達矩陣線性投影到其子空間,按重要性順序給出主成分 (PC)拾因,NMF與PCA 類似旺罢,基于線性投影來降維,在scRNA-seq的細胞聚類中表現(xiàn)出穩(wěn)健的性能绢记。對于單細胞數(shù)據(jù)的可視化扁达,常用的方法是t-SNE和UMAP,然而蠢熄,當數(shù)據(jù)量比較大時跪解,t-SNE運行速度會很慢,此時签孔,UMAP更勝一籌叉讥。
1.4、識別細胞亞群
單細胞轉(zhuǎn)錄組學的關鍵應用之一就是對細胞聚類或分類饥追,以識別細胞亞群图仓。
PCA常用于bulk RNA-seq,但少數(shù)的PC可能無法區(qū)分細胞亞群中基因表達的生物學差異但绕,而NMF則能很好的分離單細胞轉(zhuǎn)錄組數(shù)據(jù)中的亞群救崔,并且已被證明比PCA具有更高的準確性和穩(wěn)健性。此外捏顺,基于k-means算法開發(fā)的SC3六孵,以及基于最近鄰的Seurat包中提供的聚類方法也廣泛用于scRNA-seq數(shù)據(jù)集。以上都是無監(jiān)督聚類幅骄,還有一些監(jiān)督聚類方法劫窒,包括CellAs-sign、scmap昌执、SingleR烛亦、CHETAH和SingleCellNet,該類方法依賴于具有已知細胞類型注釋的參考數(shù)據(jù)庫懂拾,受批次效應煤禽、細胞類型數(shù)量和細胞群組成不平衡的影響較小。但是岖赋,無監(jiān)督方法可以識別未知的細胞類型檬果,計算效率也更高,因此唐断,通過Seurat實現(xiàn)單細胞聚類是多數(shù)情況下的首選选脊。此外,還有一些方法專門用于識別豐度較低的稀有細胞類型脸甘,如RaceID恳啥、GiniClust、SINCERA和DendroSplit聚類算法丹诀。
1.5钝的、細胞類型注釋
眾所周知,細胞類型注釋分為手動注釋和自動注釋铆遭,手動注釋非常耗時且具有主觀性硝桩,對注釋人員的專業(yè)要求也很高,在這里枚荣,我們重點了解一下自動注釋算法碗脊。
這些自動注釋方法可以大體分為三大類,第一種是基于marker基因的橄妆,依賴于公共數(shù)據(jù)庫或文獻中細胞類型的特異性marker衙伶,CellMarker和PanglaoDB是常用的單細胞數(shù)據(jù)庫,用于存儲人類和小鼠組織中多種細胞類型的標記呼畸。此外痕支,TF-Marker數(shù)據(jù)庫提供了人類細胞或組織特異性轉(zhuǎn)錄因子和相關marker。同時蛮原,已有許多使用marker基因進行細胞類型注釋的方法卧须,例如ScType腊尚、scSorter甩卓、SCINA加缘、scCATCH和CellAssign拐袜。第二類方法是基于參考轉(zhuǎn)錄組的驱犹,它使用細胞類型標記的scRNA-seq數(shù)據(jù)集作為細胞類型注釋的參考挑随,通過搜索查詢數(shù)據(jù)和參考數(shù)據(jù)之間的最佳相關性進行注釋雨涛,包括CHETAH碧浊、scmap笛园、scMatch和SingleR隘击。其中侍芝,SingleR根據(jù)參考數(shù)據(jù)中細胞類型之間的HVG,將每個未注釋的單細胞轉(zhuǎn)錄組與已知細胞類型的參考轉(zhuǎn)錄組相關聯(lián)埋同,以迭代方式的進行分配州叠。第三組方法基于監(jiān)督機器學習,然后應用由參考marker訓練的分類器來預測未注釋細胞的細胞類型,例如凶赁,SingleCellNet使用多類隨機森林分類器咧栗,ACTINN使用人工神經(jīng)網(wǎng)絡,scPred使用支持向量機SVM虱肄,而scClassify使用集成學習進行細胞類型注釋致板。最近的一項基準研究表明,在不同的情況下咏窿,不同的計算方法都具有特定的優(yōu)勢斟或,因此整合多個工具的注釋結果可能實現(xiàn)更準確的細胞類型注釋。比如翰灾,最近開發(fā)的ImmCluster集成了七種基于參考和四種基于標記基因的計算方法缕粹,用于免疫細胞聚類和注釋,其結果比單個方法更準確和穩(wěn)定纸淮。
1.6平斩、識別marker基因
Marker基因不僅可以用于細胞類型的注釋,也可用于表征特定細胞簇或細胞類型的功能咽块。識別marker基因的典型方法是基于統(tǒng)計檢驗識別細胞簇中的差異表達基因(DEGs)绘面,例如scRNA-seq分析軟件Seurat和SINCERA,使用非參數(shù)Wilcoxon秩和檢驗來識別特定細胞類型的高表達基因侈沪。有研究表明揭璃,Wilcoxon秩和檢驗的假陽性率低于DESeq2和edgeR等基于測序的分析方法。此外亭罪,SC3方法采用非參數(shù)Kruskal-Wallis檢驗來比較兩組以上的細胞瘦馍,還有MAST、SCDE和DESingle等許多其他方法可以來識別細胞特異的marker基因应役。有一類方法在細胞聚類過程中同時識別細胞特異性基因情组,包括BackSPIN,它在對細胞進行聚類時將高表達的基因聚集在一起箩祥,還有ICGS通過識別引導基因進行迭代聚類院崇,以及DendroSplit在識別子簇的同時計算了標記基因的顯著性水平。對于這么多種識別scRNA-seq中DEG的方法袍祖,也有研究做了比較底瓣,總的來說,非參數(shù)Wilcoxon秩和檢驗在大多數(shù)情況下都是不錯的選擇蕉陋。
高級分析
在對測序數(shù)據(jù)做了基本的分析之后捐凭,想要挖掘有意義的生物信息拨扶,還得靠高級分析。目前茁肠,應用最廣泛的單細胞分析策略有功能富集屈雄、擬時序、細胞通訊和轉(zhuǎn)錄因子分析官套。富集分析是指對與生物學問題顯著相關的基因功能類別進行統(tǒng)計分析,相信小伙伴們都已經(jīng)做過N次了蚁孔,擬時序分析可以根據(jù)細胞之間表達模式的相似性對單個細胞進行軌跡排序來模擬細胞動力學奶赔,細胞通訊分析通過確定不同細胞類型中受體和配體的表達和配對來推斷不同細胞之間的相互作用,轉(zhuǎn)錄因子分析則是識別轉(zhuǎn)錄因子和潛在靶基因之間的共表達模塊杠氢。
1.1站刑、功能富集分析
為了解釋每種細胞類型中識別到的標記基因,我們通常都要進行功能富集分析鼻百。在bulk轉(zhuǎn)錄組分析中绞旅,常用的就是DAVID或者基因集富集分析(GSEA),估計大家對此也都不陌生了温艇。在單細胞富集分析中因悲,我們廣泛使用的是單樣本GSEA(ssGSEA)和基因集變異分析(GSVA),它們類似于GSEA勺爱。此外晃琳,考慮到scRNA-seq數(shù)據(jù)的特征,Vision琐鲁、Pagoda2卫旱、AUCell、SCSE和JASMINE等工具被開發(fā)出來專門用于單細胞围段,且通常更適合對scRNA-seq進行特征打分顾翼,還可用于推斷通路活性。
1.2奈泪、軌跡推斷和RNA速率分析
在整個發(fā)育過程中适贸,細胞會從一種功能“形態(tài)”分化到另外一種功能“形態(tài)”,不同形態(tài)的細胞會表達不同的基因段磨,以實現(xiàn)它們特定階段的功能取逾。基于單細胞數(shù)據(jù)分析苹支,我們可以表征這些處于中間形態(tài)的細胞砾隅,擬時序分析,即軌跡推斷根據(jù)每個細胞的時序基因表達债蜜,將每個細胞按照擬時間排列在對應軌跡上晴埂,反映了細胞的發(fā)育軌跡或細胞狀態(tài)轉(zhuǎn)變究反。在過去幾年里,軌跡推斷的方法大約開發(fā)了一百多種儒洛,根據(jù)軌跡的類型精耐,可以分為線性方法(如SCORPIUS、TSCAN琅锻、Wanderlust)卦停,單分叉方法(如DPT、Wishbone)恼蓬,多分叉方法(如FateID惊完、STEMNET、MFA)处硬,樹形方法(包括Slingshot小槐、scTite、Monocle)和圖形方法(PAGA荷辕、RaceID凿跳、SLICER)。目前疮方,常用的方法有PAGA控嗜、Monocle、RaceID和Slingshot骡显。單細胞軌跡分析的另一種方法是RNA速率分析躬审,它基于同一細胞中未成熟(未剪接的)和成熟(剪接的)mRNA豐度之間的比值來獲得基因特異性速度,得出可能的細胞狀態(tài)變化蟆盐,從而追溯細胞的起源和潛在的命運承边。第一個RNA速率分析方法是Velocyto,scVelo在其基礎上進行了改善石挂。此外博助,還有一些將RNA速率與軌跡推斷相結合的方法,例如CellRank和CellPath痹愚。
1.3富岳、細胞通訊(CCC)分析
細胞通訊在生物體發(fā)育和體內(nèi)平衡以及疾病的發(fā)生和發(fā)展中起著重要作用,CCC分析可以幫助我們了解細胞與細胞之間的互作關系拯腮,解析細胞間通信網(wǎng)絡窖式,探索腫瘤免疫微環(huán)境,挖掘疾病潛在的治療靶點动壤。
細胞之間的通訊通常取決于配體-受體相互作用(LRIs)萝喘,迄今為止,已經(jīng)搭建了非常多的LRI數(shù)據(jù)庫,包括CellPhoneDB阁簸、ICELLNET爬早、CellTalkDB、SingleCellSignalR和Omnipath启妹。對scRNA-seq數(shù)據(jù)完成注釋之后筛严,將其與已知的LRI整合,以計算特定樣本的LR分數(shù)饶米,從而量化相互作用的可能性桨啃。基于LR共表達檬输,LR評分函數(shù)可以分為表達閾值优幸、表達相關性、表達產(chǎn)物和差異表達的組合褪猛。例如,SingleCellSignalR就是基于LR基因表達的產(chǎn)物羹饰。根據(jù)特征伊滋,CCC分析工具可分為三大類,即基于網(wǎng)絡队秩、基于機器學習和基于空間信息笑旺。基于網(wǎng)絡的方法利用基因之間的連接網(wǎng)絡來預測細胞通訊馍资,包括NicheNet筒主、CCCExplorer、scConnect和NATMI鸟蟹∥诿睿基于機器學習的方法采用了各種類型的機器學習算法,例如SingleCellSignalR建钥、SoptSC和PyMINEr藤韵,此外,RCA-CCA熊经、線性回歸和決策樹分類器也用于細胞通訊的預測泽艘。隨著空間轉(zhuǎn)錄組學的快速發(fā)展,許多CCC方法將scRNA-seq數(shù)據(jù)與空間轉(zhuǎn)錄組學和/或圖像數(shù)據(jù)相結合镐依,用于識別CCC匹涮,如CellTalker、Squidpy和histoCAT槐壳,通過細胞鄰近度或鄰域分析來研究細胞間通訊然低,此外,CellChat在預測互作方面的表現(xiàn)也很好。分析結果通常借由熱圖脚翘、環(huán)形熱圖灼卢、桑基圖和氣泡圖來進行可視化来农。
1.4鞋真、調(diào)控子推斷和TF活性預測
轉(zhuǎn)錄因子在基因表達調(diào)控中起著重要作用,并參與人類的各種生理和病理過程沃于。被同一TF調(diào)控的基因集合涩咖,稱為調(diào)控子,基于scRNA-seq數(shù)據(jù)繁莹,我們可以繪制細胞類型特異性調(diào)控子的圖表檩互,重建每個細胞的調(diào)控網(wǎng)絡。
調(diào)控子的識別離不開TF靶標數(shù)據(jù)庫咨演,AnimalTFDB闸昨、JASPAR、TRRUST薄风、KnockTF和Cistrome DB是應用廣泛的TF注釋數(shù)據(jù)庫饵较。基于這些數(shù)據(jù)庫遭赂,構建細胞類型特異性轉(zhuǎn)錄調(diào)控網(wǎng)絡的一種簡單方法循诉,是識別上調(diào)的轉(zhuǎn)錄因子和/或差異表達的轉(zhuǎn)錄因子靶基因。結合單細胞基因表達和TF靶標信息撇他,已經(jīng)開發(fā)了許多用于推斷調(diào)控子和TF活性的方法茄猫。共表達分析,例如WGCNA已廣泛用于bulk數(shù)據(jù)中TF調(diào)控模塊的挖掘困肩,該方法也同樣適用于scRNA-seq划纽。SCENIC方法是最早基于scRNA-seq數(shù)據(jù)進行調(diào)控子推斷的方法,目前已被用于研究癌癥和COVID-19等多種疾病的調(diào)控網(wǎng)絡锌畸。其他方法阿浓,包括SCODE和SINCERITIES,利用擬時序信息在scRNA-seq中基于常微分方程或隨機微分方程模型蹋绽,來重建TF-靶基因調(diào)控網(wǎng)絡芭毙。此外,機器學習技術也已應用于轉(zhuǎn)錄調(diào)控分析卸耘,例如SIGNET和DeepDRIM退敦。雖然有許多基于scRNA-seq的基因調(diào)控分析方法可供選擇,但由于轉(zhuǎn)錄調(diào)控的復雜性和scRNA-seq數(shù)據(jù)的信息不足蚣抗,需要我們對推斷的結果進行嚴格判斷侈百,必要的話可以通過實驗進行驗證瓮下。
1.5、單細胞代謝分析
代謝是所有生物過程的核心钝域,代謝失調(diào)是包括癌癥讽坏、糖尿病和心血管疾病等的標志。單細胞代謝組學技術尚不成熟例证,因此路呜,基于單細胞轉(zhuǎn)錄組學的代謝分析更常見。例如织咧,研究人員可以使用scRNA-seq監(jiān)測關鍵代謝基因在不同處理下或重要生理/病理過程期間的表達變化胀葱。
基于scRNA-seq的代謝分析工具可分為兩大類:基于通路分析和基于通量平衡分析(FBA)的方法。對于第一類笙蒙,通常使用功能富集分析方法抵屿,尤其是R包scMe-tabolism提供了一個用于定量分析scRNA-seq中代謝通路活性的集成框架,可以與ssGSEA捅位、Vision和AUCell等單細胞功能富集分析工具兼容轧葛。第二類方法,利用基于約束的數(shù)學模型重建代謝網(wǎng)絡艇搀,代謝網(wǎng)絡的重建通衬虺叮基于KEGG和Reactome等代謝數(shù)據(jù)庫。scFBA是第一個結合scRNA-seq數(shù)據(jù)和FBA來估計單細胞通量的計算工具中符,然后Compass和scFEA被相繼提出。Compass基于Recon2對人體新陳代謝的重建誉帅,并通過線性規(guī)劃解決基于約束的優(yōu)化問題淀散,對單個細胞中每個代謝反應的潛在活性進行評分。scFEA則通過概率模型來考慮通量平衡約束蚜锨,通過神經(jīng)網(wǎng)絡來模擬通量變化和酶基因表達變化的非線性档插,并利用圖形神經(jīng)網(wǎng)絡來解決優(yōu)化問題,scFEA的分析結果可以進行多種具有生物學意義的下游分析亚再,如細胞間代謝通訊等郭膛。
說在最后
scRNA-seq在生物醫(yī)學研究中的應用促進了我們對疾病發(fā)病機制的理解,并為新的診斷和治療策略提供了有價值的見解氛悬。隨著包括臨床樣本在內(nèi)的高通量scRNA-seq能力的擴大则剃,對這些海量數(shù)據(jù)的深入分析,對進入該領域的非生信研究人員均是一個挑戰(zhàn)如捅。在篇綜述中棍现,作者回顧了典型的scRNA-seq數(shù)據(jù)分析的工作流程,包括原始數(shù)據(jù)處理和質(zhì)量控制镜遣,幾乎適用于所有scRNA-seq數(shù)據(jù)集的基本數(shù)據(jù)分析己肮,以及針對特定科學問題的高級數(shù)據(jù)分析。在總結每個分析步驟的當前方法的同時,作者還提供了軟件的在線存儲庫和打包的腳本來實現(xiàn)支持谎僻。對一些具體的分析任務和方法提出了建議和注意事項娄柳。作者希望這一資源將有助于非生信研究人員參與scRNA-seq數(shù)據(jù)分析,特別是對新興的臨床應用上有所幫助艘绍。
對于單細胞轉(zhuǎn)錄組學數(shù)據(jù)赤拒,我們能做的分析基本就是這些,根據(jù)自己課題的實際情況鞍盗,我們可以選擇其中某些分析策略需了,而并不一定全都要做。當然般甲,單細胞水平的其他組學也在迅速發(fā)展肋乍,如ATAC-seq、單細胞DNA甲基化測序敷存、Hi-C等技術墓造,也有不少研究通過整合這些多組學數(shù)據(jù),來更好的解釋生物學問題锚烦。等到時機成熟觅闽,小編會再為大家總結其他的單細胞分析方法,今天的分享就到這了涮俄,祝大家都科研順利~
[參考文獻]
1蛉拙、Su M, Pan T, Chen QZ, Zhou WW, Gong Y, Xu G, Yan HY, Li S, Shi QZ, Zhang Y, He X, Jiang CJ, Fan SC, Li X, Cairns MJ, Wang X, Li YS. Data analysis guidelines for single-cell RNA-seq in biomedical studies and clinical applications. Mil Med Res. 2022 Dec 2;9(1):68. doi: 10.1186/s40779-022-00434-8.
2、Zhao Ruohan, Bai Yicheng, Zhao Jingying, Hu Mei, Zhang Xinyan, Yang Min, Dou Tengfei & Jia Junjing (2023) Advanced analysis and applications of single-cell transcriptome sequencing, All Life, 16:1, 2199140, DOI: 10.1080/26895293.2023.2199140.