空間轉(zhuǎn)錄組研究中的一項關(guān)鍵任務(wù)是識別跨空間位置具有不同空間表達(dá)模式的空間變異基因(SVG)为居。識別SVG為系統(tǒng)分析特定位置的細(xì)胞狀態(tài)、推斷細(xì)胞間的通訊以及確定生物體中重要的表型和功能提供了機(jī)會杀狡。此前《Molecular Therapy-Nucleic Acids》發(fā)表綜述文章蒙畴,對目前可用于SVG分析的最先進(jìn)的計算方法和工具進(jìn)行了最新的系統(tǒng)性概述。該研究將指導(dǎo)醫(yī)學(xué)和生命科學(xué)家尋找專用資源和更有效的工具來表征基因表達(dá)的空間模式。
空間轉(zhuǎn)錄組的數(shù)據(jù)存儲庫
?
SpatialDB(https://www.spatialomics.org/SpatialDB/):是一個手動管理的空間轉(zhuǎn)錄組資源膳凝,供研究人員有效研究和重復(fù)使用已發(fā)布的數(shù)據(jù)碑隆。當(dāng)前版本的SpatialDB包括5個物種(人類、小鼠蹬音、果蠅上煤、秀麗隱桿線蟲和斑馬魚)的24個空間轉(zhuǎn)錄組數(shù)據(jù)集。此外著淆,SpatialDB展示了SpatialDE和trendsceek識別的SVG劫狠,以及數(shù)據(jù)可視化、比較永部、GO和KEEG富集分析独泞。
Single Cell Portal (https://singlecell.broadinstitute.org/single_cell):是一個不斷發(fā)展的綜合性單細(xì)胞數(shù)據(jù)庫府适,該數(shù)據(jù)庫收集并整合了來自400項研究(包括空間轉(zhuǎn)錄組的研究和數(shù)據(jù)集)的17640076個細(xì)胞勃黍;其中大部分來自Broad研究所開發(fā)的空間轉(zhuǎn)錄組技術(shù)。
SVG識別的計算方法
在過去的幾年里抽活,已經(jīng)開發(fā)了許多計算方法/工具來幫助闡明基因表達(dá)的空間變異组橄。根據(jù)內(nèi)在原理可分為三類:(1)基于統(tǒng)計建模的方法荞膘;(2) 基于機(jī)器學(xué)習(xí)的方法;(3)基于空間網(wǎng)格的方法玉工。
基于統(tǒng)計建模的方法
基于已知細(xì)胞空間坐標(biāo)及其基因表達(dá)水平的統(tǒng)計建模方法為闡明空間基因表達(dá)異質(zhì)性提供了統(tǒng)計框架羽资。其一般工作流程:首先,輸入基因表達(dá)譜和細(xì)胞位置信息瓮栗。根據(jù)輸入的信息削罩,構(gòu)建統(tǒng)計框架來闡明基因表達(dá)值與細(xì)胞空間位置之間的相關(guān)性。隨后费奸,通過不同的統(tǒng)計方法確定顯著SVG弥激。
trendsceek使用標(biāo)記點過程來模擬基因表達(dá)和細(xì)胞坐標(biāo)之間的關(guān)聯(lián);SpatialDE是一種基于高斯過程回歸的方法愿阐;與SpatialDE相比微服,SPARK做了一些具體的改進(jìn),其基于具有多個空間核的空間廣義線性混合模型識別SVG缨历,直接對空間計數(shù)數(shù)據(jù)建模以蕴;SPARK-X基于非參數(shù)建模,有效地減少了內(nèi)存需求和計算時間辛孵,同時保持了可靠模型的有效性丛肮;GPcounts利用高斯過程回歸方法,通過負(fù)二項似然模型對空間轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行建模魄缚,在處理計數(shù)數(shù)據(jù)時實現(xiàn)了比高斯似然函數(shù)更好的擬合宝与;BayesSpace是一種完全貝葉斯統(tǒng)計方法焚廊,它使用來自空間鄰域的信息來增強(qiáng)空間轉(zhuǎn)錄組數(shù)據(jù)的分辨率并進(jìn)行聚類分析。
基于機(jī)器學(xué)習(xí)的方法
基于光譜的方法已經(jīng)成為一種根據(jù)特征和基礎(chǔ)結(jié)構(gòu)之間一致性程度進(jìn)行無監(jiān)督特征選擇的方式习劫。
RayleighSelection擴(kuò)展了基于圖的Laplacian方法咆瘟,使用了一個簡單的復(fù)合體,顯著簡化了數(shù)據(jù)之間的關(guān)聯(lián)诽里,并對具有復(fù)雜組合結(jié)構(gòu)的特征進(jìn)行了特征選擇袒餐。
由于輸入數(shù)據(jù)的特征豐富且結(jié)構(gòu)良好,神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的另一個重要分支谤狡,已被廣泛用于分析scRNA-seq和空間轉(zhuǎn)錄組數(shù)據(jù)灸眼。
SOMDE使用自組織映射(SOM),在保持原始空間信息的前提下豌汇,根據(jù)輸入數(shù)據(jù)的密度和拓?fù)浣Y(jié)構(gòu)構(gòu)造一個節(jié)點數(shù)較少的壓縮映射幢炸,然后用高斯過程(GP)檢測SVG;SPADE使用成像數(shù)據(jù)和空間轉(zhuǎn)錄組數(shù)據(jù)作為輸入拒贱,通過卷積神經(jīng)網(wǎng)絡(luò)提取每個點周圍的形態(tài)特征宛徊,并將其與基因表達(dá)數(shù)據(jù)相結(jié)合,以識別與空間和形態(tài)異質(zhì)性相關(guān)的關(guān)鍵基因逻澳。此外闸天,可以基于這些關(guān)鍵基因進(jìn)行功能分析,以進(jìn)一步闡明負(fù)責(zé)不同形態(tài)特征的生物過程斜做。
基于空間網(wǎng)格的方法
這類方法旨在將空間劃分為多個網(wǎng)格苞氮,并對不同細(xì)胞之間的空間關(guān)系進(jìn)行編碼或推斷細(xì)胞的分布,然后應(yīng)用后續(xù)步驟瓤逼,例如對細(xì)胞的空間相鄰關(guān)系或基因表達(dá)水平進(jìn)行二值化以識別SVG笼吟。
SingleCellHaystack將空間劃分為網(wǎng)格,并根據(jù)細(xì)胞的密度確定該網(wǎng)格上的多個網(wǎng)格點霸旗。對于每個基因贷帮,SingleCellHaystack通過閾值將所有細(xì)胞聚成兩類(檢測到該基因的細(xì)胞和未檢測到該基因的細(xì)胞)。然后诱告,SingleCellHaystack計算這兩類細(xì)胞的分布撵枢,并將它們與空間中細(xì)胞的隨機(jī)分布進(jìn)行比較。Kullback-Leibler散度用于計算每個基因的DKL分?jǐn)?shù)作為變異程度精居,并識別在多維空間中不均勻表達(dá)的基因锄禽。基于這個分?jǐn)?shù)靴姿,可以評估基因的空間變異性沃但。Merungue通過三角剖分算法(Delaunay)將空間轉(zhuǎn)錄組數(shù)據(jù)中的每個細(xì)胞視為一個鄰域,然后根據(jù)這些鄰域確定每個細(xì)胞對是否相鄰佛吓,并應(yīng)用二進(jìn)制鄰接權(quán)重矩陣來表示這種關(guān)系宵晚。根據(jù)構(gòu)建的鄰接矩陣和基因表達(dá)矩陣恨旱,Merungue計算出空間自相關(guān)統(tǒng)計量,即Moran's I坝疼,以獲得重要的空間基因。此外谆沃,Merungue通過空間交叉相關(guān)指數(shù)钝凶,將確定的空間基因分類為多種空間表達(dá)模式。Giotto已被開發(fā)為分析和可視化空間轉(zhuǎn)錄組數(shù)據(jù)的工具箱唁影,并結(jié)合了四種識別空間基因的方法耕陷,包括trendsceek、SpatialDE据沈、SPARK和BinSpect哟沫。BinSpect首先使用Delaunay創(chuàng)建一個空間網(wǎng)格來表示細(xì)胞之間的關(guān)聯(lián)。對于每個被輸入的基因锌介,BinSpect將通過K-means聚類或等級閾值對基因表達(dá)值進(jìn)行二值化嗜诀,并根據(jù)這些二值化的表達(dá)值計算出相鄰細(xì)胞之間的或然率表。通過統(tǒng)計學(xué)上的富集測試孔祸,如果一個基因在相鄰細(xì)胞中的表達(dá)量很高隆敢,這個基因?qū)⒈灰暈镾VG。作為一種基于圖的模型崔慧,隱馬爾科夫隨機(jī)場模型(HMRFs)利用空間基因和空間鄰域網(wǎng)絡(luò)來總結(jié)主要的空間域拂蝎。
首發(fā)公號:國家基因庫大數(shù)據(jù)平臺
參考文獻(xiàn)
Li K, Yan C, Li C, et al. Computational elucidation of spatial gene expression variation from spatially resolved transcriptomics data[J]. Molecular Therapy-Nucleic Acids, 2021.
圖片均來源于參考文獻(xiàn),如有侵權(quán)請聯(lián)系刪除惶室。