文章題目:Mapping the transcriptome: Realizing the full potential of spatial data analysis
https://doi.org/10.1016/j.cell.2023.11.003
空間異質(zhì)性
空間異質(zhì)性(BOX 1)描述了一個過程在限定區(qū)域內(nèi)不同區(qū)域的變化枉氮。這是地理學角寸、環(huán)境科學和其他領域經(jīng)常使用的一個概念闲礼,用來描述事物在不同地點的變化情況旷档÷砜浚空間異質(zhì)性在試圖了解某一過程的基本空間模式時非常重要悠鞍。從概念上講烂翰,單個變量(如單個基因的表達)可以在組織的不同部位發(fā)生變化蜡秽,在這種情況下,單個基因就表現(xiàn)出空間異質(zhì)性漩仙。有趣的是搓茬,空間異質(zhì)性也可應用于變量之間的關系,這種關系在不同空間可能并不恒定队他。例如卷仑,如圖 4 所示,一對基因之間的全局關系(在本例中以簡單的線性回歸為模型)可能無法準確概括這種關系中的局部變化麸折。在這個例子中锡凝,一對基因之間的局部關系在組織中的某些位置很少與全局回歸估計值類似,也就是說垢啼,局部關系因組織中的位置不同而表現(xiàn)為強的正負相關窜锯。
在分析中考慮空間異質(zhì)性,可使自變量和因變量之間的關系因地而異芭析。地理加權(quán)回歸(GWR)(BOX 1)是地理科學中廣泛使用的一種方法锚扎。從本質(zhì)上講,地理加權(quán)回歸使用移動窗口或核進行一系列局部回歸馁启。與標準線性回歸不同的是驾孔,GWR 包括一個局部空間權(quán)重矩陣,用于表示每個局部模型中使用的數(shù)據(jù)的空間關系。GWR 的輸出通過生成每個位置的回歸估計值來提供空間異質(zhì)性估計值翠勉,從而能夠繪制空間回歸系數(shù)圖妖啥,使空間關系可視化(圖 4)。b0 是截距眉菱,即當基因 X 的表達量為零時迹栓,基因 Y 的預期表達量;b1 是系數(shù)估計值俭缓,描述了基因 X 的表達量每變化一個單位克伊,基因 Y 的表達量會發(fā)生多大變化(即回歸線的斜率)。
GWR 的一個關鍵考慮因素是確定分析的帶寬(BOX 1)华坦。帶寬定義kernel核大小愿吹,從而定義了特定kernel下空間權(quán)重矩陣的距離衰減。帶寬類似于平滑函數(shù)惜姐,帶寬值越大犁跪,觀測到的局部效應就越小。標準 GWR 為整個空間確定了一個最佳帶寬歹袁,從而假設因變量和自變量之間的所有關系都在同一空間尺度上運行坷衍。然而,在生物學中条舔,這種情況很少發(fā)生枫耳,因此標準 GWR 為研究空間異質(zhì)性確定了一個最佳平均尺度。另外孟抗,多尺度 GWR(BOX 1)為每個協(xié)變量定義了一個帶寬迁杨,從而允許每個因變量與自變量關系的分析尺度各不相同。因此凄硼,在大多數(shù)情況下铅协,多尺度 GWR 可能是最合適的方法, 因為它是避免為整個地圖選擇單一尺度的折衷方案摊沉。
空間異質(zhì)性的生物學聯(lián)系
在生物科學領域狐史,空間異質(zhì)性最常用于描述一個組織區(qū)域,該區(qū)域本應是均質(zhì)的(例如说墨,特定組織中的細胞類型)骏全,但卻發(fā)現(xiàn)并非均質(zhì)。在研究自然生態(tài)系統(tǒng)表現(xiàn)出的差異等現(xiàn)象時婉刀,考慮空差異是很常見的吟温。例如序仙,在腎癌突颊、肺腺癌和胃癌等不同癌癥類型中,腫瘤相關巨噬細胞(TAMs)表現(xiàn)出多維異質(zhì)性。在胃癌中律秃,TAMs也發(fā)現(xiàn)根據(jù)其在微環(huán)境的位置有不同的極化狀態(tài)爬橡,且因不同位置(核心區(qū),邊緣區(qū)棒动,邊界)表現(xiàn)出表型的異質(zhì)性糙申。這個例子強調(diào)了在分析空間分辨率數(shù)據(jù)時考慮空間異質(zhì)性的重要性,因為如果不這樣做船惨,腫瘤微環(huán)境等系統(tǒng)組織中的這些微妙之處就會丟失柜裸。
空間轉(zhuǎn)錄組分析的空間意識
上一節(jié)討論的地理空間數(shù)據(jù)的共同特征似乎也是空間轉(zhuǎn)錄組學數(shù)據(jù)的常規(guī)特征。這意味著在開發(fā)分析這些數(shù)據(jù)的方法時應考慮這些特征粱锐。目前已有一些生物信息學分析軟件包將空間納入其中疙挺,例如通過計算與距離相關的協(xié)方差矩陣,建立一個使用位置信息來構(gòu)建自身的神經(jīng)網(wǎng)絡怜浅,或在聚類之前在貝葉斯模型中考慮觀察結(jié)果的空間相關性铐然。目前,約有三分之一的空間轉(zhuǎn)錄組學工具以某種方式結(jié)合空間維度恶座,而且更多的這類工具還在不斷開發(fā)中搀暑。下面,我們將討論這些方法所涉及的常見空間應用跨琳。
空間聚類
用于數(shù)據(jù)探索和推斷的聚類分析是空間轉(zhuǎn)錄組學數(shù)據(jù)的主要分析結(jié)果自点。標準聚類分析不考慮數(shù)值的空間分布,只考慮其相似性湾宙。因此樟氢,空間自相關性是聚類分析特別關注的問題∠丽空間自相關性是基因表達空間模式的基礎埠啃,會產(chǎn)生熱點和/或冷點,進而影響聚類伟恶〔昕空間聚類和地理加權(quán)聚類應區(qū)分開來,前者旨在定義地理上具有相似觀測值的共定位類別博秫,后者則是在生成聚類的同時解釋數(shù)據(jù)的空間特征(如空間自相關性)偶洋。
空間聚類的一個例子是 SpaGCN 方法,它整合了基因表達唁桩、空間位置和組織學數(shù)據(jù)來構(gòu)建網(wǎng)絡称簿,并檢測特定空間區(qū)域中富集的空間可變基因,從而生成聚類即寒。地理加權(quán)聚類可以在 MERINGUE 中找到橡淆,該方法除了考慮轉(zhuǎn)錄特征外召噩,還考慮了空間定位,根據(jù)空間鄰接性對 K 近鄰圖的邊進行加權(quán)逸爵,從而分辨出空間上不同的細胞亞群具滴。
繪制空間可變基因圖譜
所有轉(zhuǎn)錄組學實驗,無論是大樣本师倔、單細胞還是空間實驗构韵,都在檢測基因表達∏魉遥空間轉(zhuǎn)錄組學提供了將這種表達映射到組織特定位置的機會疲恢,這些位置也與特定過程或細胞的存在有關。生成基因表達活性圖譜可以揭示這些基因在過程層面(process-level)上的功能瓷胧。更重要的是冈闭,通過考慮空間自相關性并在適當?shù)某叨龋ɑ蛞唤M尺度)上檢查空間異質(zhì)性,可以探索一個過程在空間上的基本穩(wěn)定性或非穩(wěn)定性抖单。
繪制空間可變基因(SVG)圖譜的方法包括用廣義線性空間模型(GLSM)建立基因表達模型 — 可以捕捉到基本的靜態(tài)空間過程萎攒,并根據(jù)出現(xiàn)的模式對基因進行聚類。另一種方法是使用自組織圖矛绘,構(gòu)建一個聚類為節(jié)點的鄰近細胞概要圖耍休。節(jié)點級空間基因表達使用高斯過程來識別SVG。
空間注釋
在空間轉(zhuǎn)錄組學實驗中货矮,表達數(shù)據(jù)附帶的H&E圖像可用于已知相關的分割羊精。一旦對組織圖像進行了注釋,就可以明確檢查不同組織區(qū)域的基因表達囚玫,并探究注釋區(qū)域與算法定義聚類區(qū)域之間的重合度喧锦。空間轉(zhuǎn)錄組學研究通常采用專家注釋的方法來提供情境抓督,但目前還缺乏能系統(tǒng)地生成這種注釋的工具燃少。SpatialLIBD 是一種能滿足上述某些需求的方法。該方法可實現(xiàn)空間轉(zhuǎn)錄組學數(shù)據(jù)的交互式可視化铃在,并提供人工注釋阵具、逐點注釋。
其他空間轉(zhuǎn)錄組分析方法
空間轉(zhuǎn)錄組學作為一種技術的歷史并不長定铜,這也意味著用于空間轉(zhuǎn)錄組學數(shù)據(jù)分析許多方面的工具不斷涌現(xiàn)阳液。在許多情況下,這些工具利用為批量或更常見的單細胞分析開發(fā)的技術揣炕,并將其直接應用于空間轉(zhuǎn)錄組學數(shù)據(jù)帘皿。用于空間轉(zhuǎn)錄組學數(shù)據(jù)的多種分析方法涵蓋了許多用例,包括聚類畸陡、去卷積鹰溜、圖像分割越庇、三維重建、細胞-細胞相互作用和數(shù)據(jù)整合等——下文簡要概述了其中的一些方面奉狈。不屬于空間感知(spatially aware)空間轉(zhuǎn)錄組學分析范疇的工具超出了本研究的范圍,其他地方已經(jīng)對其進行了詳細的評述涩惑。
聚類是一種有用的工具仁期,因為它能對數(shù)據(jù)進行結(jié)構(gòu)化和有序化處理,從而從復雜的多元數(shù)據(jù)集中獲得有用的見解竭恬,進而讓研究人員利用這些見解對觀測數(shù)據(jù)進行分類或提出假設跛蛋。例如,在一項關于牙齦組織炎癥的研究中痊硕,利用 t 分布隨機鄰域嵌入(t-SNE)對組織位置進行 k 均值聚類赊级,確定了三種不同的區(qū)域類型。另一種方法是Louvain聚類法岔绸。它已在 Seurat 和 Scran 等一些最流行的單細胞分析軟件包中實現(xiàn)理逊,并已在許多空間轉(zhuǎn)錄組學研究中用于聚類。例如盒揉,Louvain聚類法利用 Visium 數(shù)據(jù)揭示了健康和患病肝臟組織的分區(qū)模式晋被。
分辨率高于單細胞的空間轉(zhuǎn)錄組學技術(如 Visium)通常需要進行基因表達解卷積,以幫助了解捕獲區(qū)域的細胞類型組成刚盈。最常見的解卷積方法依賴于相關的 scRNA-seq 數(shù)據(jù)集羡洛,該數(shù)據(jù)集可用作參考,以確定每種細胞類型在空間轉(zhuǎn)錄組學數(shù)據(jù)集合中的比例藕漱。許多計算方法欲侮,包括深度學習和人工智能、貝葉斯模型以及最大似然估計等其他統(tǒng)計方法也被用來對空間轉(zhuǎn)錄組數(shù)據(jù)進行去卷積肋联。
與解卷積相比威蕉,高分辨率技術通常需要在細胞水平上匯總數(shù)據(jù)點。這可以通過圖像分割方法來實現(xiàn)橄仍,以識別組織高分辨率顯微圖像中的細胞邊界忘伞。分割方法可使用檢測到的轉(zhuǎn)錄本的分布,如 Baysor沙兰,或?qū)⒔M織學圖像數(shù)據(jù)與空間轉(zhuǎn)錄本分析結(jié)果結(jié)合起來氓奈。
空間轉(zhuǎn)錄組學數(shù)據(jù)很少能獨立存在,通常需要將它們與其他相關數(shù)據(jù)類型結(jié)合起來鼎天,以豐富對單個數(shù)據(jù)集的解讀舀奶。CellTrek 是一種計算方法,它使用多元機器學習模型將 scRNA-seq 和空間轉(zhuǎn)錄組學數(shù)據(jù)集結(jié)合起來斋射,實現(xiàn)單細胞空間圖譜育勺。由于使用多種技術對組織進行檢測會產(chǎn)生不同類型和分辨率的輸出但荤,因此需要越來越多的多模式整合。這類整合平臺已經(jīng)開始出現(xiàn)涧至,如Single-Cell Spatial Explorer 和 Tangram腹躁。
許多空間轉(zhuǎn)錄組學分析工具可以承擔不止一項分析任務,或者在設計時考慮到了整個空間轉(zhuǎn)錄組學分析流程南蓬。這些工具包通常為空間轉(zhuǎn)錄組學數(shù)據(jù)的可視化提供了一個框架纺非,也為探索性分析和統(tǒng)計分析提供了一個平臺。迄今為止赘方,已經(jīng)發(fā)布了十幾種工具包烧颖,它們具有廣泛的共同特征,包括數(shù)據(jù)預處理窄陡、可視化炕淮、數(shù)據(jù)整合、聚類和差異基因表達跳夭。雖然工具包之間經(jīng)常共享功能涂圆,但這些功能特征并不完全重疊,因為每個工具包在設計時都考慮為特定的分析流程服務币叹,并經(jīng)常包含定制方法乘综。
結(jié)論部分
正如我們所討論的那樣,空間數(shù)據(jù)所產(chǎn)生的考慮因素--可變面元問題套硼、空間自相關和空間異質(zhì)性--明顯體現(xiàn)在空間轉(zhuǎn)錄組學數(shù)據(jù)中卡辰。這些因素的存在可被視為傳統(tǒng)分析的干擾因素,足以表明對空間轉(zhuǎn)錄組學數(shù)據(jù)進行空間感知分析(aware analysis)應是默認的做法邪意。有一些為空間轉(zhuǎn)錄組學分析開發(fā)的工具九妈,本質(zhì)上是對地理科學幾十年來常用的統(tǒng)計方法的重新演繹。這些統(tǒng)計工具在地理科學領域已普遍使用了幾十年雾鬼。值得注意的是萌朱,空間轉(zhuǎn)錄組學數(shù)據(jù)的特殊性方面并不妨礙直接使用現(xiàn)有的地理科學模型。
迄今為止策菜,在為空間轉(zhuǎn)錄組學分析開發(fā)的方法中晶疼,約有三分之一在某種程度上考慮了空間因素,主要是在空間可變基因的識別和感興趣基因的空間圖譜映射又憨。少數(shù)考慮到空間的工具正在積極利用在地理科學中開發(fā)和驗證的方法翠霍。有幾種工具通過空間自相關統(tǒng)計(如 Moran's I 或 Geary's C)來識別空間 "有趣 "基因,但往往沒有采用這一原則的邏輯延伸蠢莺,空間自相關的存在會破壞經(jīng)典統(tǒng)計模型寒匙。通過專家注釋或聚類確定組織區(qū)域間的差異表達基因是很常見的□锝空間自相關性告訴我們锄弱,這些區(qū)域的基因表達會有所不同考蕾,原因很簡單,因為它們是由于本身的空間自相關特性而表現(xiàn)出差異会宪。如果不去解釋這種潛在的差異肖卧,將不可避免地導致大量假陽性觀察結(jié)果,讓那些真正在空間中表達變化的基因置于一邊掸鹅。
為了消除空間自相關性的影響塞帐,一些典型的分析決策被采用,如將spot合并成具有生物功能特征的區(qū)域(zone)進行元分析河劝。此分析下,選擇合適聚合尺度帶來了新的挑戰(zhàn)矛紫,而這些挑戰(zhàn)目前在下游分析中還沒有考慮到赎瞎。地理學的最新進展為確定 MAUP 對所選聚合尺度的影響和選擇更合適的尺度提供了方法。盡管如此颊咬,通常最合理的剖析組織區(qū)域的方法是采用一些已知的生物學方法务甥,因為根據(jù)這種生物學方式可以最好地理解所獲得的結(jié)果。然而喳篇,基因表達敞临、空間和表型之間的關系是復雜和多元的。依賴基因表達與生物學觀察之間一一的對應關系只能做假設麸澜,并不可靠挺尿。數(shù)據(jù)驅(qū)動的聚合方法在不忽視生物學的同時,可以避免這些假設炊邦,從而得出更易解釋的結(jié)果编矾。
從圖 4 中可以觀察到的一個特點是,即使在生物 "層 "內(nèi)馁害,基因的表達在相互之間也并不一致窄俏。這表明,聚類并非由不可移動的邊界所定義碘菜,cluster內(nèi)的基因表達也并非總是同質(zhì)的凹蜈。可以肯定的是忍啸,同樣的原則也適用于區(qū)域(無論是層仰坦、群還是其他區(qū)域的聚合)的邊緣。在生態(tài)學中计雌,這些邊界區(qū)域長期以來一直被稱為交錯群落缎岗,而且人們也清楚地認識到,邊界往往并不尖銳白粉,而是呈現(xiàn)出從一種表型到另一種表型的梯度传泊,從而形成過渡區(qū)鼠渺。10× Visium 等空間轉(zhuǎn)錄組學平臺的分辨率相對較低,觀察級數(shù)據(jù)已經(jīng)是約 10 個細胞的總和眷细,可能跨越不同的生物區(qū)域拦盹,這可能會放大這一現(xiàn)象(導致我們天真得認為這些區(qū)域是存在分界的)。因此溪椎,在根據(jù)包含硬邊界的空間轉(zhuǎn)錄組學觀測分類得出結(jié)論時需要謹慎普舆。
最常用的空間轉(zhuǎn)錄組學分析工具并不一定采用空間方法。雖然這種情況可能會隨著時間的推移和更方便用戶使用的工具的出現(xiàn)而改變校读,但這并不表明目前在分析這些數(shù)據(jù)時應采用 "默認的空間方法"沼侣。空間轉(zhuǎn)錄組學數(shù)據(jù)與空間息息相關歉秫。通過適當考慮空間數(shù)據(jù)有別于其他'omics'數(shù)據(jù)的特點蛾洛,能夠提高分析結(jié)果的可靠性。從地理空間數(shù)據(jù)分析領域獲得的知識表明雁芙,要充分發(fā)揮空間解析數(shù)據(jù)的威力轧膘,我們需要研究局部的生物學情況,而不是從整個數(shù)據(jù)集出發(fā)兔甘。這揭示了分析中需要考慮的空間異質(zhì)性谎碍。
數(shù)十年來,地理科學一直在研究空間數(shù)據(jù)洞焙,并因此開發(fā)了無數(shù)統(tǒng)計技術蟆淀,這些技術考慮到或積極利用空間來理解各種過程。地理加權(quán)回歸澡匪、地理加權(quán)主成分分析扳碍、空間加權(quán)聚類方法、廣義加法模型等方法都已得到廣泛探索仙蛉,并應用于一系列數(shù)據(jù)笋敞。通過采用這些方法并與開發(fā)這些方法的科學家合作,可以很容易地加強對空間解析生物分子數(shù)據(jù)的分析荠瘪。這種跨學科方法將有助于充分發(fā)揮空間轉(zhuǎn)錄組學數(shù)據(jù)分析的潛力夯巷。