最近父親住院,需要人照顧实蔽,需要資金荡碾,所以不要臉的求一發(fā)大家的支持。
目前單細胞分析而言局装,分析方向大致包括以下幾個方面坛吁,1)器官發(fā)育(這個用空間轉(zhuǎn)錄組更為合適)劳殖;2)疾病樣本,尤其是腫瘤樣本的分析研究拨脉;3)其他非模式物種的細胞圖譜哆姻。其中對于腫瘤樣本的分析,在基因組研究中CNV的分析占了很重要的一部分玫膀,CNV(Copy number variation, 拷貝數(shù)變異)是由基因組發(fā)生重排而導致的, 一般指長度為1 kb 以上的基因組大片段的拷貝數(shù)增加或者減少, 主要表現(xiàn)為亞顯微水平的缺失和重復矛缨。CNV 是基因組結構變異(Structural variation, SV) 的重要組成部分。CNV位點的突變率遠高于SNP(Single nucleotide polymorphism), 是人類疾病的重要致病因素之一帖旨。而對于單細胞轉(zhuǎn)錄組箕昭,識別腫瘤細胞和發(fā)生的CNV事件同樣重要,實際分析中解阅,也經(jīng)常用軟件來判斷腫瘤細胞落竹。當然還可以做腫瘤異質(zhì)性、克隆進化方面的探索货抄,而本篇來介紹單細胞數(shù)據(jù)的CNV分析述召。關于單細胞CNV分析,目前主流的分析軟件為inferCNV和后起的“新秀”copyCAT蟹地,本篇就從這兩個軟件著手积暖,體現(xiàn)CNV分析在單細胞研究中的重要作用。
InferCNV章節(jié)
InferCNV用于探索腫瘤單細胞 RNA-Seq 數(shù)據(jù)锈津,以確定體細胞大規(guī)模染色體拷貝數(shù)改變的證據(jù)呀酸,例如整個染色體或大段染色體的gain或loss。這是通過與一組參考“正城戆穑”細胞相比性誉,探索腫瘤基因組位置上基因的表達強度來完成的。 生成的熱圖說明了每個染色體上的相對表達強度茎杂,并且與正常細胞相比没宾,腫瘤基因組的哪些區(qū)域過度表達或更少表達通常變得很明顯狞洋。
用inferCNV判斷腫瘤細胞的CNV事件通常包括以下幾個步驟(如下圖):
1)樣本的基礎質(zhì)控和注釋锅论;
2)選擇合適的reference糠爬;
3)依據(jù)基因在染色體上的位置對基因進行排序;
4)數(shù)據(jù)處理刽脖,包括腫瘤細胞與ref的信號比較去除羞海、數(shù)據(jù)均一化處理、降低噪音等過程曲管;
5)CNV最終的預測却邓。
從分析過程中來講,inferCNV需要的輸入文件包括:表達矩陣院水、細胞注釋信息腊徙、基因在染色體上的位置信息简十。
Reference的選擇
使用inferCNV分析單細胞轉(zhuǎn)錄組,確定reference是最關鍵撬腾、也是最開始需要考慮的內(nèi)容螟蝙,如果不指定reference,那么軟件默認會把樣本中所有細胞的基因平均表達值作為“基線”來識別腫瘤細胞民傻,這種方法目前沒有文章引用胰默,原因也很簡單,混淆所有細胞作為reference饰潜,其中也包括了腫瘤細胞初坠,無法確定分析結果的準確性。所以做inferCNV最為基礎和關鍵的地方彭雾,還是前期對樣本的質(zhì)控和細胞注釋,選擇合適的reference锁保,在此基礎上才可以合理地進行inferCNV分析薯酝。
最佳的reference選擇是對應腫瘤細胞類型的正常細胞類型,也是高分文章通常的做法爽柒,例如上皮細胞癌變吴菠,那么就以正常的上皮細胞作為reference來分析腫瘤細胞的CNV事件,這樣分析的結果可靠浩村,但是有一個問題做葵,尤其對于人的腫瘤樣本,往往取不到正常的組織區(qū)域心墅,就會給CNV分析帶來不小的麻煩酿矢,有些腫瘤樣本會帶有癌旁區(qū)域,癌旁部分含有正常的細胞類型怎燥,但是在細胞解離的過程中跟腫瘤細胞混淆在一起瘫筐,后續(xù)的分析無法很好的區(qū)分,這種情況下铐姚,只能退而求其次策肝,選擇免疫細胞(T、NK等)作為reference隐绵,同時遵守一個原則之众,盡量多的選擇reference細胞類型,最大限度保證結果可信依许,在文章A single-cell and spatially resolved atlas of human breast cancers中棺禾,就將免疫和內(nèi)皮細胞最為reference來推斷腫瘤細胞的CNV事件,下圖為中設置E8細胞作為reference分析得到的CNV結果,可見選擇合適的reference會得到良好的分析結果悍手,不僅可以判斷細胞類型發(fā)生的CNV事件帘睦,也可以分析腫瘤細胞內(nèi)部的異質(zhì)性袍患。
InferCNV的算法原理
InferCNV算法的詳細步驟涉及以下內(nèi)容:
1)過濾基因:從計數(shù)矩陣中刪除那些在少于“min_cells_per_gene”中表達的基因,這一步類似于樣本質(zhì)控過程中的基因去除竣付。
2)測序深度的歸一化(總和歸一化):read counts per cell are scaled to sum to the median total read count across cells诡延。 值不是每百萬計數(shù) (cpm) 等指標,而是每中位數(shù)總和的計數(shù)(這一點區(qū)別于Seurat分析單細胞的均一化)古胆。
3)對數(shù)轉(zhuǎn)換:單個矩陣值 (x) 轉(zhuǎn)換為log(x+1)肆良,這里對數(shù)轉(zhuǎn)換的作用與Seurat分析中的相同。
4)center by normal gene expression:從對應基因的所有細胞中減去正常(參考)細胞中每個基因的平均值逸绎。 由于此減法是在對數(shù)空間中執(zhí)行的惹恃,因此這有效地導致了相對于正常細胞平均值的對數(shù)倍變化值。
5)對數(shù)倍數(shù)變化值的閾值動態(tài)范圍棺牧。 abs(log(x+1)) 超過'max_centered_threshold' (default=3) 的任何值都被設定為該值(設置了最高上限)巫糙。
6)chromosome-level smoothing:對于每個細胞,沿每個染色體排序的基因具有使用加權運行平均值擬合的表達強度颊乘。 默認情況下参淹,這是一個包含 101 個基因的窗口,具有pyramidinal weighting scheme乏悄。
7)centering cells:如果大多數(shù)基因不在 CNV 區(qū)域中浙值,每個細胞的中心表達強度中值設定為零。
8)相對于正常細胞的調(diào)整:再次從腫瘤細胞中減去正常值的平均值檩小。 這進一步補償了擬合處理后產(chǎn)生的差異开呐。
9)log轉(zhuǎn)換被還原,這使得amplification 或 deletion的證據(jù)在平均值周圍更加對稱规求。
上述就是推斷CNV分析的基本過程筐付,但是通常為了更加準確的推斷CNV事件,往往還要添加兩個步驟de-noising filters和HMMs算法颓哮。
inferCNV de-noising filters
降噪的目的是降低噪音(正常細胞中的殘余信號)家妆,同時保留腫瘤細胞中可被解釋為 CNV 的信號。
基礎分析結束后的正常信號保存在初步的 inferCNV 對象冕茅,該對象已被smoothed伤极、centered,并減去了正常(參考)細胞的平均值姨伤,如下圖:
為了確定分析得到的是真正的CNV事件哨坪,需要對腫瘤細胞的CNV信號進行檢驗,也就是降噪乍楚,inferCNV通常有三種方法處理這一過程当编。
1)可以使用“noise_filter”屬性設置與平均值的特定閾值偏差,如下圖:
如上圖徒溪,設置0.1為過濾閾值忿偷,也就是在這種情況下金顿,reference基因表達0.9~1.1以外的基因表達被判定為CNV事件,高于1.1為gain鲤桥,低于0.9為loss揍拆,這也是inferCNV默認的過濾方法。
2)動態(tài)閾值設置:可以使用“sd_amplifier”設置調(diào)整閾值茶凳。 可以使用 1.5 * reference基因表達的標準差進行過濾嫂拴,如下圖:
如前所述,低于最小閾值為loss贮喧,高于最大閾值為gain筒狠。
3)通過 sigmoidal(邏輯)函數(shù)調(diào)整強度(軟閾值):可以通過應用 sigmoidal 函數(shù)來應用過濾梯度,而不是應用嚴格的閾值箱沦,該函數(shù)可以減少接近均值的強度辩恼,而不是更遠離均值的強度,如下圖:
HMMs預測模型
目前inferCNV支持兩種基于 HMM 的 CNV 預測模型饱普,稱之為 i3 和 i6 模型运挫。每種方法都對已通過標準 inferCNV 處理的對象操作,包括減去與“正常(參考)”細胞對應的信號和smoothed操作套耕。
1)i3模型:loss、normal峡继、gain三種狀態(tài)冯袍,如前所述,大多數(shù)信號對應于normal而異常信號強度對應于CNV碾牌。
2)i6 模型:一種六態(tài) CNV 模型康愤,可預測以下 CNV 水平:
· state 1 : 0x = complete loss
· state 2 : 0.5x = loss of one copy
· state 3 : 1x = neutral
· state 4 : 1.5x = addition of one copy
· state 5 : 2x = addition of two copies
· state 6 : 3x = essentially a placeholder for >2x copies but modeled as 3x.
此外,預測的 CNV 區(qū)域使用貝葉斯網(wǎng)絡進一步分析舶吗,以計算每個細胞屬于給定狀態(tài)的 CNV 區(qū)域的后驗概率征冷。 具有高于最大閾值的平均后驗概率正常(無 CNV)的 CNV 區(qū)域作為可能的假陽性預測被移除。
InferCNV的實際運用
在腫瘤研究中誓琼,可以通過CNV預測分析區(qū)分腫瘤細胞和非惡性細胞检激。2018年紐約大學計算醫(yī)學研究所等單位的研究人員在Nature Biotechnology發(fā)表了利用單細胞和空間轉(zhuǎn)錄組研究胰腺導管癌(PDAC)異質(zhì)性的文章。為了區(qū)分癌細胞和非惡性導管細胞腹侣,該研究對PDAC-A和PDAC-B 2例單細胞數(shù)據(jù)進行了CNV預測分析叔收。發(fā)現(xiàn)PDAC-A中高表達TM4SF1(簇1)和S100A4(簇2)的兩個細胞群及PDAC-B中高表達TM4SF1的一個細胞群表現(xiàn)出拷貝數(shù)變異特征。通過免疫熒光驗證發(fā)現(xiàn)PDAC-A中TM4SF1和S100A4在惡性導管細胞中表達傲隶,PDAC-B中TM4SF1與惡性細胞標志物KRT19共定位饺律,結合CNV預測結果證實了PDAC樣本存在轉(zhuǎn)錄不同的腫瘤細胞群。
在腫瘤研究中跺株,可以通過CNV預測分析探索腫瘤的克隆進化复濒。2020年美國邁阿密大學等單位的研究人員在Nature Communications發(fā)表了利用單細胞測序研究葡萄膜黑色素瘤進化復雜性的文章脖卖。該研究對8例原發(fā)癌和3例轉(zhuǎn)移癌進行單細胞CNV預測分析,發(fā)現(xiàn)不同樣本間存在顯著的拷貝數(shù)變異差異巧颈,揭示了葡萄膜黑色素瘤潛在的腫瘤間異質(zhì)性畦木。進一步根據(jù)某個CNV在細胞中的占比構建進化樹,發(fā)現(xiàn)驅(qū)動葡萄膜黑色素瘤突變的3條進化軌跡—低度轉(zhuǎn)移腫瘤中的EIF1AX突變洛二、中度轉(zhuǎn)移腫瘤中的SF3B1突變及高度轉(zhuǎn)移腫瘤中的BAP1突變馋劈,繪制了葡萄膜黑色素瘤的進化軌跡及發(fā)展機制。
InferCNV分析的不足
1)為分析來自第一代 scRNA-seq 技術的數(shù)據(jù)而設計的晾嘶,技術具有較低的細胞通量和較高的覆蓋深度妓雾。
2)不適用于分析來自新開發(fā)的高通量 scRNA-seq 平臺(微滴和納米孔平臺)的數(shù)據(jù),這些平臺執(zhí)行全轉(zhuǎn)錄組擴增和僅在非常稀疏的覆蓋深度下對 mRNA 的 3' 或 5' 端進行測序(10X的單細胞技術具有這個特點)垒迂。
3)不能準確地解決特定染色體斷點的基因組位置或從非整倍體拷貝數(shù)譜中對腫瘤和正常細胞進行分類械姻。
CNV分析的“新貴”---copyCAT
CopyKAT 的工作流程將貝葉斯方法與層次聚類相結合(inferCNV其實也用到了層次聚類),以計算單個細胞的基因組拷貝圖譜机断,并從高通量 3' scRNA-seq 數(shù)據(jù)中定義克隆亞型楷拳。分析流程將唯一分子標識符 (UMI) 計數(shù)的基因表達矩陣作為計算的輸入。分析從每行的基因注釋開始吏奸,按照它們的基因組坐標對它們進行排序(跟inferCNV的原理一致)欢揖。執(zhí)行 Freeman-Tukey 變換以穩(wěn)定方差,然后執(zhí)行多項式動態(tài)線性建模 (DLM) 以smoothed單細胞 UMI 計數(shù)中的異常值奋蔚。下一步是檢測具有高置信度的正常細胞(reference)她混,以推斷正常 2N 細胞的拷貝數(shù)基線值(軟件CopyCAT自動檢測)。為此泊碑,將細胞細分為幾個小的聚類(層次聚類)坤按,并使用高斯混合模型 (GMM) 估計每個聚類的方差。通過遵循嚴格的分類標準馒过,具有最小估計方差的cluster被定義為“reference”臭脓。當數(shù)據(jù)只有少數(shù)正常細胞或腫瘤細胞具有接近二倍體基因組且拷貝數(shù)畸變 (CNA) 事件有限時,可能會發(fā)生潛在的錯誤分類腹忽。在這種情況下来累,CopyKAT 提供了一種“GMM 定義”模式來逐個識別二倍體正常細胞,其中假設單個細胞中基因表達的三種高斯模型的混合代表基因組gain留凭、loss和中性狀態(tài)佃扼。當處于中性狀態(tài)的基因占表達基因的至少 99% 時,細胞被定義為“normal”細胞蔼夜。
為了檢測染色體斷點(chromosome breakpoints)兼耀,整合了泊松伽馬模型和馬爾可夫鏈蒙特卡洛 (MCMC) 迭代來生成每個基因窗口的后驗均值,然后應用 Kolmogorov-Smirnov (KS) 檢驗來加入在它們之間沒有顯著差異的相鄰窗口方法。為了加快計算速度瘤运,將數(shù)千個單細胞分成clusters窍霞,找到一致的染色體斷點并將它們合并在一起,形成樣本中整個細胞群的基因組斷點的聯(lián)合拯坟。然后將每個窗口的最終拷貝數(shù)值計算為跨越每個細胞中相鄰染色體斷點的所有基因的后驗平均值但金。通過將基因重新排列到 220-kb 可變基因組bin中,進一步將得到的拷貝數(shù)值從基因空間轉(zhuǎn)換為基因組位置郁季,從而以大約 5 Mb 的分辨率獲得每個單細胞的全基因組拷貝數(shù)譜冷溃。基因組分辨率是根據(jù)整個基因組的中位相鄰基因距離(~20 kb)乘以基因窗口的大忻瘟选(25個基因)來估計的(精度高于inferCNV)似枕。然后對單細胞拷貝數(shù)數(shù)據(jù)進行層次聚類,以確定非整倍體腫瘤細胞和二倍體基質(zhì)細胞之間的最大距離年柠;但是凿歼,如果基因組距離不顯著,切換到 GMM 定義模型來逐個預測單個腫瘤細胞冗恨。最后答憔,對單細胞拷貝數(shù)數(shù)據(jù)進行聚類以識別克隆亞群并計算代表亞克隆基因型的共有譜,以進一步分析它們的基因表達差異掀抹,流程圖如下:
Copycat基因組拷貝數(shù)分辨率的理論估計
為了估計從單細胞 RNA 數(shù)據(jù)推斷出的拷貝數(shù)譜的預期分辨率虐拓,需要GRCh38 (v28) 中所有基因的 BED 文件。因為染色體 Y 不包括在拷貝數(shù)計算中傲武,只考慮了位于染色體 1-22 和染色體 X 上的基因侯嘀,它們共有 56,051 個基因。通過取基因起始位置和基因結束位置的平均值來估計單個基因的基因組中心位置谱轨。接下來,根據(jù)基因組位置對所有基因進行排序吠谢,并通過計算兩個基因中心之間的距離來估計兩個相鄰基因之間的距離土童。總的來說工坊,在整個基因組中定義了 56,028 個基因區(qū)間献汗。從染色體 1-22 和染色體 X 中,基因區(qū)間的數(shù)量如下:5,127, 3,872, 2,925, 2,430, 2,779, 2,802, 2,292, 2,189, 2,137, 3,189, 2,857, 1,279, 2,152, 2,081, 2,440, 1,133王污、2,917罢吃、1,350、795昭齐、1,300 和 2,281尿招。整個基因組中基因間隔的第一四分位數(shù)、中位數(shù)、平均值就谜、第三四分位數(shù)和最大值如下:9,430 bp怪蔑、24,532 bp、52,806 bp丧荐、58,485 bp 和 21,765,992 bp缆瓣。因為基因區(qū)間的大小分布嚴重向右傾斜,計算了中值來估計拷貝數(shù)分辨率虹统。因為需要在pipeline中的整個單細胞群中檢測到至少 7,000 個基因弓坞,所以這個數(shù)字相當于基因檢測率的中位數(shù) 7,000/56,051 ≈ 12.5%。最后车荔,將分析中的最小基因間隔計算為每個基因間隔 24,532 bp ÷ 12.5% ≈ 200 kb夸赫。使用 25 個基因窗口啟動拷貝數(shù)分析呼奢;因此,估計片段的最小大小為 200 kb × 25 = 5 Mb,用于檢測每個細胞基因組中的拷貝數(shù)事件的基因組分辨率。
Copycat分析細節(jié)
同樣地欠窒,copycat的輸入文件也需要三個:表達矩陣、注釋信息和基因位置文件,窗口的設置在25~200之間(inferCNV默認是50)腕铸,在數(shù)據(jù)處理和分析結果方面大多借鑒了inferCNV,下圖是copycat和inferCNV的分析結果比較。
從結果來看梢夯,copycat檢測的CNV與inferCNV基本一致,在細節(jié)方面copycat表現(xiàn)更好一點勤篮,尤其在斷點處基因的分析戳护,分析更加精細化梗肝。
Copycat的局限性
并非所有癌癥類型都具有可用于區(qū)分正常細胞和腫瘤細胞的非整倍體拷貝數(shù)事件柄粹。特別是崎淳,小兒癌癥和造血系統(tǒng)癌癥(例如AML和CLL)的拷貝數(shù)變化很少恨豁,因此可能不適合CopyKAT分析付呕。另一個限制是,CopyKAT主要限于基于整個基因組讀取深度的變化來檢測CNA事件潮瓶,而不能用于檢測其他有助于基因組多樣性的基因組事件,包括染色體結構重排壁袄、插入、缺失和體細胞突變逆日。此外,由于3''scRNA-seq數(shù)據(jù)的技術差異萄凤,CopyKAT無法在具有獨特基因型的單個細胞的基因組上提供可靠的拷貝數(shù)信息室抽。這使得CopyKAT更適合于分析許多細胞已擴增并具有相似基因型的腫瘤中亞克隆,而不是分析復雜細胞或極為罕見的亞群靡努。CopyKAT一個潛在問題是坪圾,當scRNA-seq數(shù)據(jù)集沒有任何腫瘤細胞時晓折,CopyKAT可能會嘗試錯誤地檢測具有最高基因表達水平的簇中的CNA事件。在這種情況下兽泄,推斷的CNA事件將與這些癌癥中已知的細胞遺傳事件不一致漓概,具體需要忽略。
寫在后面
CNV分析在單細胞腫瘤樣本中占據(jù)了重要的分析篇幅病梢,在預測基因發(fā)生的CNV事件中即表征了腫瘤內(nèi)的關鍵變化胃珍,也體現(xiàn)了瘤內(nèi)的異質(zhì)性,對于我們認識腫瘤起到了非常關鍵的作用飘千;同時也要認識到堂鲜,單細胞腫瘤樣本中的CNV推斷對于樣本前期的質(zhì)控處理有很高的要求,同時也要添加注釋信息护奈,以此為基礎來判斷CNV事件缔莲,這就要求再分析的過程一定要做好基礎分析,個性化的分析才足夠的可靠霉旗、可信痴奏。
文獻
[1] Anoop P. Patel, Itay Tirosh, et al. Single-cell RNA-seq highlights intratumoral heterogeneity in primary glioblastoma. Science. 2014 Jun 20: 1396-1401.
[2] Gao R , Bai S , Ying C H , et al. Delineating copy number and clonal substructure in human tumors from single-cell transcriptomes[J]. Nature Biotechnology, 2021:1-10.
[3] Moncada R, Barkley D, Wagner F, et al. Integrating Microarray-based Spatial Transcriptomics and Single-cell RNA-seq Reveals Tissue Architecture in Pancreatic Ductal Adenocarcinomas[J]. Nature Biotechnology, 2018, 38(3):333-342.
[4] Durante M A, Rodriguez D A, Kurtenbach S, et al. Single-cell Analysis Reveals New Evolutionary Complexity in Uveal Melanoma[J]. Nature Communications, 2020, 11(1):496.