【轉載】自 PLOB單細胞RNA測序方案比較
目前,隨著單細胞RNA測序技術(scRNA)的成熟死相,新的測序方案不斷出現(xiàn)。那么咬像,各種技術平臺的性能如何呢算撮?優(yōu)缺點有哪些呢?如何根據(jù)我們的研究目的選擇合理的單細胞RNA測序技術呢县昂?
本文系統(tǒng)的比較了6種主流的單細胞RNA測序方法:CEL-seq2, Drop-seq, MARS-seq, SCRBseq, Smart-seq和Smart-seq2肮柜,從而為我們合理的選擇技術平臺驮捍、設計實驗方案提供參考姿鸿。
scRNA測序方法介紹
6種測序方法都是通過捕獲mRNA的3`段polyA進行反轉錄褂傀、擴增搓蚪、建庫和測序歉胶。
單獨介紹單細胞測序方法
NGS原理- 單細胞轉錄組測序-介紹CEL-seq2, Drop-seq, SCRBseq, Smart-seq
主要的區(qū)別在于Smart-seq/C1和Smart-seq2為基于full length的測序方案椅邓,而其余的四種為基于unique molecular identifiers (UMIs)的測序方案状知;
其中采转,前者對整條轉錄本進行測序耙箍,后者僅對轉錄本的一段序列進行測序
實驗材料
583個小鼠的胚胎干細胞(mESCs)撰糠,該細胞培養(yǎng)于有兩種抑制劑的環(huán)境中,從而獲得一致性相對較好的細胞群體辩昆。
同時阅酪,建庫時添加已知濃度的92種外源RNA分子(External RNA Control Consortium,ERCCs)。對每一種技術术辐,進行兩次重復建庫砚尽。
結果分析
1)QC
首先,作者對各個平臺的測序質量進行評估辉词。從比對率來看必孤,6個平臺均超過了50%;且對于全長的測序方案而言瑞躺,smart-seq有30%敷搪,smart-seq2有48%的reads比對到了外顯子區(qū)域。
對于UMI模型的平臺幢哨,外顯子區(qū)域的reads比例則低于15%(下圖);表明full length和UMI模型的測序有較大的差異赡勘。
對測序深度的評估主要采用下抽樣的飽和度分析,結果表明當reads number>100萬時捞镰,可以達到飽和闸与,與其他的研究結果一致(下圖)。
Commet: 我個人覺得1M reads達到飽和還是有點困難曼振,
橫軸如果放到10Mreads几迄,還能體現(xiàn)出飽和的曲線,這樣才可靠一些冰评。
目這樣看映胁,起碼SCRB-seq,Drop-seq明顯沒有飽和甲雅,說達到還是不太合適的
有空會補充一下這方面東西看看解孙。
2)敏感度評估
在單細胞RNA測序中,一個主要的問題就是drop out效應抛人;所謂drop out效應弛姜,就是細胞中實際有某基因的表達但是檢測結果為零表達。
因此妖枚,單細胞測序評估對基因表達(mRNA)的捕獲效率廷臼,即敏感度(sensitivity),是一個重要的技術指標绝页。
通常敏感度的評估指對相同的實驗材料在相同的測序深度下荠商,單個細胞檢測的基因表達數(shù)量。
結果表明,Smart-seq2的敏感度最高(中位數(shù)9,138/cell)续誉,Drop-seq和MARS-seq的敏感度最低莱没,中位數(shù)分別為4,811/cell 和 4,763/cell(下圖)。
還沒看原文酷鸦,測序深度設定多少
為了評估在多個細胞中檢測到的基因總數(shù)差異饰躲,對每種方法將65個細胞的reads合在一起分析牙咏,結果發(fā)現(xiàn)19000個基因 for CEL-Seq2/C1, 17000 for MARS-seq, 18000 for Drop-seq、SCRB-Seq, 20000 for Smart-seq/C1, 21000 for Smart-seq2嘹裂;
同時發(fā)現(xiàn)妄壶,大部分的基因(13000)可以被6種方法檢測到,但是full length特異性的基因數(shù)目(1000)要大于3`段特異性基因的數(shù)目(300)焦蘑。同時表明盯拱,總的檢測細胞數(shù)目與基因數(shù)成正比(下圖)盒发。
3)scRNA-Seq的準確度評估
為了評估各個方法對基因表達定量的準確性(Accuracy)例嘱,對92個外源的ERCC轉錄本,采用線性模型擬合了觀測的表達值(counts per million or UMIs per million)與已知的濃度的相關系數(shù)(R2)宁舰;
結果表明拼卵,各個方法的相關系數(shù)均較高,從0.83 (MARS-seq) 到 0.91 (Smart-seq2)不等蛮艰,但是Kruskal-Wallis檢驗表明各個方法之間有顯著的差異(p < 2.2e16)(下圖)腋腮。
4)基因擴增的精確度評估
所謂Precision,可以簡單的認為基因表達水平估計的重現(xiàn)率壤蚜。由于本實驗的細胞和條件的一致性即寡,因此各個方法得到結果差異理論上均來源于技術差異(technical variation),而非生物學差異(biological variation)袜刷。
單細胞的技術差異主要來源于兩個方面:捕獲時的drop out效應以及擴增時的偏好性聪富。這里,有13,361個基因在25%的細胞中被至少一種方法檢測到了表達著蟹,然后挑選65個細胞對這些基因進行分析墩蔓。
dropout分析發(fā)現(xiàn),MARS-seq具有最高的中位dropout概率(74%)萧豆,而Smart-seq2則最低(26%)奸披,這也與之前的敏感度分析結果一致(下圖)
而對擴增的變異系數(shù)分析發(fā)現(xiàn),如果以reads來定量涮雷,則smart-seq2的變異系數(shù)最姓竺妗;而如果采用UMI定量洪鸭,則可以顯著的減少變異系數(shù)(下圖)样刷,表明UMI技術在定量的準確性上更具有優(yōu)勢。
5)綜合效能(power)的評估
為了評估各個方法對差異基因發(fā)現(xiàn)的效能(power),作者通過模擬的方法使兩組細胞的13,361個基因中的5%有表達差異卿嘲,然后采用limma進行差異分析颂斜,并計算真陽性率(TPR)和假陽性率(FPR)。
首先評估細胞數(shù)量對TPR和FPR的影響(每個細胞100萬條reads),結果見下圖拾枣,表明每組的細胞數(shù)>64后真陽性率開始比較穩(wěn)定沃疮。
繼而盒让,在64 cell/group和100萬 reads/cell的條件下,分別比較了基于reads 和UMI的差異分析司蔬,結果表明smart-seq2在基于reads的條件下有最好的結果邑茄,而其他的方法采用UMI 則效果也會有較大的提升。
而對100萬的reads下抽樣至50萬和25萬也表明隨著reads數(shù)的下降俊啼,真陽性率也降低(下圖)肺缕。
6)性價比評估
基于各個技術的敏感度、準確度授帕、精確度和效能同木,我們可以選擇合適的技術平臺。但是彤路,測多少細胞,測多少reads芥映,仍有一個重要的考量,就是實驗成本奈偏。
作者統(tǒng)計了6種方法的單價(下表)【矗總之丽涩,實驗方案的設計需要同時考慮技術和成本問題唁盏,當然,土豪可以忽略錢厘擂。
總結
單細胞RNA研究中考慮的三個主要問題是:1)full length 還是UMI 昆淡?2)cell number;3)sequencing reads number刽严。其主要是根據(jù)我們的研究目的而定昂灵。
目前來看,細胞圖譜類的研究由于要測大量的細胞(>10,000),因此常采用UMI的方法(drop-seq)舞萄,測序深度約為100萬 reads/cell眨补;該類研究主要是細胞分類和marker基因的鑒定,因此UMI的信息是足夠的倒脓。
而對于其他的研究撑螺,如果想獲得更多的信息,則采用smart-seq2的全長模式比較合適崎弃,建議測序深度加高甘晤,以便可以得到如lncRNA含潘、miRAN和可變剪接(Alternative Splice)等更多的生物信息。
參考文獻:
Ziegenhain C, Vieth B, Parekh S, et al. Comparative Analysis of Single-Cell RNA Sequencing Methods[J]. Molecular Cell, 2017, 65(4):631-643.e4.