如何科學選擇單細胞分析軟件呢邪铲?

作者:Holiday
審稿:童蒙
編輯:amethyst

引言

對不同技術和實驗平臺產生的各種各樣的單細胞測序數(shù)據(jù)進行深入的比較疲憋,在目前看來,仍然存在著一定的難度迅腔。這篇文章主要利用不同平臺獲取的數(shù)據(jù)装畅,通過選擇和比較不同的分析方法,最終為得到準確生物學解釋算法提供指導沧烈。使用兩種背景明確的細胞樣本(乳腺癌細胞和B細胞)掠兄,采取單獨捕獲以及群體捕獲的方法,在多個中心使用不同的單細胞平臺獲取的單細胞樣本數(shù)據(jù)锌雀,最終一共獲取24個數(shù)據(jù)集蚂夕。之后,對多種不同的預處理方法腋逆、標準化方法婿牍,批次效應矯正方法分別進行評估,來看各種方法對數(shù)據(jù)集的處理效果惩歉。

研究背景

研究對象

選擇來自同一個人的不同細胞類型:B細胞和乳腺癌細胞等脂,使用不同的平臺進行單獨捕獲和混細胞捕獲。


使用多種單細胞平臺和多個測序中心

四種單細胞平臺:

  • 10X
  • Fluidigm C1 HT
  • Fluidigm C1
  • ICELL8

四個測序中心:

  • Loma Linda University (LLU),
  • the National Cancer Institute (NCI)
  • the US Food and Drug Administration (FDA)
  • Takara Bio USA (TBU)

測序結果

所有樣品的測序結果如下:


其中每列為:
平臺:不同的單細胞平臺撑蚌;
文庫:建庫的文庫類型上遥,分別有3'文庫和全長文庫;
sampleID:樣本編號争涌,使用下劃線鏈接粉楚,第一組信息為單細胞平臺,第二組信息為測序中心亮垫,第三組信息為細胞類型(A->癌細胞模软,B->B細胞系,Mix->混合樣本)饮潦;
細胞類型:B細胞燃异,癌細胞,或者使用5%癌細胞+95%B細胞继蜡;
測序儀:測序儀類型特铝;
測序讀長:樣本的測序長度暑中;
細胞數(shù):測序后捕獲到的細胞數(shù)量;
單細胞內reads中值:每個細胞中獲取到的reads的中位數(shù)鲫剿。

測評流程

對預處理流程鳄逾、標準化方法、批次效應鑒定以及生物學意義等方面進行全面的測評灵莲,流程圖如下:


結論

預處理效果評估

預處理流程分為10X文庫和非10X文庫的處理雕凹,如上圖所示:


10X文庫的預處理流程效果


圖a是不同軟件處理后得到的細胞數(shù),橫坐標為樣本名政冻,縱坐標為細胞數(shù)枚抵;
圖b是不同軟件處理后的單細胞中表達的基因數(shù)量,橫坐標為樣本名明场,縱坐標為單個細胞中檢測到的基因數(shù)量汽摹;
圖c是兩兩軟件相關性圖。

結論:

  1. CellRanger軟件在細胞數(shù)量鑒定中最為靈敏苦锨;
  2. UMI-tools和zUMIs軟件過濾掉比較多的基因表達量低等細胞逼泣,但是獲取到的基因數(shù)量最多的;
  3. UMI-tools和zUMI軟件相關性比較高舟舒。

最終選用Cell Range 3.1 處理10X文庫(UMI-文庫)進行后續(xù)分析拉庶。

非10X文庫的預處理流程效果


圖d是不同軟件處理非10X文庫得到的單細胞中的表達基因數(shù)量,橫坐標為樣本名(其中由C1_LLU和ICELL8的均為全長轉錄組文庫)秃励,縱坐標為表達基因數(shù)量氏仗;
圖e是兩兩軟件之間的相關性。

結論:
三個流程處理后的數(shù)據(jù)差異比較大夺鲜,其中featureCounts和RSEM流程相關性較高皆尔;
全長轉錄組文庫鑒定到的基因數(shù)相對3’文庫要更多。

標準化流程效果評估


使用8種方法進行標準化處理币励,使用Sihouette指標進行評估床佳,用于評估聚類效果。

使用14個數(shù)據(jù)集(B細胞或者癌細胞樣本)進行標準化處理流程的評估榄审,如上圖。
a-g分別表示不同數(shù)據(jù)集的結果杆麸,橫坐標為未處理和不同標準化流程搁进,縱坐標為Sihouette score。

結論:
TMM和quantitle結果最差昔头,不建議使用饼问;
Sctreansform 流程處理后的數(shù)據(jù)方差最小。

批次效應處理效果評估

一共使用7種算法處理批次效應揭斧,從兩個維度(clusterability和mixability)進行評估莱革。

分別使用:
1)20個數(shù)據(jù)集:評估算法/軟件的clusterability峻堰;
2)10X 癌細胞文庫 :評估算法/軟件的mixability;
3)10X B細胞文庫:評估算法/軟件的mixability盅视;
4)10X 混合細胞文庫:評估算法/軟件的clusterability捐名。
其中:
clusterability:聚類程度,不同的細胞類型是否能夠很好的區(qū)分開闹击;
mixability:混合程度镶蹋,不同批次的相同細胞類型是否能夠聚類到一起。

clusterability評估聚類效果

圖a,d 分別表示20個數(shù)據(jù)集以及10X混樣數(shù)據(jù)集去除批次效應的結果赏半。其中贺归,不同顏色表示不同的樣本,最坐標的ideal為理想的聚類結果断箫。圖e是不同軟件處理20個數(shù)據(jù)集數(shù)據(jù)的結果(對應上面的圖a)拂酣;圖f是不同軟件處理10X混合樣本數(shù)據(jù)的結果(對應上面的圖d)。橫坐標為不同軟件仲义,Uncorrected為未處理數(shù)據(jù)的結果婶熬,縱坐標為Sihouette score,score越高表示該方法的批次效應處理效果越好光坝。

結論:
BBKNN尸诽,Harmony,fastMNN 在20個數(shù)據(jù)集中去除批次效應結果較好;
10X數(shù)據(jù)中BBKNN處理效果最好盯另,其次是Seurat 3性含;
limma和ComBat在兩個數(shù)據(jù)集中的表現(xiàn)均不是很優(yōu)秀。

mixability評估聚類效果

圖b為不同軟件對10X -乳腺癌細胞文庫去除批次效應后的結果鸳惯;圖c為不同軟件處理10X-B細胞文庫去除批次效應后的結果商蕴;圖g為不同軟件處理10X-乳腺癌細胞文庫去除批次效應后的sihouette score;圖h為不同軟件10X-B細胞文庫去除批次效應后的sihouette score芝发。

結論:
Harmmony和Seurat的表現(xiàn)較優(yōu)
BBKNN在B細胞上表現(xiàn)更優(yōu)
limma和Combat在B細胞中的去除批次效應效果更優(yōu)

整體評估結果

綜合評估各個算法/軟件的處理效果:

使用四個評估指標對單細胞處理流程中的三個步驟(數(shù)據(jù)預處理绪商,標準化和批次效應處理)進行評估,點越大表達該方法越好辅鲸。

總結

該文章總結出了一個指導方案格郁,如下圖:

如何選擇預處理流程?
如果是UMI-文庫独悴,使用zUMIs例书,CellRanger進行數(shù)據(jù)預處理,如果是非UMI文庫則使用kallisto等算法刻炒。

如何選擇標準化處理流程决采?
不推薦使用TMM和quantile,其余4種算法可以依次進行選擇坟奥。

如何選擇批次效應處理流程树瞭?
1.如果樣本特征比較相似拇厢,推薦使用Seurat3、Harmony晒喷、astMNN孝偎,如果是10X文庫,也可以使用Scanorama厨埋;

2.如果樣本間有共有的細胞類型(例如不同批次的5%癌細胞和B細胞)則選擇Harmony邪媳、fastMNN、Seurat3荡陷,如果是10X文庫雨效,也可以使用Scanorama;

  1. 如果樣本間的細胞類型差異比較大(例如分別是B細胞或者是癌細胞)則使用BBKNN废赞,Harmony徽龟,不推薦使用Seurat3。

參考文獻

Chen, W., Zhao, Y., Chen, X. et al. A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples. Nat Biotechnol (2020). (https://doi.org/10.1038/s41587-020-00748-9

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末唉地,一起剝皮案震驚了整個濱河市据悔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌耘沼,老刑警劉巖极颓,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異群嗤,居然都是意外死亡菠隆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門狂秘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來骇径,“玉大人,你說我怎么就攤上這事者春∑葡危” “怎么了钱烟?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵晰筛,是天一觀的道長。 經常有香客問我拴袭,道長读第,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任稻扬,我火速辦了婚禮,結果婚禮上羊瘩,老公的妹妹穿的比我還像新娘泰佳。我一直安慰自己盼砍,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布逝她。 她就那樣靜靜地躺著浇坐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪黔宛。 梳的紋絲不亂的頭發(fā)上近刘,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音臀晃,去河邊找鬼觉渴。 笑死,一個胖子當著我的面吹牛徽惋,可吹牛的內容都是我干的案淋。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼险绘,長吁一口氣:“原來是場噩夢啊……” “哼踢京!你這毒婦竟也來了?” 一聲冷哼從身側響起宦棺,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤瓣距,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后代咸,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蹈丸,經...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年侣背,在試婚紗的時候發(fā)現(xiàn)自己被綠了白华。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡贩耐,死狀恐怖弧腥,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情潮太,我是刑警寧澤管搪,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站铡买,受9級特大地震影響更鲁,放射性物質發(fā)生泄漏。R本人自食惡果不足惜奇钞,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一澡为、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧景埃,春花似錦媒至、人聲如沸顶别。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽驯绎。三九已至,卻和暖如春谋旦,著一層夾襖步出監(jiān)牢的瞬間剩失,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工册着, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留拴孤,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓指蚜,卻偏偏與公主長得像乞巧,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子摊鸡,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容