2018-07-19每日文獻:Panoramic stitching of heterogeneous single-cell transcriptomic data
Abstract
作者提出了一種工具恒削,Scanorama ,利用了全景拼接的算法贡这,將來源于不同技術的單細胞的datasets進行整合。
使用的數(shù)據(jù)集:105476 cells from 26 scRNA-seq experiments across 9 different technonlogies to make a single comprehensive reference.
Data and code availability
http://cb.csail.mit.edu/cb/scanorama/
https://github.com/brianhie/scanorama
Main text
文中提到:
Seurat CCA 和 MNN 假設兩個數(shù)據(jù)集之間至少有一種相同的cell type狠角, 或者基因表達譜具有相同的相關結構(证逻??),因此限制了使用颊艳。
Scanorama 跟圖像拼接類似,也是根據(jù)兩個數(shù)據(jù)集overlap的區(qū)域來進行batch-correction 和intergration忘分。 優(yōu)勢:能夠保留數(shù)據(jù) specific population棋枕,也不需要所有的dataset share相同的cell type。信息的丟失??
利用mutual nearest neighbors matching 妒峦,主要能夠?qū)ふ覂蓚€數(shù)據(jù)集的相似部分重斑,而不是整個大數(shù)據(jù)中的相似部分。MNN 肯骇,針對多于兩個datasets的比對窥浪,先選擇一個作為reference,之后將其他的datasets和這個datasets做integrate笛丙,所以整合的效果很看重數(shù)據(jù)的順序
Scanorama 的兩個關鍵性步驟:1.使用SVD(singular value decomposition) 將高維的數(shù)據(jù)降維漾脂。2.基于超敏感局部敏感散列和隨機投影樹來構建近鄰法,節(jié)約時間胚鸯。
接下來骨稿,使用模擬和真實的數(shù)據(jù)集進行模擬,真實的數(shù)據(jù)集包括:293T cell and Jurkat cells,HSC data姜钳,pancreas data坦冠,105476 cells dataset.
文章重點強調(diào):1.相同的細胞類型能merge在一起,2.保留數(shù)據(jù)集獨特的細胞哥桥。3.根據(jù)alignment genes來監(jiān)控兩個數(shù)據(jù)的比對辙浑。4.運行速度快。十萬細胞只需要25分鐘(10核拟糕,384GB RAM)判呕。
疑問:
1.可以嘗試使用它來做整個物種數(shù)據(jù)的大圖倦踢,數(shù)據(jù)的整合可以用,但是對于其normalization的方法以及是否能夠找markers存在疑問佛玄。
2.好奇它與MNN 之間的差異硼一,都是使用mutual nearest neighbor,區(qū)別到底在哪里梦抢?般贼?
需要嘗試使用