背景介紹
最近愧旦,一位師兄問(wèn)我有哪些輸出單細(xì)胞大數(shù)據(jù)矩陣的方法跌造,于是趁機(jī)整理了一下我平時(shí)遇到的保存單細(xì)胞矩陣的有關(guān)腳本跟磨,總共有四個(gè)方法间聊,分別保存為csv.gz、loom抵拘、h5和10X矩陣目錄的四種格式哎榴。
方法一 保存為csv.gz文件
雖然write.table系列函數(shù)也能保存為csv文件,但是對(duì)于大數(shù)據(jù)寫入和讀入都太慢了,而data.table包的fread和fwrite則相關(guān)更快尚蝌,功能也更強(qiáng)大迎变。
以Seurat自帶的數(shù)據(jù)集pbmc_small為例,保存矩陣的腳本如下:
library(Seurat)
library(data.table)
fwrite(data.table(as.matrix(pbmc_small@assays$RNA@counts),keep.rownames=TRUE),'pbmc_small.csv.gz',sep=',',quote=F,compress = 'gzip',row.names=F,col.names=T)
讀入矩陣腳本如下:
mat <- fread('pbmc_small.csv.gz',sep=',')
方法二 保存為loom文件
這是從SCENIC的流程中學(xué)到的方法飘言,開發(fā)人員專門寫了一個(gè)SCopeLoomR包衣形,據(jù)說(shuō)保存的大矩陣較快而且比較省內(nèi)存。
保存腳本如下:
library(Seurat)
library(SCopeLoomR)
label1 <- 'pbmc_small'
assay <- 'RNA'
outloom <- paste0(label1,".loom")
build_loom(file.name = outloom,dgem = pbmc_small@assays[[assay]]@counts)
讀入腳本如下:
loom <- open_loom(file.path = outloom, mode = "r+")
mat <- get_dgem(loom)
close_loom(loom)
方法三 保存為h5文件
這是再平時(shí)分析中發(fā)現(xiàn)保存h5文件比csv文件省很多空間姿鸿,因此專門整理了一下谆吴。
保存腳本如下:
library(Seurat)
library(rhdf5)
mat <- as.matrix(pbmc_small@assays$RNA@counts)
h5createFile("pbmc_small.h5")
h5createGroup("pbmc_small.h5","group")
h5write(mat, "pbmc_small.h5", "group/matrix")
h5write(rownames(mat), "pbmc_small.h5", "group/rownames")
h5write(colnames(mat), "pbmc_small.h5", "group/colnames")
h5closeAll()
讀入腳本如下:
h5_file= H5Fopen("pbmc_small.h5")
mat <- h5_file$group$matrix
rownames(mat) <- h5_file$group$rownames
colnames(mat) <- h5_file$group$colnames
H5Fclose(h5_file)
方法四 保存為10X矩陣目錄
相信大家做單細(xì)胞分析對(duì)10X矩陣目錄下的三個(gè)文件都不陌生,可以使用DropletUtils保存矩陣為10X矩陣目錄苛预。
保存腳本如下:
out <- pbmc_small@assays$RNA@counts
DropletUtils:::write10xCounts("./pbmc_small_matrix", out,version="3")
讀入矩陣如下:
mat <- Read10X("./pbmc_small_matrix")
總結(jié)與討論
csv文件可讀性好句狼,但是太占存儲(chǔ)空間了,而loom和h5文件則能極大壓縮矩陣文件热某,但可讀性較差腻菇,而發(fā)文章一般需要上傳矩陣,用小文件可能上傳更方便一些昔馋,而10X矩陣目錄格式是單細(xì)胞中比較泛用的格式筹吐。當(dāng)然最終保存為哪種格式,得實(shí)際情況實(shí)際分析秘遏。