在進行一些數(shù)據(jù)分析是經(jīng)常會需要將一個數(shù)據(jù)對象轉化為矩陣,以及稀疏矩陣(sparse matrix)和稠密矩陣之間的互化已骇。
問題&報錯
在R環(huán)境中颤陶,用的非常普遍的函數(shù)就是as.matrix()
,但是臀栈,當轉化的稀疏矩陣對象非常巨大的時候,例如細胞數(shù)目非常多的單細胞數(shù)據(jù)玫锋,R就會報如下類似的錯誤:
Error in asMethod(object) :
Cholmod error 'problem too large' at file ../Core/cholmod_dense.c
原因&解決
這是因為as.matrix這個函數(shù)本身不支持大體量的稀疏矩陣轉換為稠密矩陣(也就是我們常規(guī)的矩陣)蛾茉,但如果采取用高級語言(例如R或python)循環(huán)填進去的方法的話,極其耗費資源撩鹿,所以可以選擇直接修改該函數(shù)的底層C++語言谦炬,來解決這個問題:
library(Rcpp)
Rcpp::sourceCpp(code='
#include <Rcpp.h>
using namespace Rcpp;
// [[Rcpp::export]]
IntegerMatrix asMatrix(NumericVector rp,
NumericVector cp,
NumericVector z,
int nrows,
int ncols){
int k = z.size() ;
IntegerMatrix mat(nrows, ncols);
for (int i = 0; i < k; i++){
mat(rp[i],cp[i]) = z[i];
}
return mat;
}
' )
as_matrix <- function(mat){
row_pos <- mat@i
col_pos <- findInterval(seq(mat@x)-1,mat@p[-1])
tmp <- asMatrix(rp = row_pos, cp = col_pos, z = mat@x,
nrows = mat@Dim[1], ncols = mat@Dim[2])
row.names(tmp) <- mat@Dimnames[[1]]
colnames(tmp) <- mat@Dimnames[[2]]
return(tmp)
}
as_matirx() #接下來調用即可
PS,如果數(shù)據(jù)是浮點型需要把上述的IntegerMatrix
替代為NumericMatrix
节沦,不然會強制轉化為整型的矩陣键思。
構建稀疏矩陣
此外,如果需要將稠密矩陣轉化成為稀疏矩陣甫贯,方法很多吼鳞,介紹一種使用
library("Matrix")
dg <- as(matrix_object,"dgCMatrix")
具體關于構建和解釋稀疏矩陣,可以參照:https://blog.csdn.net/jeffery0207/article/details/122507934
題外
最后叫搁,其實如果不想這么麻煩赔桌,又不想去sample隨機取樣縮減數(shù)據(jù)量,大家也不用那么死板渴逻,那就先把大矩陣拆分成幾個小的疾党,轉完之后再合并就行了,效果是一樣的裸卫,不是非得一次性轉完才算好仿贬,曲線救國的方式很多,bug自然就消失了墓贿。