apply函數(shù)
剛開(kāi)始接觸R語(yǔ)言時(shí)豺瘤,會(huì)聽(tīng)到各種的R語(yǔ)言使用技巧,其中最重要的一條就是不要用循環(huán)听诸,效率特別低,要用向量計(jì)算代替循環(huán)計(jì)算蚕泽。
那么晌梨,這是為什么呢?原因在于R的循環(huán)操作for和while须妻,都是基于R語(yǔ)言本身來(lái)實(shí)現(xiàn)的仔蝌,而向量操作是基于底層的C語(yǔ)言函數(shù)實(shí)現(xiàn)的,從性能上來(lái)看荒吏,就會(huì)有比較明顯的差距了敛惊。那么如何使用C的函數(shù)來(lái)實(shí)現(xiàn)向量計(jì)算呢,就是要用到apply的家族函數(shù)绰更,包括apply, sapply, tapply, mapply, lapply, rapply, vapply, eapply等瞧挤。
from http://blog.fens.me/r-apply/
常用的函數(shù)為apply和sapply
- apply函數(shù)
apply(X, MARGIN, FUN, ...)
其中
- X:數(shù)組、矩陣儡湾、數(shù)據(jù)框
- MARGIN: 按行計(jì)算或按按列計(jì)算特恬,1表示按行,2表示按列
- FUN: 自定義的調(diào)用函數(shù)
計(jì)算一個(gè)稍微復(fù)雜點(diǎn)的例子徐钠,按行循環(huán)癌刽,讓數(shù)據(jù)框的x1列加1,并計(jì)算出x1,x2列的均值。
# 生成data.frame
# 生成data.frame
> x <- cbind(x1 = 3, x2 = c(4:1, 2:5))
> x
x1 x2
[1,] 3 4
[2,] 3 3
[3,] 3 2
[4,] 3 1
[5,] 3 2
[6,] 3 3
[7,] 3 4
[8,] 3 5
> # 自定義函數(shù)myFUN显拜,第一個(gè)參數(shù)x為數(shù)據(jù)
> # 第二衡奥、三個(gè)參數(shù)為自定義參數(shù),可以通過(guò)apply的'...'進(jìn)行傳入远荠。
> myFUN<- function(x, c1, c2) c(sum(x[c1],1), mean(x[c2]))
> y<-apply(x,1,myFUN,c1='x1',c2=c('x1','x2'))
> y
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 4.0 4 4.0 4 4.0 4 4.0 4
[2,] 3.5 3 2.5 2 2.5 3 3.5 4
# 把數(shù)據(jù)框按行做循環(huán)杰赛,每行分別傳遞給myFUN函數(shù),設(shè)置c1,c2對(duì)應(yīng)myFUN的第二矮台、三個(gè)參數(shù)
> apply(x,1,myFUN,c1='x1',c2=c('x1','x2'))#c1,c2分別為y的兩行
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 4.0 4 4.0 4 4.0 4 4.0 4
[2,] 3.5 3 2.5 2 2.5 3 3.5 4
- 用apply語(yǔ)句對(duì)測(cè)序數(shù)據(jù)進(jìn)行批量ttest或wilcox test
data<-read.table(file="genus-crc&ctrl.csv",sep = ",",header = T,stringsAsFactors = F,)
head(data)
dim(data)
rownames(data)=data[,1]#設(shè)置行名
rownames(data)=data$Genus
data_1=data[,-1]#去掉第一列
head(data_1)
pvalue=apply(data_1,1,function(x) t.test(x[1:11],x[12:21])$p.value)
##批量t檢驗(yàn)
pvalue_wilcox=apply(data_1,1,function(x) wilcox.test(x[1:11],x[12:21],exact = F)$p.value)
##批量wilcox檢驗(yàn)乏屯,樣本量比較小的時(shí)候,相應(yīng)pvalue只能通過(guò)查表近似得到瘦赫,所以不能得到精確的pvalue.所以要加上【exact=F
head(pvalue)
write.table(pvalue,file = "pvalue-1.txt",sep = "\t",quote=F)
data_1$P=pvalue#在原表格中加入p值
head(data_1)
data_1$Genus=rownames(data)#將種屬名稱作為一列新的數(shù)據(jù)添加回去
write.table(data_1,file = "genus-crc&ctrl-c.txt",sep = "\t",row.names = F)#注意不保存row.name