今天學(xué)習(xí)使用tidry包
tidry包是何方神圣
功能
tidry包是把需要用的數(shù)據(jù)處理成標(biāo)準(zhǔn)而統(tǒng)一的數(shù)據(jù)框
(1)數(shù)據(jù)框的變形
(2)處理數(shù)據(jù)框中的空值
(3)根據(jù)一個(gè)表格衍生出其他表格
(4)實(shí)現(xiàn)行或列的分割和合并
1溯泣、新建數(shù)據(jù)框
a<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))
代碼解釋
rep叠聋,重復(fù)悲酷,括號(hào)中填要重復(fù)的字符和重復(fù)次數(shù)气嫁。
paste件豌,連接兩個(gè)字符串掰伸,括號(hào)要填兩個(gè)待連接字符并指定分隔符(sep)站辉,沒有分隔符就填sep=“”。
1:3表示從1到三兑巾。如需一列中需要填入三個(gè)無規(guī)律的數(shù)字条获,可以用向量c(1,3蒋歌,4)帅掘,同樣如果填的是字符串也需要加雙引號(hào),例如c("doudou","huahua","xiaoyu")堂油。
了解概念:key-value--“鍵值對(duì)” 修档,表示一種對(duì)應(yīng)關(guān)系〕剖“鍵”和“值”都是列名萍悴,如SampleName和Expression的對(duì)應(yīng)头遭。
函數(shù)后面一般都要加括號(hào)寓免,括號(hào)里第一個(gè)參數(shù)是都數(shù)據(jù)框名
字符串要加雙引號(hào)(行名和列名也是字符串,但是可以不用加)计维,其他單元格(姑且這么叫了)里出現(xiàn)的字符串要加袜香。
行 raw
列 column,簡(jiǎn)化寫法為col
gather函數(shù)
使用前代碼
pin2<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))
gather(pin2,GeneId,SampleName,Expression)
在處理表格時(shí)會(huì)遇到NA值鲫惶,對(duì)于NA怎么辦呢蜈首?
三種處理方式:
(1).刪除整行 drop_na(X,X2)#括號(hào)里填數(shù)據(jù)框名,依據(jù)的列名(有空值那一列的列名)
(2).根據(jù)上下文蒙一個(gè) fill(X,X2)
(3).同一列的空值填上同一個(gè)數(shù)。replace_na(X,list(X2=2)) #括號(hào)里填數(shù)據(jù)框名欢策,要填的列名=要填的值
separate函數(shù)
separate:按列分割
separate_rows:按行分割
unite:分割完了再合并回去
代碼
separate(pin2,Expression,into=c("a","b"))#pin2表格的Expression分割成a吆寨,b
separate_rows(pin2,Expression)#pin2按照行分割
unite(pin2,a,b,col="Expression",ser="")#將分割的a,b重新合并成Expression