R語言實戰(zhàn)
第二章 創(chuàng)建數(shù)據(jù)集
1.數(shù)據(jù)集的概念:
數(shù)據(jù)集通常是由數(shù)據(jù)構(gòu)成的一個矩形數(shù)組,行表示觀測并齐,列表示變量舷蒲。
2.數(shù)據(jù)結(jié)構(gòu):
2.1 向量
函數(shù)c( )可用來創(chuàng)建向量。單個向量中的數(shù)據(jù)必須相同類型或相同模式(數(shù)值型混驰、字符型或邏輯型)。
2.2 矩陣
可通過函數(shù)matrix( )創(chuàng)建矩陣。一般使用格式為:
mymatrix<-matirx(vector,nrow=number_of_rows,ncol=number_of_columns,
byrow=logical_value,dimname=list(
char_vector_rowname,char_vector_colnames))
2.3 數(shù)組
通過函數(shù)array( )創(chuàng)建栖榨。形式如下:
myarray<-array(vector,dimensions,dimnames)
2.4 數(shù)據(jù)框
2.4.1 可以通過data.frame創(chuàng)建:
mydata<-data.frame(col1,col2,col3,...)
#其中col1昆汹、col2、col3可以是任何類型婴栽。
2.4.2 選取數(shù)據(jù)框中的元素
attach( )满粗、detach( )、和with( )
attach( )可將數(shù)據(jù)框添加到R的搜索路徑中居夹。detach( )則是將數(shù)據(jù)框從搜索路徑中移除败潦。
2.5 因子
factor( )
diabetes<-c("type1","type2","type1","type1")
要表示有序型變量,需要為函數(shù)factor( )指定參數(shù)ordered=TURE准脂。
2.6 列表
list( )
3.數(shù)據(jù)的輸入
常用的有:read.csv( )劫扒,read.table,參數(shù)有如下:
header:一個表示文件是否在第一行包含了變量名的邏輯型變量狸膏。
sep:分隔符沟饥。默認值是sep=" ",表示空格分隔湾戳。sep=","用于讀取用逗號分隔行內(nèi)數(shù)據(jù)的文件贤旷,sep="\t",用于讀取.table文件砾脑。
row.names:行名
col.names:列名
na.strings:缺失值的字符向量
colClasses: 每一列的類型
quote: 用于對有特殊字符的字符串劃定界限的字符串幼驶。默認值是雙引號或單引號。
skip:讀取數(shù)據(jù)前跳過的行的數(shù)目韧衣。
stringsAsFactors:字符是否需要轉(zhuǎn)換成因子盅藻。
text:指定文件進行處理的字符串。(需要進一步學(xué)習(xí))
mydata1<-read.csv("data.csv",skip=3,as.is=T,na.strings=c( ))
mydata2<-read,table("data2.csv",header=T,row.names="ID",sep=",")
小結(jié)
本章主要是掌握常見數(shù)據(jù)結(jié)構(gòu)畅铭,以及數(shù)據(jù)框中參數(shù)的使用氏淑。讀取文件數(shù)據(jù)是遇到問題該如何解決。
筆記參考R語言實戰(zhàn)(第2版)