2016.12.31~2017.01.01
開始學(xué)習(xí)R語言 計劃利用元旦3天假期學(xué)完《R語言實戰(zhàn)》1~7章
粗略學(xué)習(xí)繪圖有關(guān)的章節(jié)、重點(diǎn)掌握數(shù)據(jù)統(tǒng)計方法
第1章 R語言介紹
1.1 介紹
本章內(nèi)容
- R的安裝
- 熟悉R語言
- 運(yùn)行R程序
1.2 為何要用R
(1) 處理同領(lǐng)域問題的其它軟件
市面上也有許多其他流行的統(tǒng)計和制圖軟件,如Microsoft Excel酗电、SAS咬腕、IBM SPSS、Stata以及Minitab愕把。
(2) 選擇R的好處:
- 開源湾揽、免費(fèi)
- 支持的領(lǐng)域多
- 豐富的統(tǒng)計計算例程
- 頂尖的制圖水平
- 強(qiáng)大的交互功能:實現(xiàn)1.1的所有步驟,將任意一個步驟的結(jié)果進(jìn)行保存踢关、操作,并進(jìn)一步輸入分析粘茄。
- 易于擴(kuò)展签舞,快速實現(xiàn)新方法
(3) 劣勢
- 學(xué)習(xí)曲線陡峭(這是相對于掌握R的所有功能)
- 功能模塊零散、難以找到(因為是個人貢獻(xiàn)的)
1.3.2 獲取幫助
1.3.3 工作空間
- 工作空間:(workspace)就是當(dāng)前R的工作環(huán)境,它存儲著所有用戶定義的對象(向量柒瓣、矩陣儒搭、函數(shù)、數(shù)據(jù)框芙贫、列表)搂鲫。
- 鏡像:在一個R會話結(jié)束時,你可以將當(dāng)前工作空間保存到一個鏡像中,并在下次啟動R時自動載入它。
1.3.4 輸入輸出
輸入
$source("xxx.R")
輸出
$sink("myoutput", append=TRUE, split=TRUE)
$pdf("mygraphs.pdf") #保存到pdf
$source("script2.R")
$sink()
$dev.off()
1.4 包
包的發(fā)布地址 https://cran.r-project.org/web/packages/
包是R函數(shù)磺平、數(shù)據(jù)魂仍、預(yù)編譯代碼以一種定義完善的格式組成的集合拐辽。
包
- R函數(shù)
- 數(shù)據(jù)
- 預(yù)編譯代碼
- 完善的格式
- 庫:存儲包的目錄
命令集合:
$函數(shù).libPaths() #能夠顯示庫所在的位置
$library() #可以顯示庫中有哪些包,未必已經(jīng)載入
$search() #可以告訴你哪些包已經(jīng)載入并可使用
$install.packages("gclus") #下載和安裝gclus
$update.packages() #可以更新已經(jīng)安裝的包
$installed.packages() #查看已安裝包的描述
$help(package="package_name") #查看package幫助文檔
1.4.3 包的安裝和載入
- 安裝:包的安裝是指從某個CRAN鏡像站點(diǎn)下載它并將其放入庫中的過程擦酌。
- 載入:要在R會話中使用它,還需要使用library()命令載入這個包俱诸。例如,要使用gclus包,執(zhí)行命令library(gclus)即可。
1.5 批處理
第2章 創(chuàng)建數(shù)據(jù)集
本章內(nèi)容
? 探索R中的數(shù)據(jù)結(jié)構(gòu)
? 輸入數(shù)據(jù)
? 導(dǎo)入數(shù)據(jù)
? 標(biāo)注數(shù)據(jù)
第一部分(2.1~2.2節(jié))---敘述了R中用于存儲數(shù)據(jù)的多種結(jié)構(gòu)
2.1 數(shù)據(jù)集的概念
數(shù)據(jù)集通常是由數(shù)據(jù)構(gòu)成的一個矩陣數(shù)組赊舶,行表示觀測睁搭,列表示變量。
- 觀測(observation) - 變量(variable)
- 記錄(record) - 字段(field)
- 示例(example) - 屬性(attribute)
2.2 數(shù)據(jù)結(jié)構(gòu)
R擁有許多用于存儲數(shù)據(jù)的對象類型,包括標(biāo)量笼平、向量园骆、矩陣、數(shù)組寓调、數(shù)據(jù)框和列表锌唾。
以上數(shù)據(jù)結(jié)構(gòu)區(qū)別在:
- 存儲數(shù)據(jù)的類型
- 創(chuàng)建方式
- 結(jié)構(gòu)復(fù)雜度
- 定位和訪問元素的方法
2.2.1 向量
2.2.4 數(shù)據(jù)框
$ attach(xxxx) #可將xxxx數(shù)據(jù)框添加到R的搜索路徑中
$detach(xxxx) #將xxxx數(shù)據(jù)框從搜索路徑中移除
$with(xxx, {}) #{}中的所有操作都針對數(shù)據(jù)框xxx進(jìn)行
2.2.5 因子
- 名義型變量:是沒有順序之分的類別變量
- 有序型變量:表示一種順序關(guān)系,而非數(shù)量關(guān)系。病情Status(poor捶牢、improved鸠珠、excellent)是順序型變量的一個上佳示例
- 連續(xù)型變量:可以呈現(xiàn)為某個范圍內(nèi)的任意值,并同時表示了順序和數(shù)量。年齡Age就是一個連續(xù)型變量
- 因子:類別(名義型)變量和有序類別(有序型)變量在R中稱為因子(factor)秋麸,使用factor()將名義型和有序型變量轉(zhuǎn)換為因子
factor類型的向量中有Levels的概念渐排。Levels就是factor中的所有元素的集合(沒有重復(fù))。我們可以發(fā)現(xiàn)Levels就是factor中元素排重后且字符化的結(jié)果灸蟆!因為Levels的元素都是character驯耻。
2.2.6 列表
- 列表:就是一些對象(或成分,component)的有序集合。列表允許你整合若干(可能無關(guān)的)對象到單個對象名下炒考。
第二部分(2.3節(jié)) ---涵蓋了多種向R中導(dǎo)入數(shù)據(jù)的可行方法
2.3 數(shù)據(jù)輸入方式
2.3.1 使用鍵盤輸入數(shù)據(jù)
2.3.2 從帶分隔符的文本文件導(dǎo)入數(shù)據(jù)
mydataframe <- read.table(file, options)
2.3.3 導(dǎo)入Excel數(shù)據(jù)
2.3.4 導(dǎo)入XML數(shù)據(jù)
2.3.5 從網(wǎng)頁抓取數(shù)據(jù)
網(wǎng)絡(luò)上的數(shù)據(jù),可以通過所謂Web數(shù)據(jù)抓取(Webscraping)的過程,或?qū)?yīng)用程序接口(application programming interface,API)的使用來獲得可缚。
可以用twitteR來獲取Twitter數(shù)據(jù),用 Rfacebook來獲取Facebook數(shù)據(jù),用Rflickr來獲取Flicker數(shù)據(jù)。其他軟件包允許你連接上如Google斋枢、Amazon帘靡、Dropbox、Salesforce等所提供的廣受歡迎的網(wǎng)上服務(wù)瓤帚。
2.3.6 導(dǎo)入SPSS數(shù)據(jù)
2.3.11 訪問數(shù)據(jù)庫管理系統(tǒng)
- 在mac上從mysql導(dǎo)入數(shù)據(jù)描姚,使用RJDBC還是RODBC?
- 怎么判斷數(shù)據(jù)庫驅(qū)動是ODJBChi還是JDBC戈次?
第三部分(2.4節(jié)) ---將討論數(shù)據(jù)集的標(biāo)注問題
2.4 數(shù)據(jù)集標(biāo)注
為了使結(jié)果更易解讀,數(shù)據(jù)分析人員通常會對數(shù)據(jù)集進(jìn)行標(biāo)注轩勘。這種標(biāo)注包括為變量名添加描述性的標(biāo)簽,以及為類別型變量中的編碼添加值標(biāo)簽。例如,對于變量age,你可能想附加一個描述更詳細(xì)的標(biāo)簽“Age at hospitalization (in years)”(入院年齡)怯邪。對于編碼為1或2的性別變量gender,你可能想將其關(guān)聯(lián)到標(biāo)簽“male”和“female”上绊寻。
第四部分(2.5節(jié)) ---介紹一些處理數(shù)據(jù)集的實用函數(shù)
第3章 圖形初階
試試demo數(shù)據(jù)繪圖 Done
第4章 基本數(shù)據(jù)管理
本章內(nèi)容
? 操縱日期和缺失值
? 熟悉數(shù)據(jù)類型的轉(zhuǎn)換
? 變量的創(chuàng)建和重編碼
? 數(shù)據(jù)集的排序、合并與取子集
? 選入和丟棄變量
4.3 變量的重編嗎
重編碼涉及根據(jù)同一個變量和/或其他變量的現(xiàn)有值創(chuàng)建新值的過程。舉例來說,你可能想:
? 將一個連續(xù)型變量修改為一組類別值;
? 將誤編碼的值替換為正確值;
? 基于一組分?jǐn)?shù)線創(chuàng)建一個表示及格/不及格的變量澄步。
4.4 變量的重命名
第5章 高級數(shù)據(jù)管理
5.2?? ??????????????????數(shù)值和字符處理函數(shù)
- 數(shù)值函數(shù)冰蘑、數(shù)學(xué)函數(shù)、統(tǒng)計函數(shù)驮俗、概率函數(shù)
- 字符處理函數(shù)
基本的數(shù)值概念:
平均數(shù):是幾個數(shù)據(jù)的算術(shù)平均數(shù)懂缕。
眾數(shù):是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)叫做這組數(shù)據(jù)的眾數(shù)。
中位數(shù):是將一組數(shù)據(jù)按大型醮铡(或小大)順序排列后搪柑,處在最中間的一個數(shù)(奇數(shù)個)(偶數(shù)個求最中間的兩個數(shù)的平均數(shù))。
極差:是一組數(shù)據(jù)的最大值減去最小值所得的差叫極差索烹。它是反映數(shù)據(jù)變化范圍的工碾。
(平)方差:是一組數(shù)據(jù)中各數(shù)據(jù)與它們的平均數(shù)的差的平方的平均數(shù),我們把這個平均數(shù)叫做這組數(shù)據(jù)的方差百姓。即來衡量這組數(shù)據(jù)的波動大小渊额,一組數(shù)據(jù)的方差越大,說明這組數(shù)據(jù)的波動越大垒拢;方差越小旬迹,數(shù)據(jù)的波動越小。要比較數(shù)據(jù)的穩(wěn)定性求类,一般會用到方差奔垦。方差比較全面地反映數(shù)據(jù)的離散程度。
標(biāo)準(zhǔn)差:是將求出的方差開平方尸疆,即算術(shù)平方根椿猎。這個算術(shù)平方根,即稱為這組數(shù)據(jù)的標(biāo)準(zhǔn)差寿弱。標(biāo)準(zhǔn)差也是用來表示一組數(shù)據(jù)的波動大小的量犯眠。和方差一樣是衡量這組數(shù)據(jù)的波動大小。
????絕對中位差
四分位數(shù)(Quartile):即統(tǒng)計學(xué)中症革,把所有數(shù)值由小到大排列并分成四等份筐咧,處于三個分割點(diǎn)位置的數(shù)值就是四分位數(shù)。
第6章 基本圖形
分析數(shù)據(jù)噪矛,第一件要做的事就是觀察它:對于每個變量量蕊,哪些值是最常見的?值域大心σ伞危融?是否有不同尋常的觀測畏铆?
本章主題:
- 將變量的分布進(jìn)行可視化展示
- 通過結(jié)果變量進(jìn)行跨組比較
以上說法中雷袋,變量可以是連續(xù)型、類別型。
第7章 基本統(tǒng)計分析
本章內(nèi)容:
- 描述性統(tǒng)計分析
- 頻數(shù)表和列聯(lián)表
- 相關(guān)系數(shù)和協(xié)方差
- t檢測
- 非參數(shù)統(tǒng)計
很多名詞看不懂:偏度楷怒、峰度蛋勺、因子向量、邏輯型向量鸠删、基五數(shù)抱完、上下四分位數(shù)等等
可能是欠缺其它學(xué)科專業(yè)知識;暫停學(xué)習(xí)《R in action》刃泡,先補(bǔ)充其它知識巧娱。
2017-01-05 開始學(xué)習(xí)《深入淺出數(shù)據(jù)統(tǒng)計》 1~8章
2017-01-14 學(xué)習(xí)《R語言實戰(zhàn)》遇到瓶頸。從第7章開始烘贴,內(nèi)容比較難懂禁添,而且非常枯燥桨踪,數(shù)據(jù)都是關(guān)于汽車的老翘,關(guān)鍵是學(xué)了也不知道怎么用。還是想想怎么從貼近我生活工作的案例開始锻离。