數(shù)據(jù)分析(一): 《R語言實戰(zhàn)》

2016.12.31~2017.01.01
開始學(xué)習(xí)R語言 計劃利用元旦3天假期學(xué)完《R語言實戰(zhàn)》1~7章
粗略學(xué)習(xí)繪圖有關(guān)的章節(jié)、重點(diǎn)掌握數(shù)據(jù)統(tǒng)計方法


第1章 R語言介紹

1.1 介紹

本章內(nèi)容
- R的安裝
- 熟悉R語言
- 運(yùn)行R程序
1.1典型的數(shù)據(jù)分析步驟

1.2 為何要用R

(1) 處理同領(lǐng)域問題的其它軟件
市面上也有許多其他流行的統(tǒng)計和制圖軟件,如Microsoft Excel酗电、SAS咬腕、IBM SPSS、Stata以及Minitab愕把。

(2) 選擇R的好處:

  • 開源湾揽、免費(fèi)
  • 支持的領(lǐng)域多
  • 豐富的統(tǒng)計計算例程
  • 頂尖的制圖水平
  • 強(qiáng)大的交互功能:實現(xiàn)1.1的所有步驟,將任意一個步驟的結(jié)果進(jìn)行保存踢关、操作,并進(jìn)一步輸入分析粘茄。
  • 易于擴(kuò)展签舞,快速實現(xiàn)新方法

(3) 劣勢

  • 學(xué)習(xí)曲線陡峭(這是相對于掌握R的所有功能)
  • 功能模塊零散、難以找到(因為是個人貢獻(xiàn)的)

1.3.2 獲取幫助

表1-2 R中的幫助函數(shù)

1.3.3 工作空間

  • 工作空間:(workspace)就是當(dāng)前R的工作環(huán)境,它存儲著所有用戶定義的對象(向量柒瓣、矩陣儒搭、函數(shù)、數(shù)據(jù)框芙贫、列表)搂鲫。
  • 鏡像:在一個R會話結(jié)束時,你可以將當(dāng)前工作空間保存到一個鏡像中,并在下次啟動R時自動載入它。
表1-3 用于管理R工作空間的函數(shù)

1.3.4 輸入輸出

輸入

$source("xxx.R")

輸出

$sink("myoutput", append=TRUE, split=TRUE) 
$pdf("mygraphs.pdf")    #保存到pdf
$source("script2.R")
$sink()
$dev.off()
表1-4 用于保存圖形輸出的函數(shù)

1.4 包

包的發(fā)布地址 https://cran.r-project.org/web/packages/

包是R函數(shù)磺平、數(shù)據(jù)魂仍、預(yù)編譯代碼以一種定義完善的格式組成的集合拐辽。

  • R函數(shù)
  • 數(shù)據(jù)
  • 預(yù)編譯代碼
  • 完善的格式
  • 庫:存儲包的目錄

命令集合:

$函數(shù).libPaths()   #能夠顯示庫所在的位置
$library()   #可以顯示庫中有哪些包,未必已經(jīng)載入
$search()    #可以告訴你哪些包已經(jīng)載入并可使用
$install.packages("gclus")    #下載和安裝gclus
$update.packages()    #可以更新已經(jīng)安裝的包
$installed.packages()   #查看已安裝包的描述
$help(package="package_name")   #查看package幫助文檔
1.4.3 包的安裝和載入
  • 安裝:包的安裝是指從某個CRAN鏡像站點(diǎn)下載它并將其放入庫中的過程擦酌。
  • 載入:要在R會話中使用它,還需要使用library()命令載入這個包俱诸。例如,要使用gclus包,執(zhí)行命令library(gclus)即可。

1.5 批處理


第2章 創(chuàng)建數(shù)據(jù)集

本章內(nèi)容
? 探索R中的數(shù)據(jù)結(jié)構(gòu)
? 輸入數(shù)據(jù)
? 導(dǎo)入數(shù)據(jù)
? 標(biāo)注數(shù)據(jù)

第一部分(2.1~2.2節(jié))---敘述了R中用于存儲數(shù)據(jù)的多種結(jié)構(gòu)

2.1 數(shù)據(jù)集的概念

數(shù)據(jù)集通常是由數(shù)據(jù)構(gòu)成的一個矩陣數(shù)組赊舶,行表示觀測睁搭,列表示變量。
- 觀測(observation) -  變量(variable)
- 記錄(record) -  字段(field)
- 示例(example) -  屬性(attribute)

2.2 數(shù)據(jù)結(jié)構(gòu)

R擁有許多用于存儲數(shù)據(jù)的對象類型,包括標(biāo)量笼平、向量园骆、矩陣、數(shù)組寓调、數(shù)據(jù)框和列表锌唾。

以上數(shù)據(jù)結(jié)構(gòu)區(qū)別在:

  • 存儲數(shù)據(jù)的類型
  • 創(chuàng)建方式
  • 結(jié)構(gòu)復(fù)雜度
  • 定位和訪問元素的方法
2.2.1 向量
2.2.4 數(shù)據(jù)框
$ attach(xxxx)    #可將xxxx數(shù)據(jù)框添加到R的搜索路徑中
$detach(xxxx)    #將xxxx數(shù)據(jù)框從搜索路徑中移除
$with(xxx, {})      #{}中的所有操作都針對數(shù)據(jù)框xxx進(jìn)行
2.2.5 因子
  • 名義型變量:是沒有順序之分的類別變量
  • 有序型變量:表示一種順序關(guān)系,而非數(shù)量關(guān)系。病情Status(poor捶牢、improved鸠珠、excellent)是順序型變量的一個上佳示例
  • 連續(xù)型變量:可以呈現(xiàn)為某個范圍內(nèi)的任意值,并同時表示了順序和數(shù)量。年齡Age就是一個連續(xù)型變量
  • 因子:類別(名義型)變量和有序類別(有序型)變量在R中稱為因子(factor)秋麸,使用factor()將名義型和有序型變量轉(zhuǎn)換為因子

factor類型的向量中有Levels的概念渐排。Levels就是factor中的所有元素的集合(沒有重復(fù))。我們可以發(fā)現(xiàn)Levels就是factor中元素排重后且字符化的結(jié)果灸蟆!因為Levels的元素都是character驯耻。

2.2.6 列表
  • 列表:就是一些對象(或成分,component)的有序集合。列表允許你整合若干(可能無關(guān)的)對象到單個對象名下炒考。

第二部分(2.3節(jié)) ---涵蓋了多種向R中導(dǎo)入數(shù)據(jù)的可行方法

2.3 數(shù)據(jù)輸入方式

2.3.1 使用鍵盤輸入數(shù)據(jù)
2.3.2 從帶分隔符的文本文件導(dǎo)入數(shù)據(jù)
mydataframe <- read.table(file, options)
2.3.3 導(dǎo)入Excel數(shù)據(jù)
2.3.4 導(dǎo)入XML數(shù)據(jù)
2.3.5 從網(wǎng)頁抓取數(shù)據(jù)

網(wǎng)絡(luò)上的數(shù)據(jù),可以通過所謂Web數(shù)據(jù)抓取(Webscraping)的過程,或?qū)?yīng)用程序接口(application programming interface,API)的使用來獲得可缚。

可以用twitteR來獲取Twitter數(shù)據(jù),用 Rfacebook來獲取Facebook數(shù)據(jù),用Rflickr來獲取Flicker數(shù)據(jù)。其他軟件包允許你連接上如Google斋枢、Amazon帘靡、Dropbox、Salesforce等所提供的廣受歡迎的網(wǎng)上服務(wù)瓤帚。

2.3.6 導(dǎo)入SPSS數(shù)據(jù)
2.3.11 訪問數(shù)據(jù)庫管理系統(tǒng)
  • 在mac上從mysql導(dǎo)入數(shù)據(jù)描姚,使用RJDBC還是RODBC?
  • 怎么判斷數(shù)據(jù)庫驅(qū)動是ODJBChi還是JDBC戈次?

第三部分(2.4節(jié)) ---將討論數(shù)據(jù)集的標(biāo)注問題

2.4 數(shù)據(jù)集標(biāo)注

為了使結(jié)果更易解讀,數(shù)據(jù)分析人員通常會對數(shù)據(jù)集進(jìn)行標(biāo)注轩勘。這種標(biāo)注包括為變量名添加描述性的標(biāo)簽,以及為類別型變量中的編碼添加值標(biāo)簽。例如,對于變量age,你可能想附加一個描述更詳細(xì)的標(biāo)簽“Age at hospitalization (in years)”(入院年齡)怯邪。對于編碼為1或2的性別變量gender,你可能想將其關(guān)聯(lián)到標(biāo)簽“male”和“female”上绊寻。

第四部分(2.5節(jié)) ---介紹一些處理數(shù)據(jù)集的實用函數(shù)

表2-4-1 處理數(shù)據(jù)對象的實用函數(shù)
表2-4-2 處理數(shù)據(jù)對象的實用函數(shù)

第3章 圖形初階

試試demo數(shù)據(jù)繪圖 Done

第4章 基本數(shù)據(jù)管理

本章內(nèi)容
? 操縱日期和缺失值
? 熟悉數(shù)據(jù)類型的轉(zhuǎn)換
? 變量的創(chuàng)建和重編碼
? 數(shù)據(jù)集的排序、合并與取子集
? 選入和丟棄變量

4.3 變量的重編嗎

重編碼涉及根據(jù)同一個變量和/或其他變量的現(xiàn)有值創(chuàng)建新值的過程。舉例來說,你可能想:
? 將一個連續(xù)型變量修改為一組類別值;
? 將誤編碼的值替換為正確值;
? 基于一組分?jǐn)?shù)線創(chuàng)建一個表示及格/不及格的變量澄步。

4.4 變量的重命名

第5章 高級數(shù)據(jù)管理

5.2?? ??????????????????數(shù)值和字符處理函數(shù)

  • 數(shù)值函數(shù)冰蘑、數(shù)學(xué)函數(shù)、統(tǒng)計函數(shù)驮俗、概率函數(shù)
  • 字符處理函數(shù)

基本的數(shù)值概念:

  • 平均數(shù):是幾個數(shù)據(jù)的算術(shù)平均數(shù)懂缕。

  • 眾數(shù):是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)叫做這組數(shù)據(jù)的眾數(shù)。

  • 中位數(shù):是將一組數(shù)據(jù)按大型醮铡(或小大)順序排列后搪柑,處在最中間的一個數(shù)(奇數(shù)個)(偶數(shù)個求最中間的兩個數(shù)的平均數(shù))。

  • 極差:是一組數(shù)據(jù)的最大值減去最小值所得的差叫極差索烹。它是反映數(shù)據(jù)變化范圍的工碾。

  • (平)方差:是一組數(shù)據(jù)中各數(shù)據(jù)與它們的平均數(shù)的差的平方的平均數(shù),我們把這個平均數(shù)叫做這組數(shù)據(jù)的方差百姓。即來衡量這組數(shù)據(jù)的波動大小渊额,一組數(shù)據(jù)的方差越大,說明這組數(shù)據(jù)的波動越大垒拢;方差越小旬迹,數(shù)據(jù)的波動越小。要比較數(shù)據(jù)的穩(wěn)定性求类,一般會用到方差奔垦。方差比較全面地反映數(shù)據(jù)的離散程度。

  • 標(biāo)準(zhǔn)差:是將求出的方差開平方尸疆,即算術(shù)平方根椿猎。這個算術(shù)平方根,即稱為這組數(shù)據(jù)的標(biāo)準(zhǔn)差寿弱。標(biāo)準(zhǔn)差也是用來表示一組數(shù)據(jù)的波動大小的量犯眠。和方差一樣是衡量這組數(shù)據(jù)的波動大小。

  • ????絕對中位差

  • 四分位數(shù)(Quartile):即統(tǒng)計學(xué)中症革,把所有數(shù)值由小到大排列并分成四等份筐咧,處于三個分割點(diǎn)位置的數(shù)值就是四分位數(shù)


第6章 基本圖形

分析數(shù)據(jù)噪矛,第一件要做的事就是觀察它:對于每個變量量蕊,哪些值是最常見的?值域大心σ伞危融?是否有不同尋常的觀測畏铆?

本章主題:

  • 將變量的分布進(jìn)行可視化展示
  • 通過結(jié)果變量進(jìn)行跨組比較

以上說法中雷袋,變量可以是連續(xù)型、類別型。


第7章 基本統(tǒng)計分析

本章內(nèi)容:
- 描述性統(tǒng)計分析
- 頻數(shù)表和列聯(lián)表
- 相關(guān)系數(shù)和協(xié)方差
- t檢測
- 非參數(shù)統(tǒng)計

很多名詞看不懂:偏度楷怒、峰度蛋勺、因子向量、邏輯型向量鸠删、基五數(shù)抱完、上下四分位數(shù)等等
可能是欠缺其它學(xué)科專業(yè)知識;暫停學(xué)習(xí)《R in action》刃泡,先補(bǔ)充其它知識巧娱。

2017-01-05 開始學(xué)習(xí)《深入淺出數(shù)據(jù)統(tǒng)計》 1~8章
2017-01-14 學(xué)習(xí)《R語言實戰(zhàn)》遇到瓶頸。從第7章開始烘贴,內(nèi)容比較難懂禁添,而且非常枯燥桨踪,數(shù)據(jù)都是關(guān)于汽車的老翘,關(guān)鍵是學(xué)了也不知道怎么用。還是想想怎么從貼近我生活工作的案例開始锻离。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末铺峭,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子汽纠,更是在濱河造成了極大的恐慌卫键,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,681評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疏虫,死亡現(xiàn)場離奇詭異永罚,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)卧秘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評論 3 399
  • 文/潘曉璐 我一進(jìn)店門呢袱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人翅敌,你說我怎么就攤上這事羞福。” “怎么了蚯涮?”我有些...
    開封第一講書人閱讀 169,421評論 0 362
  • 文/不壞的土叔 我叫張陵治专,是天一觀的道長。 經(jīng)常有香客問我遭顶,道長张峰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,114評論 1 300
  • 正文 為了忘掉前任棒旗,我火速辦了婚禮喘批,結(jié)果婚禮上特咆,老公的妹妹穿的比我還像新娘腌逢。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,116評論 6 398
  • 文/花漫 我一把揭開白布蜜另。 她就那樣靜靜地躺著呆贿,像睡著了一般糠亩。 火紅的嫁衣襯著肌膚如雪舌狗。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,713評論 1 312
  • 那天俱两,我揣著相機(jī)與錄音饱狂,去河邊找鬼。 笑死宪彩,一個胖子當(dāng)著我的面吹牛嗡官,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播毯焕,決...
    沈念sama閱讀 41,170評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼衍腥,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了纳猫?” 一聲冷哼從身側(cè)響起婆咸,我...
    開封第一講書人閱讀 40,116評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎芜辕,沒想到半個月后尚骄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,651評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡侵续,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,714評論 3 342
  • 正文 我和宋清朗相戀三年倔丈,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片状蜗。...
    茶點(diǎn)故事閱讀 40,865評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡需五,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出轧坎,到底是詐尸還是另有隱情宏邮,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布缸血,位于F島的核電站蜜氨,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏捎泻。R本人自食惡果不足惜飒炎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,211評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望笆豁。 院中可真熱鬧郎汪,春花似錦定欧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,699評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽扩氢。三九已至耕驰,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間录豺,已是汗流浹背朦肘。 一陣腳步聲響...
    開封第一講書人閱讀 33,814評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留双饥,地道東北人媒抠。 一個月前我還...
    沈念sama閱讀 49,299評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像咏花,于是被迫代替她去往敵國和親趴生。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,870評論 2 361

推薦閱讀更多精彩內(nèi)容