重點摘要:數(shù)據(jù)分析的原則,步驟;
? ? ? ? ? ? ?常用數(shù)據(jù)分析的工具接奈,數(shù)據(jù)挖掘的工具;
? ? ? ? ? ? ?R語言的優(yōu)缺點通孽;
? ? ? ? ? ? ?R,RStudio的安裝鲫趁;
? ? ? ? ? ? ?Rcmdr(R command數(shù)據(jù)(統(tǒng)計)分析可視化工具),rattle(數(shù)據(jù)挖掘工具)的調(diào)用;
1.簡單的敘述下數(shù)據(jù)分析:
? ? ? ? ? ?三個原則:
1)數(shù)據(jù)分析是為了驗證假設(shè)的問題利虫,需要提供必要的數(shù)據(jù)驗證;(數(shù)據(jù)分析的方式)堡僻;2)數(shù)據(jù)分析是為了發(fā)現(xiàn)更多的問題糠惫,并找到更深層次的原因;(數(shù)據(jù)分析的目標)钉疫;3)不能為了數(shù)據(jù)分析而數(shù)據(jù)分析(數(shù)據(jù)分析的誤區(qū))
2.數(shù)據(jù)分析的一般步驟(大致):
? ? ? ? 說明:粗糙的描述的話就是“數(shù)據(jù)預處理->假設(shè)一個數(shù)學模型->用數(shù)據(jù)去測試評估模型擬合的效果->用新數(shù)據(jù)進行新的模型評估(不行就重新擬合新的模型)”
3.常用的數(shù)據(jù)分析工具:
? ? ? ? ? excel:辦公室應用軟件(收費)
? ? ? ? ? spss:專業(yè)的數(shù)據(jù)分析工具(收費)
? ? ? ? ? matlab:商業(yè)數(shù)學軟件(收費)
? ? ? ? ? R:開源的數(shù)據(jù)分析軟件(免費)
4.常用的數(shù)據(jù)挖掘工具
? ? ? ? ? ?商業(yè):? SAS:模塊固定不可變硼讽,提供菜單操作和編程
? ? ? ? ? ?SPSS clementine:流操作的圖形界面模式,模塊固化
? ? ? ? ? 開源:R語言牲阁,開源固阁,豐富的算法包和圖形化能力,用戶可以通過修改源代碼來適合自己業(yè)務的模型城菊;
? ? ? ? ? R data miner:通過rattle包來調(diào)出工具备燃,如下圖所示:
Weka:通過Rweka包來調(diào)出工具:
5.R語言的起源
6.R語言的優(yōu)點
7.R語言的缺點
8.R軟件的安裝:效果圖如下
下載說明文檔:
9.RStudio(R語言環(huán)境的IDE)
下載網(wǎng)址:http://www.rstudio.com/,安裝效果如下
10.其他常用的輔助工具
? ? ? ?原因是R的缺點是沒有好的操作菜單凌唬,R提供的是命令行的工作方式并齐;
? ? ? ? ? ?其一:使用Rcmdr包,可以使用R中幾乎所有的統(tǒng)計分析工具
? ? ? ? ? ?調(diào)出方式:在控制臺鍵入library(Rcmdr),執(zhí)行會出現(xiàn)R commander,效果如下:
? ? ? ?其二:使用rattle包况褪,可視化數(shù)據(jù)挖掘工具
? ? ? ? ?調(diào)出方式:在控制臺鍵入library(rattle)后撕贞,再鍵入rattle()執(zhí)行,效果如下:
11.補充:更新R版本之后测垛,包的轉(zhuǎn)移到新版本中
? ? ? ? ? #--run in the old version
? ? ? ? ? ?setwd("C:/Temp/")? #注意要在C盤中新建Temp文件夾
? ? ? ? ? ?a <- installed.packages()
? ? ? ? ? ?class(a)
? ? ? ? ? ?packages <- installed.packages()[,"Package"]
? ? ? ? ? ?class(packages)
? ? ? ? ? ?save(packages, file="Rpackages")
? ? ? ? ? ? #--run in the new version
? ? ? ? ? ? setwd("C:/Temp/")
? ? ? ? ? ? ?load("Rpackages")
? ? ? ? ? ? ?for (p in setdiff(packages, installed.packages()[,"Package"]))
? ? ? ? ? ? ?install.packages(p)
? ? ?---畢捏膨!