1梯影、數(shù)據(jù)挖掘的起點
數(shù)據(jù)是我們進行數(shù)據(jù)挖掘的起點
我們能夠分析和處理的數(shù)據(jù)有很多湃密,比如說針對每一個商店诅挑,獲取其某一天可樂銷售的數(shù)據(jù),各省市的人口數(shù)據(jù)等等泛源。面臨的數(shù)據(jù)眾多,如何從這些數(shù)據(jù)中獲取有用信息忿危,對我們來說尤為關(guān)鍵达箍。
但在進行數(shù)據(jù)獲取、整理铺厨、預(yù)處理以及進一步數(shù)據(jù)挖掘之前缎玫,應(yīng)該
- 首先 了解數(shù)據(jù)的存儲形式
- 其次 了解數(shù)據(jù)以何種類型存儲于變量中
- 再而 如何從海量數(shù)據(jù)中抽樣硬纤,以構(gòu)造待分析的數(shù)據(jù)集
- 接著 如何劃分數(shù)據(jù)集(訓(xùn)練集+測試集)
- 最后 建立模型并同時檢測模型的優(yōu)良程度
2、數(shù)據(jù)的類型和存儲形式
2.1 數(shù)據(jù)類型可以分為:
- 定量數(shù)據(jù)(Quantitative Data)【連續(xù)和離散】
- 定性數(shù)據(jù)(Qualitative Data)【定類和定序(如等級)】
R中數(shù)據(jù)的存儲類型
數(shù)值型赃磨、整數(shù)型筝家、邏輯型、字符型邻辉、因子型
3溪王、 數(shù)據(jù)的抽樣
數(shù)據(jù)的抽樣分為概率抽樣(probability sampling)、非概率抽樣(Non probability sampling)和重復(fù)抽樣(resampling)值骇。
3.1 概率抽樣
- 簡單隨機抽樣
- 有放回抽樣
- 無放回抽樣
- 分層抽樣
- 系統(tǒng)抽樣
- 整群抽樣
- 多階段抽樣
3.2 非概率抽樣
方便抽樣莹菱、判斷抽樣、自愿樣本吱瘩、滾雪球抽樣道伟、配額抽樣等
抽樣的好處:
節(jié)約成本、耗時較短使碾、時效性強蜜徽、提高數(shù)據(jù)的質(zhì)量、完成全面調(diào)查不能完成的工作
3.3 概率抽樣
1.根據(jù)一個已知的概率抽取樣本單位票摇,即隨機抽樣
其中每個單位都有一個的機會被抽中娜汁、每個單位被抽中的概率是已知的
2.包括:簡單隨機抽樣、分層抽樣兄朋、系統(tǒng)抽樣掐禁、整群抽樣等
3.3.1 簡單隨機抽樣
- 概念:從總體N個單位(元素)中隨機抽取n個單位作為樣本,使得總體中的每一個元素都有相同機會(概率)被抽中颅和!
- 有放回和不放回
- 有放回抽樣(方差大)
Nn(n次), 其中每個個體被抽中的概率為1-(N-1)^n /Nn^ - 無放回抽樣
每個個體被抽中的概率:
1-C(N-1,n)/C(N,n)
- 特點:
- 直觀傅事、簡單、抽樣框完整時可直接從中抽取樣本(這也就其缺點之一峡扩,即需要抽樣框完整蹭越,我們往往較難獲取抽樣框)
- 用樣本統(tǒng)計量對目標量進行估計時較方便
- 局限性
- 當N大時,較難構(gòu)造抽樣框
- 當抽出的單位較分散時教届,調(diào)查較復(fù)雜
-
沒有充分利用其他的輔助信息也即效率較低
image.png
image.png
- 不放回程序操作
##讀入數(shù)據(jù)
data=read.table(" " ,header=TURE)
names(data)
install.packages("sampling")
library(sampling)
N=dim(data)[1] #數(shù)據(jù)條數(shù)响鹃,數(shù)據(jù)量
n=500 #樣本量
srsp=srswor(n,N) #simple random sample without replacement 代表產(chǎn)生一個隨機數(shù)
srs=getdata(data,srsp)
srswr(n,N) #有放回的!
colMeans(data[,c(6:14)]) #每列,row是行(橫向)
apply(data[,c(6:14)],2,sd) #求標準差 案训,方差是var
data=read.table(" " ,header=TURE)
names(data)
library(sampling)
N=dim(data)[1] #數(shù)據(jù)條數(shù)买置,數(shù)據(jù)量
n=500 #樣本量
srsp=srswor(n,N) #simple random sample without replacement 代表產(chǎn)生一個隨機數(shù)
srs=getdata(data,srsp)
srswr(n,N) #有放回的!
colMeans(data[,c(6:14)]) #每列,row是行(橫向)
apply(data[,c(6:14)],2,sd) #求標準差 强霎,方差是var
3.3.2 分層抽樣
1.定義:將總體劃分為不同的層忿项,然后從不同的層中隨機抽取樣本
2.優(yōu)點:
- 保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較接近,從而提高估計的精度
- 組織實施調(diào)查比較方便
- 即可以對總體參數(shù)進行估計,也可以對估計層參數(shù)
- 程序操作
#首先把分層的變量進行標識因子型
data$mouth=factor(data$mouth,levels=as.character(1:6))
#確定層概率
wh=n*table(data$mouth)/N
o=order(data$mouth)
srp=strata(data=data[o,],stratanames=''mouth'',size=wh,method=''srswor'')
sr=getdata(data,srp)
3.3.3 系統(tǒng)抽樣(機械抽樣轩触,等距抽樣)
1.定義:將總體中的所有單位按一定順序排列寞酿,在規(guī)定的范圍內(nèi)隨機地抽取一個單位最為初始單位,然后按事先規(guī)定好的規(guī)則確定其他的樣本單位脱柱。
- 優(yōu)點:抽樣方便伐弹,可提高估計精度
3.缺點:對估計量方差的估計比較困難
4.系統(tǒng)抽樣程序:
i=rep(1,N)
pik1=inclusionprobilities(i,n) #給出一個抽樣概率
ssp=Upsystematic(pik1,esp=1e-6)
##不等概率抽樣,由pik1給出抽樣概率
ss=getdata(data,ssp)
3.3.4 整群抽樣
1.定義:將總體中若干個單位合并為組(群)榨为,抽樣時直接抽取群惨好,然后對其中選中的所有單位全部實施調(diào)查
2.特點:
- 抽樣時只需群的抽樣框,可簡化工作量
- 調(diào)查的地點相對集中柠逞,節(jié)省調(diào)查費用昧狮,方便調(diào)查的實施
- 卻帶你是估計的精度較差
3.整群抽樣程序:
scp=cluster(data=data$wind,clustername="trade_code",size=10,method=''srswor'',descripition=FALSE)
sc=getdata(data,scp)