第二章 1數(shù)據(jù)與抽樣

1梯影、數(shù)據(jù)挖掘的起點

數(shù)據(jù)是我們進行數(shù)據(jù)挖掘的起點
我們能夠分析和處理的數(shù)據(jù)有很多湃密,比如說針對每一個商店诅挑,獲取其某一天可樂銷售的數(shù)據(jù),各省市的人口數(shù)據(jù)等等泛源。面臨的數(shù)據(jù)眾多,如何從這些數(shù)據(jù)中獲取有用信息忿危,對我們來說尤為關(guān)鍵达箍。
但在進行數(shù)據(jù)獲取、整理铺厨、預(yù)處理以及進一步數(shù)據(jù)挖掘之前缎玫,應(yīng)該

  • 首先 了解數(shù)據(jù)的存儲形式
  • 其次 了解數(shù)據(jù)以何種類型存儲于變量中
  • 再而 如何從海量數(shù)據(jù)中抽樣硬纤,以構(gòu)造待分析的數(shù)據(jù)集
  • 接著 如何劃分數(shù)據(jù)集(訓(xùn)練集+測試集)
  • 最后 建立模型并同時檢測模型的優(yōu)良程度

2、數(shù)據(jù)的類型和存儲形式

2.1 數(shù)據(jù)類型可以分為:

  • 定量數(shù)據(jù)(Quantitative Data)【連續(xù)和離散】
  • 定性數(shù)據(jù)(Qualitative Data)【定類和定序(如等級)】

R中數(shù)據(jù)的存儲類型
數(shù)值型赃磨、整數(shù)型筝家、邏輯型、字符型邻辉、因子型

image.png

3溪王、 數(shù)據(jù)的抽樣

數(shù)據(jù)的抽樣分為概率抽樣(probability sampling)、非概率抽樣(Non probability sampling)和重復(fù)抽樣(resampling)值骇。
3.1 概率抽樣

  • 簡單隨機抽樣
    • 有放回抽樣
    • 無放回抽樣
  • 分層抽樣
  • 系統(tǒng)抽樣
  • 整群抽樣
  • 多階段抽樣

3.2 非概率抽樣
方便抽樣莹菱、判斷抽樣、自愿樣本吱瘩、滾雪球抽樣道伟、配額抽樣

抽樣的好處:
節(jié)約成本、耗時較短使碾、時效性強蜜徽、提高數(shù)據(jù)的質(zhì)量、完成全面調(diào)查不能完成的工作

3.3 概率抽樣

1.根據(jù)一個已知的概率抽取樣本單位票摇,即隨機抽樣
其中每個單位都有一個的機會被抽中娜汁、每個單位被抽中的概率是已知的
2.包括:簡單隨機抽樣、分層抽樣兄朋、系統(tǒng)抽樣掐禁、整群抽樣等


3.3.1 簡單隨機抽樣

  1. 概念:從總體N個單位(元素)中隨機抽取n個單位作為樣本,使得總體中的每一個元素都有相同機會(概率)被抽中颅和!
  2. 有放回和不放回
  • 有放回抽樣(方差大)
    Nn(n次), 其中每個個體被抽中的概率為1-(N-1)^n /Nn^
  • 無放回抽樣
    每個個體被抽中的概率:
    1-C(N-1,n)/C(N,n)
  1. 特點:
  • 直觀傅事、簡單、抽樣框完整時可直接從中抽取樣本(這也就其缺點之一峡扩,即需要抽樣框完整蹭越,我們往往較難獲取抽樣框)
  • 用樣本統(tǒng)計量對目標量進行估計時較方便
  1. 局限性
  • 當N大時,較難構(gòu)造抽樣框
  • 當抽出的單位較分散時教届,調(diào)查較復(fù)雜
  • 沒有充分利用其他的輔助信息也即效率較低


    image.png

    image.png
  1. 不放回程序操作
##讀入數(shù)據(jù)
data=read.table("  " ,header=TURE)  
names(data)
install.packages("sampling")
library(sampling)
N=dim(data)[1]    #數(shù)據(jù)條數(shù)响鹃,數(shù)據(jù)量
n=500 #樣本量
srsp=srswor(n,N)  #simple random sample without replacement   代表產(chǎn)生一個隨機數(shù)
srs=getdata(data,srsp)
srswr(n,N)  #有放回的!

colMeans(data[,c(6:14)])    #每列,row是行(橫向) 
apply(data[,c(6:14)],2,sd)  #求標準差 案训,方差是var

data=read.table(" " ,header=TURE)
names(data)
library(sampling)
N=dim(data)[1] #數(shù)據(jù)條數(shù)买置,數(shù)據(jù)量
n=500 #樣本量
srsp=srswor(n,N) #simple random sample without replacement 代表產(chǎn)生一個隨機數(shù)
srs=getdata(data,srsp)
srswr(n,N) #有放回的!
colMeans(data[,c(6:14)]) #每列,row是行(橫向)
apply(data[,c(6:14)],2,sd) #求標準差 强霎,方差是var

3.3.2 分層抽樣

1.定義:將總體劃分為不同的層忿项,然后從不同的層中隨機抽取樣本
2.優(yōu)點:

  • 保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較接近,從而提高估計的精度
  • 組織實施調(diào)查比較方便
  • 即可以對總體參數(shù)進行估計,也可以對估計層參數(shù)
  1. 程序操作
#首先把分層的變量進行標識因子型
data$mouth=factor(data$mouth,levels=as.character(1:6))

#確定層概率
wh=n*table(data$mouth)/N

o=order(data$mouth)
srp=strata(data=data[o,],stratanames=''mouth'',size=wh,method=''srswor'')
sr=getdata(data,srp)   

3.3.3 系統(tǒng)抽樣(機械抽樣轩触,等距抽樣)

1.定義:將總體中的所有單位按一定順序排列寞酿,在規(guī)定的范圍內(nèi)隨機地抽取一個單位最為初始單位,然后按事先規(guī)定好的規(guī)則確定其他的樣本單位脱柱。

  1. 優(yōu)點:抽樣方便伐弹,可提高估計精度
    3.缺點:對估計量方差的估計比較困難

4.系統(tǒng)抽樣程序:

i=rep(1,N)
pik1=inclusionprobilities(i,n)   #給出一個抽樣概率
ssp=Upsystematic(pik1,esp=1e-6)
##不等概率抽樣,由pik1給出抽樣概率
ss=getdata(data,ssp)

3.3.4 整群抽樣

1.定義:將總體中若干個單位合并為組(群)榨为,抽樣時直接抽取群惨好,然后對其中選中的所有單位全部實施調(diào)查
2.特點:

  • 抽樣時只需群的抽樣框,可簡化工作量
  • 調(diào)查的地點相對集中柠逞,節(jié)省調(diào)查費用昧狮,方便調(diào)查的實施
  • 卻帶你是估計的精度較差

3.整群抽樣程序:

scp=cluster(data=data$wind,clustername="trade_code",size=10,method=''srswor'',descripition=FALSE)
sc=getdata(data,scp)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者板壮。
  • 序言:七十年代末逗鸣,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子绰精,更是在濱河造成了極大的恐慌撒璧,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件笨使,死亡現(xiàn)場離奇詭異卿樱,居然都是意外死亡,警方通過查閱死者的電腦和手機硫椰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進店門繁调,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人靶草,你說我怎么就攤上這事蹄胰。” “怎么了奕翔?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵裕寨,是天一觀的道長。 經(jīng)常有香客問我派继,道長宾袜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任驾窟,我火速辦了婚禮庆猫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘纫普。我一直安慰自己阅悍,他們只是感情好好渠,可當我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布昨稼。 她就那樣靜靜地躺著节视,像睡著了一般。 火紅的嫁衣襯著肌膚如雪假栓。 梳的紋絲不亂的頭發(fā)上寻行,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天,我揣著相機與錄音匾荆,去河邊找鬼拌蜘。 笑死,一個胖子當著我的面吹牛牙丽,可吹牛的內(nèi)容都是我干的简卧。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼烤芦,長吁一口氣:“原來是場噩夢啊……” “哼举娩!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起构罗,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤铜涉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后遂唧,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體芙代,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年盖彭,在試婚紗的時候發(fā)現(xiàn)自己被綠了纹烹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡召边,死狀恐怖铺呵,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情掌实,我是刑警寧澤陪蜻,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站贱鼻,受9級特大地震影響宴卖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜邻悬,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一症昏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧父丰,春花似錦肝谭、人聲如沸掘宪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽魏滚。三九已至,卻和暖如春坟漱,著一層夾襖步出監(jiān)牢的瞬間鼠次,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工芋齿, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留腥寇,地道東北人。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓觅捆,卻偏偏與公主長得像赦役,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子栅炒,可洞房花燭夜當晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 2.抽樣 抽樣在我們數(shù)據(jù)分析的過程當中是經(jīng)常操作的一種掂摔,那么為什么要進行抽樣呢? 當我們的數(shù)據(jù)量很大职辅,分析軟件的處...
    鳴人吃土豆閱讀 2,315評論 0 2
  • 非概率抽樣 1.定義:抽取樣本不是依據(jù)隨機原則棒呛,而是根據(jù)研究目的對數(shù)據(jù)的要求,采取某種方式從總體中抽出部分單位實施...
  • 第二章 試驗資料的整理與特征數(shù)的計算 一域携、試驗資料的類型 對試驗資料進行分類是統(tǒng)計歸納的基礎(chǔ)簇秒。 一、數(shù)量性狀資料...
    wangchuang2017閱讀 2,897評論 0 2
  • 統(tǒng)計學(xué):收集秀鞭、處理趋观、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué) 統(tǒng)計學(xué)所提供的是是一系列有關(guān)數(shù)據(jù)收集锋边、處理和分析的方法...
    EvanForEver閱讀 1,300評論 0 1
  • 推薦指數(shù): 6.0 書籍主旨關(guān)鍵詞:特權(quán)皱坛、焦點、注意力豆巨、語言聯(lián)想剩辟、情景聯(lián)想 觀點: 1.統(tǒng)計學(xué)現(xiàn)在叫數(shù)據(jù)分析,社會...
    Jenaral閱讀 5,726評論 0 5