應(yīng)用統(tǒng)計(jì)學(xué)與R語言實(shí)現(xiàn)學(xué)習(xí)筆記(二)——數(shù)據(jù)收集

Chapter 2 Data Collection

本篇是第二章,內(nèi)容是數(shù)據(jù)收集起意。

1.數(shù)據(jù)來源

做科學(xué)研究離不開數(shù)據(jù),而數(shù)據(jù)的來源有哪些呢悲酷?
這里比較簡單地將數(shù)據(jù)來源分為兩類:直接(一手)數(shù)據(jù)和間接(二手)數(shù)據(jù)亲善。
直接數(shù)據(jù)的數(shù)據(jù)獲取來源包括:觀測蛹头、調(diào)查渣蜗、實(shí)驗(yàn)。
間接數(shù)據(jù)的數(shù)據(jù)獲取來源包括:出版物讼昆、互聯(lián)網(wǎng)等浸赫。
接下來分別談?wù)勥@幾個(gè)來源。
觀測——自然科學(xué)里有觀測,如氣象氣候涧狮、植物生長期等么夫,社會(huì)科學(xué)同樣有觀測档痪,譬如像街區(qū)人的觀測等。觀測的數(shù)據(jù)可以說是純粹第一手?jǐn)?shù)據(jù)愿汰,在研究中是很寶貴的數(shù)據(jù)衬廷,但是很容易受到觀測記錄員主觀因素的影響汽绢。
調(diào)查——自然科學(xué)里的調(diào)查(室外樣品采集宁昭,環(huán)境狀況調(diào)查)一般是跟室內(nèi)實(shí)驗(yàn)相結(jié)合,而社會(huì)科學(xué)的調(diào)查會(huì)更豐富疆拘,如典型的問卷調(diào)查、訪談寂曹、座談會(huì)等入问。
實(shí)驗(yàn)——實(shí)驗(yàn)是自然科學(xué)的核心,這里就不詳述了(比如:土壤理化性質(zhì)分析稀颁、植物生態(tài)生理特性分析)芬失。不過近年來隨著學(xué)科交叉增多,社會(huì)科學(xué)也開始更多地引入實(shí)驗(yàn)的方法(以筆者另一門公選課《初級(jí)社會(huì)網(wǎng)絡(luò)》為例匾灶,耶魯大學(xué)的社會(huì)心理學(xué)家米爾格蘭姆(Stanley Milgram)就設(shè)計(jì)了一個(gè)連鎖信件實(shí)驗(yàn)棱烂,這就是著名的六度分割理論的由來)。
當(dāng)然除了以上三種颊糜,我認(rèn)為在現(xiàn)在的大數(shù)據(jù)時(shí)代哩治,還存在一些新的直接數(shù)據(jù)來源。

  • 物聯(lián)網(wǎng)(Interest of Thing,IOT),以各類傳感器(RFID衬鱼、紅外感應(yīng)系統(tǒng)业筏、GPS、通量塔等)為代表鸟赫,代表數(shù)據(jù)就是如今火熱的大數(shù)據(jù)——如RFID記錄數(shù)據(jù)蒜胖、浮動(dòng)車與出租車GPS軌跡數(shù)據(jù)、通量塔測量的NEE等抛蚤。
  • 遙感(Remote Sensing台谢,RS),某種程度上岁经,遙感也是靠傳感器接收數(shù)據(jù)朋沮,但是它與物聯(lián)網(wǎng)還是有所差別,故單列出來缀壤。作為地學(xué)和生態(tài)學(xué)背景(尤其是GIS和RS相關(guān)方向的)的學(xué)生樊拓,對(duì)遙感會(huì)非常熟悉。遙感的特征就是塘慕,可以大范圍快速獲取地表信息數(shù)據(jù)(譬如地形骑脱、地表溫度、氣溶膠苍糠、albedo等叁丧,當(dāng)然這些都需要進(jìn)行反演等)。

總的來說岳瞭,觀測在自然科學(xué)和社會(huì)科學(xué)中都有滲透較多拥娄,但是觀測往往受到記錄人員主觀因素影響導(dǎo)致誤差。而且觀測的數(shù)據(jù)結(jié)構(gòu)一般來說呈現(xiàn)非結(jié)構(gòu)化的特征瞳筏。調(diào)查在社會(huì)科學(xué)中有較多應(yīng)用稚瘾,自然科學(xué)中較少,而實(shí)驗(yàn)則是在自然科學(xué)中應(yīng)用廣泛姚炕,社會(huì)科學(xué)則應(yīng)用較少摊欠。這兩類的實(shí)質(zhì)是類似的,需要提前設(shè)計(jì)好調(diào)查的大綱或者實(shí)驗(yàn)方案柱宦,然后按照設(shè)計(jì)好的大綱和方案進(jìn)行調(diào)查和實(shí)驗(yàn)些椒。也因此這兩類數(shù)據(jù)結(jié)構(gòu)化特征比較明顯。
所謂的間接數(shù)據(jù)就是指已經(jīng)經(jīng)過他人整理的相關(guān)數(shù)據(jù)掸刊。這邊列出來的主要包括:
出版物:統(tǒng)計(jì)年鑒免糕、書籍、論文等。統(tǒng)計(jì)年鑒是大部分社會(huì)科學(xué)相關(guān)研究的重要數(shù)據(jù)來源石窑,這邊就不詳述了牌芋。書籍對(duì)于很多如社會(huì)研究的文本分析是重要的數(shù)據(jù)來源。論文作為數(shù)據(jù)松逊,是近年來興起的文獻(xiàn)計(jì)量學(xué)的典型數(shù)據(jù)躺屁。此外對(duì)Meta分析,論文里的數(shù)據(jù)則是重要來源经宏。
互聯(lián)網(wǎng):百度指數(shù)犀暑、阿里指數(shù)、大眾點(diǎn)評(píng)等數(shù)據(jù)烛恤。
互聯(lián)網(wǎng)數(shù)據(jù)可以利用網(wǎng)絡(luò)爬蟲獲取。
總的來說余耽,間接數(shù)據(jù)易于獲取缚柏,作用廣泛,但使用的時(shí)候需要控制數(shù)據(jù)質(zhì)量以及引用碟贾。

2.調(diào)查設(shè)計(jì)

這邊主要介紹的是數(shù)據(jù)的調(diào)查方式币喧、調(diào)查方案的結(jié)構(gòu)和設(shè)計(jì)以及調(diào)查問卷設(shè)計(jì)。
(1)數(shù)據(jù)的調(diào)查方式
數(shù)據(jù)的調(diào)查方式一般而言是遵循統(tǒng)計(jì)學(xué)規(guī)律的(我們稱之為統(tǒng)計(jì)調(diào)查方式)袱耽,這里列舉了我國統(tǒng)計(jì)調(diào)查的常用方式:普查(人口普查杀餐、農(nóng)業(yè)普查、甚至到最近剛剛發(fā)布成果的全國第一次地理國情普查)朱巨、抽樣調(diào)查(概率抽樣史翘、非概率抽樣,具體后面第三章會(huì)詳述)冀续、統(tǒng)計(jì)報(bào)表(統(tǒng)計(jì)公報(bào))琼讽。
而除了以上之外,當(dāng)我們需要自己收集直接數(shù)據(jù)的時(shí)候又可以分為以下幾種:
詢問調(diào)查類:

  • 訪問調(diào)查
  • 郵寄調(diào)查
  • 電話調(diào)查
  • 電腦輔助
  • 座談會(huì)
  • 個(gè)別深訪

觀察實(shí)驗(yàn)

  • 觀察
  • 實(shí)驗(yàn)

(2)調(diào)查方案的結(jié)構(gòu)和設(shè)計(jì)
如何做調(diào)查洪唐?是很多人在科學(xué)研究中的第一道難關(guān)钻蹬。這里給出一個(gè)關(guān)于做調(diào)查的普遍步驟流程圖:

那么調(diào)查方案又是什么呢?我認(rèn)為調(diào)查方案就是調(diào)查的策劃書凭需。明確你調(diào)查的一些目的问欠、對(duì)象、項(xiàng)目以及調(diào)查方法等粒蜈。一般結(jié)構(gòu)如下:

  • 調(diào)查目的
  • 調(diào)查對(duì)象調(diào)查單位
  • 調(diào)查項(xiàng)目
  • 其他

(3)調(diào)查問卷設(shè)計(jì)
最后這部分是談?wù)務(wù){(diào)查問卷設(shè)計(jì)的一些內(nèi)容(包括筆者自己的一些經(jīng)驗(yàn))顺献。
問卷結(jié)構(gòu)

  • 開頭部分(問候語、填寫說明枯怖、問卷編號(hào) )
  • 甄別部分
  • 主體部分
  • 背景部分

其他部分就不詳述了滚澜,甄別部分一般是針對(duì)過濾的問題,就是不符合條件的即可跳過部分調(diào)查題目。接下來主要針對(duì)主體部分簡單介紹设捐。
主體部分其實(shí)就是問卷主要調(diào)查的部分借浊。一般來說要注意一下幾點(diǎn)。

  • 提問內(nèi)容盡可能簡短
  • 用詞準(zhǔn)確通俗(可按6W原則推敲:Who,Where,When,Why,What,How)
  • 一項(xiàng)提問只包括一項(xiàng)內(nèi)容
  • 避免誘導(dǎo)性提問萝招、否定形式提問蚂斤、敏感性問題

而問題則又可以分為兩大類:開放性問題(自由回答型)和封閉性問題(選擇回答型)。
封閉性問題包括了二項(xiàng)選擇槐沼、多項(xiàng)選擇(單項(xiàng)曙蒸、多項(xiàng)、限制選擇)岗钩、順序選擇法纽窟、評(píng)定尺度法、雙向列聯(lián)表法兼吓。

  • 開放性問題——一般就是可以隨便答臂港,這類數(shù)據(jù)一般是問卷者的主觀感受,不會(huì)受客觀影響视搏。但是最大的問題在于數(shù)據(jù)收集呈現(xiàn)非結(jié)構(gòu)化特征审孽,多以文本形式存在。研究時(shí)必須通過重編碼浑娜、文本分析等方法佑力。
  • 封閉性問題——相當(dāng)于是選擇題或者填空題。二項(xiàng)選擇就是筋遭,只有兩個(gè)選項(xiàng)(A或B)打颤;多項(xiàng)選擇則是有多個(gè)選項(xiàng),可以選至少一個(gè)(一個(gè)為單項(xiàng)漓滔、一個(gè)以上且不限制選擇的數(shù)量為多項(xiàng)瘸洛、一個(gè)以上且限制選擇的數(shù)量為限制);順序選擇法次和,就是給出多個(gè)選項(xiàng)反肋,讓你按照自己的認(rèn)識(shí)對(duì)選項(xiàng)進(jìn)行排序;評(píng)定尺度法踏施,給出多個(gè)選項(xiàng)且是有等級(jí)劃分的(如很差石蔗,差,一般畅形,好养距,很好)進(jìn)行選擇;雙向列聯(lián)表法日熬,將兩類不同問題綜合到一起棍厌,用表格形式,橫向?yàn)橐活悊栴},縱向?yàn)橐活悊栴}耘纱。

從筆者的經(jīng)驗(yàn)來說敬肚,在設(shè)置問卷的時(shí)候,必須要先從自己想研究的問題出發(fā)束析,思索如何用數(shù)據(jù)分析證明自己的結(jié)論艳馒,然后大致思索需要用來分析的統(tǒng)計(jì)方法與統(tǒng)計(jì)指標(biāo),然后對(duì)應(yīng)選擇問題的形式员寇,因?yàn)椴煌膯栴}形式對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)大不相同弄慰,而且統(tǒng)計(jì)方法也不盡相同。
最后的最后安利大家一個(gè)軟件:Survey123 for ArcGIS
這是由esri北京研發(fā)中心開發(fā)的一款外業(yè)數(shù)據(jù)收集軟件——獲得“問卷好幫手”稱號(hào)的application蝶锋。

http://www.esri.com/products/survey123

主要包括了桌面端Survey123 connect和移動(dòng)端Survey123 app兩大軟件陆爽。可以簡便地建立問卷扳缕、分享問卷慌闭、搜集數(shù)據(jù)、分析數(shù)據(jù)第献,同時(shí)采集時(shí)受訪者的GPS位置也將被記錄贡必。具體教程參照如下網(wǎng)址兔港。

http://doc.arcgis.com/zh-cn/survey123/

3.數(shù)據(jù)質(zhì)量

采集數(shù)據(jù)的時(shí)候必須考慮的就是數(shù)據(jù)的質(zhì)量庸毫,即降低采集數(shù)據(jù)時(shí)產(chǎn)生誤差。
科學(xué)研究中的數(shù)據(jù)誤差無可避免衫樊,而誤差的來源主要包括:抽樣誤差飒赃、非抽樣誤差。
抽樣誤差科侈,在抽樣方式確定時(shí)就無法避免载佳,具體的方法可能還是統(tǒng)計(jì)學(xué)萬能解藥———增加樣本量。
非抽樣誤差則包括了如下的內(nèi)容:

  • 抽樣框誤差
  • 回答誤差
  • 無回答誤差
  • 調(diào)查員誤差

抽樣框誤差——其實(shí)就是抽取的樣本無法代表總體臀栈;回答誤差和無回答誤差都是由于受訪者導(dǎo)致的錯(cuò)誤蔫慧,而調(diào)查員誤差則無須再介紹,即采集者自身的誤差权薯。
那么控制誤差的方法無非就在于樣本大小以及合適的數(shù)據(jù)框(針對(duì)非抽樣誤差和抽樣框誤差)姑躲,靠重訪來進(jìn)行修正(回答誤差和無回答誤差),調(diào)查員誤差則需要對(duì)調(diào)查員進(jìn)行培訓(xùn)盟蚣。
當(dāng)然這里還得普及一個(gè)概念黍析,在統(tǒng)計(jì)學(xué)里面,precision(精度)和accuracy(準(zhǔn)確性)是不相同的屎开。中文里面往往因?yàn)閮蓚€(gè)單詞都翻譯成精度阐枣,事實(shí)上這兩個(gè)詞指的是不一樣的內(nèi)容。二者的區(qū)別可以看下面的圖。

這里做個(gè)簡單的解釋蔼两,事實(shí)上就是我們研究事物是個(gè)無法窮盡的總體甩鳄,因此我們只能進(jìn)行抽樣調(diào)查,那么多次抽樣調(diào)查研究之后宪哩,我們可以得到每次抽樣調(diào)查的均值(也可以是其他統(tǒng)計(jì)量)娩贷,在圖中就是藍(lán)色的點(diǎn),那么在靶中心的綠色部分锁孟,可以認(rèn)為是總體的真正均值彬祖。那么也就是說高精度一般指的是,我們的樣本數(shù)據(jù)自身的變異性很小品抽,也就是說储笑,我們做了N次抽樣調(diào)查,而每次抽樣調(diào)查的樣本均值基本是穩(wěn)定的圆恤。我們抽的N次都是相近的數(shù)據(jù)突倍,也就是說我們的抽樣誤差盡可能小了(因?yàn)槌榱薔次數(shù)據(jù)變化不會(huì)太大)。而高準(zhǔn)確性一般指的是盆昙,我們N次抽樣的樣本數(shù)據(jù)的平均值與總體數(shù)據(jù)差異很小羽历。也就是說我們的N次樣本的均值與總體均值很接近,也就是說我們的非抽樣誤差盡可能小了(因?yàn)镹次數(shù)據(jù)平均值與總體均值差異較小淡喜,說明我們抽的樣本能夠反映總體均值的特征)秕磷。
最后,總結(jié)下數(shù)據(jù)質(zhì)量的控制要求:

  • 精度(precision): 最低的抽樣誤差或隨機(jī)誤差
  • 準(zhǔn)確性(accuracy): 最小的非抽樣誤差或偏差
  • 關(guān)聯(lián)性: 滿足用戶決策炼团、 管理和研究的需要
  • 及時(shí)性: 在最短的時(shí)間里取得并公布數(shù)據(jù)
  • 一致性: 保持時(shí)間序列的可比性
  • 最低成本: 以最經(jīng)濟(jì)的方式取得數(shù)據(jù)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末澎嚣,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子瘟芝,更是在濱河造成了極大的恐慌易桃,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锌俱,死亡現(xiàn)場離奇詭異晤郑,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)贸宏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門造寝,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人锚赤,你說我怎么就攤上這事匹舞。” “怎么了线脚?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵赐稽,是天一觀的道長叫榕。 經(jīng)常有香客問我,道長姊舵,這世上最難降的妖魔是什么晰绎? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮括丁,結(jié)果婚禮上荞下,老公的妹妹穿的比我還像新娘。我一直安慰自己史飞,他們只是感情好尖昏,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著构资,像睡著了一般抽诉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吐绵,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天迹淌,我揣著相機(jī)與錄音,去河邊找鬼己单。 笑死唉窃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的纹笼。 我是一名探鬼主播纹份,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼允乐!你這毒婦竟也來了矮嫉?” 一聲冷哼從身側(cè)響起削咆,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤牍疏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后拨齐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鳞陨,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年瞻惋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了厦滤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡歼狼,死狀恐怖掏导,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情羽峰,我是刑警寧澤趟咆,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布添瓷,位于F島的核電站,受9級(jí)特大地震影響值纱,放射性物質(zhì)發(fā)生泄漏鳞贷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一虐唠、第九天 我趴在偏房一處隱蔽的房頂上張望搀愧。 院中可真熱鬧,春花似錦疆偿、人聲如沸咱筛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽眷蚓。三九已至,卻和暖如春反番,著一層夾襖步出監(jiān)牢的瞬間沙热,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國打工罢缸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留篙贸,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓枫疆,卻偏偏與公主長得像爵川,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子息楔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容