Chapter 2 Data Collection
本篇是第二章,內(nèi)容是數(shù)據(jù)收集起意。
1.數(shù)據(jù)來源
做科學(xué)研究離不開數(shù)據(jù),而數(shù)據(jù)的來源有哪些呢悲酷?
這里比較簡單地將數(shù)據(jù)來源分為兩類:直接(一手)數(shù)據(jù)和間接(二手)數(shù)據(jù)亲善。
直接數(shù)據(jù)的數(shù)據(jù)獲取來源包括:觀測蛹头、調(diào)查渣蜗、實(shí)驗(yàn)。
間接數(shù)據(jù)的數(shù)據(jù)獲取來源包括:出版物讼昆、互聯(lián)網(wǎng)等浸赫。
接下來分別談?wù)勥@幾個(gè)來源。
觀測——自然科學(xué)里有觀測,如氣象氣候涧狮、植物生長期等么夫,社會(huì)科學(xué)同樣有觀測档痪,譬如像街區(qū)人的觀測等。觀測的數(shù)據(jù)可以說是純粹第一手?jǐn)?shù)據(jù)愿汰,在研究中是很寶貴的數(shù)據(jù)衬廷,但是很容易受到觀測記錄員主觀因素的影響汽绢。
調(diào)查——自然科學(xué)里的調(diào)查(室外樣品采集宁昭,環(huán)境狀況調(diào)查)一般是跟室內(nèi)實(shí)驗(yàn)相結(jié)合,而社會(huì)科學(xué)的調(diào)查會(huì)更豐富疆拘,如典型的問卷調(diào)查、訪談寂曹、座談會(huì)等入问。
實(shí)驗(yàn)——實(shí)驗(yàn)是自然科學(xué)的核心,這里就不詳述了(比如:土壤理化性質(zhì)分析稀颁、植物生態(tài)生理特性分析)芬失。不過近年來隨著學(xué)科交叉增多,社會(huì)科學(xué)也開始更多地引入實(shí)驗(yàn)的方法(以筆者另一門公選課《初級(jí)社會(huì)網(wǎng)絡(luò)》為例匾灶,耶魯大學(xué)的社會(huì)心理學(xué)家米爾格蘭姆(Stanley Milgram)就設(shè)計(jì)了一個(gè)連鎖信件實(shí)驗(yàn)棱烂,這就是著名的六度分割理論的由來)。
當(dāng)然除了以上三種颊糜,我認(rèn)為在現(xiàn)在的大數(shù)據(jù)時(shí)代哩治,還存在一些新的直接數(shù)據(jù)來源。
- 物聯(lián)網(wǎng)(Interest of Thing,IOT),以各類傳感器(RFID衬鱼、紅外感應(yīng)系統(tǒng)业筏、GPS、通量塔等)為代表鸟赫,代表數(shù)據(jù)就是如今火熱的大數(shù)據(jù)——如RFID記錄數(shù)據(jù)蒜胖、浮動(dòng)車與出租車GPS軌跡數(shù)據(jù)、通量塔測量的NEE等抛蚤。
- 遙感(Remote Sensing台谢,RS),某種程度上岁经,遙感也是靠傳感器接收數(shù)據(jù)朋沮,但是它與物聯(lián)網(wǎng)還是有所差別,故單列出來缀壤。作為地學(xué)和生態(tài)學(xué)背景(尤其是GIS和RS相關(guān)方向的)的學(xué)生樊拓,對(duì)遙感會(huì)非常熟悉。遙感的特征就是塘慕,可以大范圍快速獲取地表信息數(shù)據(jù)(譬如地形骑脱、地表溫度、氣溶膠苍糠、albedo等叁丧,當(dāng)然這些都需要進(jìn)行反演等)。
總的來說岳瞭,觀測在自然科學(xué)和社會(huì)科學(xué)中都有滲透較多拥娄,但是觀測往往受到記錄人員主觀因素影響導(dǎo)致誤差。而且觀測的數(shù)據(jù)結(jié)構(gòu)一般來說呈現(xiàn)非結(jié)構(gòu)化的特征瞳筏。調(diào)查在社會(huì)科學(xué)中有較多應(yīng)用稚瘾,自然科學(xué)中較少,而實(shí)驗(yàn)則是在自然科學(xué)中應(yīng)用廣泛姚炕,社會(huì)科學(xué)則應(yīng)用較少摊欠。這兩類的實(shí)質(zhì)是類似的,需要提前設(shè)計(jì)好調(diào)查的大綱或者實(shí)驗(yàn)方案柱宦,然后按照設(shè)計(jì)好的大綱和方案進(jìn)行調(diào)查和實(shí)驗(yàn)些椒。也因此這兩類數(shù)據(jù)結(jié)構(gòu)化特征比較明顯。
所謂的間接數(shù)據(jù)就是指已經(jīng)經(jīng)過他人整理的相關(guān)數(shù)據(jù)掸刊。這邊列出來的主要包括:
出版物:統(tǒng)計(jì)年鑒免糕、書籍、論文等。統(tǒng)計(jì)年鑒是大部分社會(huì)科學(xué)相關(guān)研究的重要數(shù)據(jù)來源石窑,這邊就不詳述了牌芋。書籍對(duì)于很多如社會(huì)研究的文本分析是重要的數(shù)據(jù)來源。論文作為數(shù)據(jù)松逊,是近年來興起的文獻(xiàn)計(jì)量學(xué)的典型數(shù)據(jù)躺屁。此外對(duì)Meta分析,論文里的數(shù)據(jù)則是重要來源经宏。
互聯(lián)網(wǎng):百度指數(shù)犀暑、阿里指數(shù)、大眾點(diǎn)評(píng)等數(shù)據(jù)烛恤。
互聯(lián)網(wǎng)數(shù)據(jù)可以利用網(wǎng)絡(luò)爬蟲獲取。
總的來說余耽,間接數(shù)據(jù)易于獲取缚柏,作用廣泛,但使用的時(shí)候需要控制數(shù)據(jù)質(zhì)量以及引用碟贾。
2.調(diào)查設(shè)計(jì)
這邊主要介紹的是數(shù)據(jù)的調(diào)查方式币喧、調(diào)查方案的結(jié)構(gòu)和設(shè)計(jì)以及調(diào)查問卷設(shè)計(jì)。
(1)數(shù)據(jù)的調(diào)查方式
數(shù)據(jù)的調(diào)查方式一般而言是遵循統(tǒng)計(jì)學(xué)規(guī)律的(我們稱之為統(tǒng)計(jì)調(diào)查方式)袱耽,這里列舉了我國統(tǒng)計(jì)調(diào)查的常用方式:普查(人口普查杀餐、農(nóng)業(yè)普查、甚至到最近剛剛發(fā)布成果的全國第一次地理國情普查)朱巨、抽樣調(diào)查(概率抽樣史翘、非概率抽樣,具體后面第三章會(huì)詳述)冀续、統(tǒng)計(jì)報(bào)表(統(tǒng)計(jì)公報(bào))琼讽。
而除了以上之外,當(dāng)我們需要自己收集直接數(shù)據(jù)的時(shí)候又可以分為以下幾種:
詢問調(diào)查類:
- 訪問調(diào)查
- 郵寄調(diào)查
- 電話調(diào)查
- 電腦輔助
- 座談會(huì)
- 個(gè)別深訪
觀察實(shí)驗(yàn)
- 觀察
- 實(shí)驗(yàn)
(2)調(diào)查方案的結(jié)構(gòu)和設(shè)計(jì)
如何做調(diào)查洪唐?是很多人在科學(xué)研究中的第一道難關(guān)钻蹬。這里給出一個(gè)關(guān)于做調(diào)查的普遍步驟流程圖:
那么調(diào)查方案又是什么呢?我認(rèn)為調(diào)查方案就是調(diào)查的策劃書凭需。明確你調(diào)查的一些目的问欠、對(duì)象、項(xiàng)目以及調(diào)查方法等粒蜈。一般結(jié)構(gòu)如下:
- 調(diào)查目的
- 調(diào)查對(duì)象調(diào)查單位
- 調(diào)查項(xiàng)目
- 其他
(3)調(diào)查問卷設(shè)計(jì)
最后這部分是談?wù)務(wù){(diào)查問卷設(shè)計(jì)的一些內(nèi)容(包括筆者自己的一些經(jīng)驗(yàn))顺献。
問卷結(jié)構(gòu)
- 開頭部分(問候語、填寫說明枯怖、問卷編號(hào) )
- 甄別部分
- 主體部分
- 背景部分
其他部分就不詳述了滚澜,甄別部分一般是針對(duì)過濾的問題,就是不符合條件的即可跳過部分調(diào)查題目。接下來主要針對(duì)主體部分簡單介紹设捐。
主體部分其實(shí)就是問卷主要調(diào)查的部分借浊。一般來說要注意一下幾點(diǎn)。
- 提問內(nèi)容盡可能簡短
- 用詞準(zhǔn)確通俗(可按6W原則推敲:Who,Where,When,Why,What,How)
- 一項(xiàng)提問只包括一項(xiàng)內(nèi)容
- 避免誘導(dǎo)性提問萝招、否定形式提問蚂斤、敏感性問題
而問題則又可以分為兩大類:開放性問題(自由回答型)和封閉性問題(選擇回答型)。
封閉性問題包括了二項(xiàng)選擇槐沼、多項(xiàng)選擇(單項(xiàng)曙蒸、多項(xiàng)、限制選擇)岗钩、順序選擇法纽窟、評(píng)定尺度法、雙向列聯(lián)表法兼吓。
- 開放性問題——一般就是可以隨便答臂港,這類數(shù)據(jù)一般是問卷者的主觀感受,不會(huì)受客觀影響视搏。但是最大的問題在于數(shù)據(jù)收集呈現(xiàn)非結(jié)構(gòu)化特征审孽,多以文本形式存在。研究時(shí)必須通過重編碼浑娜、文本分析等方法佑力。
- 封閉性問題——相當(dāng)于是選擇題或者填空題。二項(xiàng)選擇就是筋遭,只有兩個(gè)選項(xiàng)(A或B)打颤;多項(xiàng)選擇則是有多個(gè)選項(xiàng),可以選至少一個(gè)(一個(gè)為單項(xiàng)漓滔、一個(gè)以上且不限制選擇的數(shù)量為多項(xiàng)瘸洛、一個(gè)以上且限制選擇的數(shù)量為限制);順序選擇法次和,就是給出多個(gè)選項(xiàng)反肋,讓你按照自己的認(rèn)識(shí)對(duì)選項(xiàng)進(jìn)行排序;評(píng)定尺度法踏施,給出多個(gè)選項(xiàng)且是有等級(jí)劃分的(如很差石蔗,差,一般畅形,好养距,很好)進(jìn)行選擇;雙向列聯(lián)表法日熬,將兩類不同問題綜合到一起棍厌,用表格形式,橫向?yàn)橐活悊栴},縱向?yàn)橐活悊栴}耘纱。
從筆者的經(jīng)驗(yàn)來說敬肚,在設(shè)置問卷的時(shí)候,必須要先從自己想研究的問題出發(fā)束析,思索如何用數(shù)據(jù)分析證明自己的結(jié)論艳馒,然后大致思索需要用來分析的統(tǒng)計(jì)方法與統(tǒng)計(jì)指標(biāo),然后對(duì)應(yīng)選擇問題的形式员寇,因?yàn)椴煌膯栴}形式對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)大不相同弄慰,而且統(tǒng)計(jì)方法也不盡相同。
最后的最后安利大家一個(gè)軟件:Survey123 for ArcGIS
這是由esri北京研發(fā)中心開發(fā)的一款外業(yè)數(shù)據(jù)收集軟件——獲得“問卷好幫手”稱號(hào)的application蝶锋。
主要包括了桌面端Survey123 connect和移動(dòng)端Survey123 app兩大軟件陆爽。可以簡便地建立問卷扳缕、分享問卷慌闭、搜集數(shù)據(jù)、分析數(shù)據(jù)第献,同時(shí)采集時(shí)受訪者的GPS位置也將被記錄贡必。具體教程參照如下網(wǎng)址兔港。
3.數(shù)據(jù)質(zhì)量
采集數(shù)據(jù)的時(shí)候必須考慮的就是數(shù)據(jù)的質(zhì)量庸毫,即降低采集數(shù)據(jù)時(shí)產(chǎn)生誤差。
科學(xué)研究中的數(shù)據(jù)誤差無可避免衫樊,而誤差的來源主要包括:抽樣誤差飒赃、非抽樣誤差。
抽樣誤差科侈,在抽樣方式確定時(shí)就無法避免载佳,具體的方法可能還是統(tǒng)計(jì)學(xué)萬能解藥———增加樣本量。
非抽樣誤差則包括了如下的內(nèi)容:
- 抽樣框誤差
- 回答誤差
- 無回答誤差
- 調(diào)查員誤差
抽樣框誤差——其實(shí)就是抽取的樣本無法代表總體臀栈;回答誤差和無回答誤差都是由于受訪者導(dǎo)致的錯(cuò)誤蔫慧,而調(diào)查員誤差則無須再介紹,即采集者自身的誤差权薯。
那么控制誤差的方法無非就在于樣本大小以及合適的數(shù)據(jù)框(針對(duì)非抽樣誤差和抽樣框誤差)姑躲,靠重訪來進(jìn)行修正(回答誤差和無回答誤差),調(diào)查員誤差則需要對(duì)調(diào)查員進(jìn)行培訓(xùn)盟蚣。
當(dāng)然這里還得普及一個(gè)概念黍析,在統(tǒng)計(jì)學(xué)里面,precision(精度)和accuracy(準(zhǔn)確性)是不相同的屎开。中文里面往往因?yàn)閮蓚€(gè)單詞都翻譯成精度阐枣,事實(shí)上這兩個(gè)詞指的是不一樣的內(nèi)容。二者的區(qū)別可以看下面的圖。
這里做個(gè)簡單的解釋蔼两,事實(shí)上就是我們研究事物是個(gè)無法窮盡的總體甩鳄,因此我們只能進(jìn)行抽樣調(diào)查,那么多次抽樣調(diào)查研究之后宪哩,我們可以得到每次抽樣調(diào)查的均值(也可以是其他統(tǒng)計(jì)量)娩贷,在圖中就是藍(lán)色的點(diǎn),那么在靶中心的綠色部分锁孟,可以認(rèn)為是總體的真正均值彬祖。那么也就是說高精度一般指的是,我們的樣本數(shù)據(jù)自身的變異性很小品抽,也就是說储笑,我們做了N次抽樣調(diào)查,而每次抽樣調(diào)查的樣本均值基本是穩(wěn)定的圆恤。我們抽的N次都是相近的數(shù)據(jù)突倍,也就是說我們的抽樣誤差盡可能小了(因?yàn)槌榱薔次數(shù)據(jù)變化不會(huì)太大)。而高準(zhǔn)確性一般指的是盆昙,我們N次抽樣的樣本數(shù)據(jù)的平均值與總體數(shù)據(jù)差異很小羽历。也就是說我們的N次樣本的均值與總體均值很接近,也就是說我們的非抽樣誤差盡可能小了(因?yàn)镹次數(shù)據(jù)平均值與總體均值差異較小淡喜,說明我們抽的樣本能夠反映總體均值的特征)秕磷。
最后,總結(jié)下數(shù)據(jù)質(zhì)量的控制要求:
- 精度(precision): 最低的抽樣誤差或隨機(jī)誤差
- 準(zhǔn)確性(accuracy): 最小的非抽樣誤差或偏差
- 關(guān)聯(lián)性: 滿足用戶決策炼团、 管理和研究的需要
- 及時(shí)性: 在最短的時(shí)間里取得并公布數(shù)據(jù)
- 一致性: 保持時(shí)間序列的可比性
- 最低成本: 以最經(jīng)濟(jì)的方式取得數(shù)據(jù)