數據的基本概念
個案(case):在一個數據集中戒傻,我們收集信息的對象友瘤。
變量(variable):對每個個案收集的屬性挤土。
一般在一個數據集中识虚,我們會用每一行代表一個個案肢扯,每一列代表一個變量,比如:
姓名 | 數學成績 | 語文成績 | 英語成績 |
---|---|---|---|
小明 | 89 | 56 | 45 |
小王 | 67 | 90 | 78 |
小吳 | 89 | 77 | 85 |
需要了解每一個變量以及變量中的每個取值所代表的含義担锤。比如對于一個變量性別鹃彻,我們可能會用1表示男性,2表示女性妻献。
分類變量(categorical variables):將個案分為不同的組蛛株,每一個個案都會被分到其中一個類別中。
量化變量(quantitative variables):記錄每個個案的數據量育拨,加減谨履、平均這樣的數學運算只適用于量化變量。
比如熬丧,性別笋粟、行業(yè)、宗教信仰這些都是分類變量析蝴,每個個案屬于其中某個類別害捕,而不同類別之間沒有自然的數學關系,如A行業(yè)是B行業(yè)的兩倍之類闷畸;年齡尝盼、收入、工作年限這些都是量化變量佑菩,它們存在自然的數學關系盾沫,比如A的年齡是B的兩倍,這是合理的計算方法殿漠。
在一個研究中我們會收集多個變量赴精,并且試圖根據變量之間的關系來獲得一些新的知識。
解釋變量(explanatory variables) 和反應變量(response variables):當我們試圖用一個變量來幫助理解或者預測兩一個變量的值時绞幌,前者就叫做解釋變量蕾哟,后者叫做反應變量。
注意莲蜘,兩個變量之間即使相關谭确,也未必是一對解釋變量和反應變量,取決于我們是否試圖用前者解釋后者菇夸。
抽樣與誤差
總體(population):我們感興趣的課題中涉及的所有個體或對象琼富。
樣本(sample):總體的一部分,是我們收集數據的實際來源庄新。
比如說鞠眉,當我們想知道某個產品客戶流失的原因時,所有流失的客戶就組成了總體择诈;我們通過某種抽樣方法找到一些客戶來參與調查械蹋,這部分客戶就是這個研究中的樣本。
統(tǒng)計推斷(statistical inference):使用來自樣本的數據來獲得關于總體的信息的過程羞芍。
也就是說哗戈,當我們感興趣一個課題的時候,我們希望知道的是關于總體的信息荷科;但是我們一般很難獲得總體的數據唯咬,于是我們從總體中抽取出一個樣本來纱注,收集樣本的數據并使用統(tǒng)計推斷方法來了解總體。
抽樣誤差(sampling bias):當我們選擇樣本的方法導致了樣本在某個相關的方面與總體產生了差異時胆胰,就有了抽樣誤差狞贱。如果有抽樣誤差,我們就不能根據樣本對總體做出可信的推斷蜀涨。
為了避免抽樣誤差瞎嬉,我們需要努力抽取出有代表性的樣本。
簡單隨機抽樣(simple random sample):保證總體中的每個對象都有同樣的概率被抽中厚柳。簡單隨機抽樣能夠有效避免抽樣誤差氧枣。
遺憾的是隨機抽樣很難,我們一般無法達到别垮。此時需要謹慎地定義我們的總體便监,避免過度推斷。
除了抽樣誤差外宰闰,數據收集過程還可能存在其他誤差:
盡管我們做了隨機抽樣茬贵,但是被抽中的被試也有可能選擇不參與我們的研究,如果存在某種特殊理由導致某類被試中很多選擇不參與移袍,就會導致樣本誤差解藻。
問題的表達方式可能會影響結果。比如葡盗,Daniel Rugg在1941年的研究顯示螟左,詢問“你覺得美國應該允許反對民主的公開演講嗎?”21%的人認為應該允許觅够;詢問“你認為美國應該禁止反對民主的公開演講嗎胶背?”只有39
%的人覺得不應該禁止。被試可能沒有誠實回答問題喘先∏鳎可能是出于社會期許效應,或者只是單純地沒有認真回答窘拯。這都會帶來數據的誤差红且。
研究方法和因果關系
相關(association):一個變量的取值與另一個變量的取值有關時。
因果(causation):當改變一個變量的取值會導致另一個變量取值改變時涤姊。
理解相關和因果之間的區(qū)別很重要暇番。因果是有特定方向的:一個變量的改變導致了另一個;而相關的變量卻沒有這種關系思喊。
人們總會積極地尋找對現象的解釋(因果關系)壁酬,因此很多只有相關而沒有因果的結論傳遞到大眾面前時,總是會有一些誤導性。比如舆乔,有研究發(fā)現HDL膽固醇的含量與心臟病發(fā)作率有負相關岳服。這時大家可能以為其中存在因果關系,試圖通過藥物補充HDL膽固醇來預防心臟病蜕煌。但是進一步的研究發(fā)現是基因派阱、飲食和運動同時影響了HDL膽固醇含量和心臟病發(fā)作率;僅僅通過藥物提高HDL膽固醇含量可能并不能預防心臟病斜纪。
上面例子中的基因、飲食和運動就是混淆變量:
混淆變量(confounding variable):與解釋變量和反應變量都相關的變量文兑,混淆變量可以對相關關系提供可能的解釋盒刚。
那么,通過怎樣的過程可以得出相關關系绿贞,怎樣的過程可以得出因果關系呢因块?
實驗(experiment):研究者積極地控制一個或者多個解釋變量,可以得出因果關系籍铁。
觀察研究(observational study):研究者沒有積極地控制任何變量值而只是簡單地在它們自然出現時觀察其取值涡上。在觀察研究中,通常得出的是相關而非因果關系拒名。
實驗也有多種類別:
隨機化實驗(randomized experiment):每個研究對象在解釋變量上的取值都是隨機分配的吩愧,并且是在觀測反應變量之前。因為進行了隨機化處理增显,消除了潛在的混淆變量的影響雁佳,因此隨機化實驗得出的相關關系可以被解釋為因果。
- 隨機化對比實驗(randomized comparative experiment):將研究對象隨機分配到不同的組中同云,每個組在解釋變量上的取值不同糖权,然后觀察反應變量的結果。
- 配對實驗(matched pairs experiment):每個研究對象會以隨機的順序先后經歷不同的解釋變量值炸站,然后比較在不同解釋變量值下的反應變量的差異星澳。配對實驗能夠消除個體差異帶來的影響禁偎。
實驗雖然能夠得到因果關系,但是也存在一些局限:有一些課題不能夠用實驗來做。比如空氣質量是否會帶來健康問題寝蹈、工作壓力是否會影響產婦孩子的順產率等,不可能隨機分配一些被試到空氣質量差耍鬓、工作壓力大的環(huán)境中牲蜀。這些情況下就只能做觀察研究证薇。