統(tǒng)計小講:關于數據收集

數據的基本概念

個案(case):在一個數據集中戒傻,我們收集信息的對象友瘤。

變量(variable):對每個個案收集的屬性挤土。

一般在一個數據集中识虚,我們會用每一行代表一個個案肢扯,每一列代表一個變量,比如:

姓名 數學成績 語文成績 英語成績
小明 89 56 45
小王 67 90 78
小吳 89 77 85

需要了解每一個變量以及變量中的每個取值所代表的含義担锤。比如對于一個變量性別鹃彻,我們可能會用1表示男性,2表示女性妻献。

分類變量(categorical variables):將個案分為不同的組蛛株,每一個個案都會被分到其中一個類別中。

量化變量(quantitative variables):記錄每個個案的數據量育拨,加減谨履、平均這樣的數學運算只適用于量化變量。

比如熬丧,性別笋粟、行業(yè)、宗教信仰這些都是分類變量析蝴,每個個案屬于其中某個類別害捕,而不同類別之間沒有自然的數學關系,如A行業(yè)是B行業(yè)的兩倍之類闷畸;年齡尝盼、收入、工作年限這些都是量化變量佑菩,它們存在自然的數學關系盾沫,比如A的年齡是B的兩倍,這是合理的計算方法殿漠。

在一個研究中我們會收集多個變量赴精,并且試圖根據變量之間的關系來獲得一些新的知識。

解釋變量(explanatory variables) 和反應變量(response variables):當我們試圖用一個變量來幫助理解或者預測兩一個變量的值時绞幌,前者就叫做解釋變量蕾哟,后者叫做反應變量。

注意莲蜘,兩個變量之間即使相關谭确,也未必是一對解釋變量和反應變量,取決于我們是否試圖用前者解釋后者菇夸。

抽樣與誤差

總體(population):我們感興趣的課題中涉及的所有個體或對象琼富。

樣本(sample):總體的一部分,是我們收集數據的實際來源庄新。

比如說鞠眉,當我們想知道某個產品客戶流失的原因時,所有流失的客戶就組成了總體择诈;我們通過某種抽樣方法找到一些客戶來參與調查械蹋,這部分客戶就是這個研究中的樣本。

統(tǒng)計推斷(statistical inference):使用來自樣本的數據來獲得關于總體的信息的過程羞芍。

也就是說哗戈,當我們感興趣一個課題的時候,我們希望知道的是關于總體的信息荷科;但是我們一般很難獲得總體的數據唯咬,于是我們從總體中抽取出一個樣本來纱注,收集樣本的數據并使用統(tǒng)計推斷方法來了解總體。

抽樣誤差(sampling bias):當我們選擇樣本的方法導致了樣本在某個相關的方面與總體產生了差異時胆胰,就有了抽樣誤差狞贱。如果有抽樣誤差,我們就不能根據樣本對總體做出可信的推斷蜀涨。

為了避免抽樣誤差瞎嬉,我們需要努力抽取出有代表性的樣本。

簡單隨機抽樣(simple random sample):保證總體中的每個對象都有同樣的概率被抽中厚柳。簡單隨機抽樣能夠有效避免抽樣誤差氧枣。

遺憾的是隨機抽樣很難,我們一般無法達到别垮。此時需要謹慎地定義我們的總體便监,避免過度推斷。

除了抽樣誤差外宰闰,數據收集過程還可能存在其他誤差:

  1. 盡管我們做了隨機抽樣茬贵,但是被抽中的被試也有可能選擇不參與我們的研究,如果存在某種特殊理由導致某類被試中很多選擇不參與移袍,就會導致樣本誤差解藻。

  2. 問題的表達方式可能會影響結果。比如葡盗,Daniel Rugg在1941年的研究顯示螟左,詢問“你覺得美國應該允許反對民主的公開演講嗎?”21%的人認為應該允許觅够;詢問“你認為美國應該禁止反對民主的公開演講嗎胶背?”只有39
    %的人覺得不應該禁止。

  3. 被試可能沒有誠實回答問題喘先∏鳎可能是出于社會期許效應,或者只是單純地沒有認真回答窘拯。這都會帶來數據的誤差红且。

研究方法和因果關系

相關(association):一個變量的取值與另一個變量的取值有關時。

因果(causation):當改變一個變量的取值會導致另一個變量取值改變時涤姊。

理解相關和因果之間的區(qū)別很重要暇番。因果是有特定方向的:一個變量的改變導致了另一個;而相關的變量卻沒有這種關系思喊。

人們總會積極地尋找對現象的解釋(因果關系)壁酬,因此很多只有相關而沒有因果的結論傳遞到大眾面前時,總是會有一些誤導性。比如舆乔,有研究發(fā)現HDL膽固醇的含量與心臟病發(fā)作率有負相關岳服。這時大家可能以為其中存在因果關系,試圖通過藥物補充HDL膽固醇來預防心臟病蜕煌。但是進一步的研究發(fā)現是基因派阱、飲食和運動同時影響了HDL膽固醇含量和心臟病發(fā)作率;僅僅通過藥物提高HDL膽固醇含量可能并不能預防心臟病斜纪。

上面例子中的基因、飲食和運動就是混淆變量:

混淆變量(confounding variable):與解釋變量和反應變量都相關的變量文兑,混淆變量可以對相關關系提供可能的解釋盒刚。

那么,通過怎樣的過程可以得出相關關系绿贞,怎樣的過程可以得出因果關系呢因块?

實驗(experiment):研究者積極地控制一個或者多個解釋變量,可以得出因果關系籍铁。

觀察研究(observational study):研究者沒有積極地控制任何變量值而只是簡單地在它們自然出現時觀察其取值涡上。在觀察研究中,通常得出的是相關而非因果關系拒名。

實驗也有多種類別:

隨機化實驗(randomized experiment):每個研究對象在解釋變量上的取值都是隨機分配的吩愧,并且是在觀測反應變量之前。因為進行了隨機化處理增显,消除了潛在的混淆變量的影響雁佳,因此隨機化實驗得出的相關關系可以被解釋為因果。

  • 隨機化對比實驗(randomized comparative experiment):將研究對象隨機分配到不同的組中同云,每個組在解釋變量上的取值不同糖权,然后觀察反應變量的結果。
  • 配對實驗(matched pairs experiment):每個研究對象會以隨機的順序先后經歷不同的解釋變量值炸站,然后比較在不同解釋變量值下的反應變量的差異星澳。配對實驗能夠消除個體差異帶來的影響禁偎。

實驗雖然能夠得到因果關系,但是也存在一些局限:有一些課題不能夠用實驗來做。比如空氣質量是否會帶來健康問題寝蹈、工作壓力是否會影響產婦孩子的順產率等,不可能隨機分配一些被試到空氣質量差耍鬓、工作壓力大的環(huán)境中牲蜀。這些情況下就只能做觀察研究证薇。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子横漏,更是在濱河造成了極大的恐慌赴肚,老刑警劉巖指厌,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件牡借,死亡現場離奇詭異,居然都是意外死亡碴里,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門畅买,熙熙樓的掌柜王于貴愁眉苦臉地迎上來并闲,“玉大人,你說我怎么就攤上這事谷羞。” “怎么了溜徙?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵湃缎,是天一觀的道長。 經常有香客問我蠢壹,道長嗓违,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任图贸,我火速辦了婚禮蹂季,結果婚禮上,老公的妹妹穿的比我還像新娘疏日。我一直安慰自己偿洁,他們只是感情好,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布沟优。 她就那樣靜靜地躺著涕滋,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挠阁。 梳的紋絲不亂的頭發(fā)上宾肺,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機與錄音侵俗,去河邊找鬼锨用。 笑死,一個胖子當著我的面吹牛隘谣,可吹牛的內容都是我干的增拥。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼跪者!你這毒婦竟也來了棵帽?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤渣玲,失蹤者是張志新(化名)和其女友劉穎逗概,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體忘衍,經...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡逾苫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了枚钓。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铅搓。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖搀捷,靈堂內的尸體忽然破棺而出星掰,到底是詐尸還是另有隱情,我是刑警寧澤嫩舟,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布氢烘,位于F島的核電站,受9級特大地震影響家厌,放射性物質發(fā)生泄漏播玖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一饭于、第九天 我趴在偏房一處隱蔽的房頂上張望蜀踏。 院中可真熱鬧,春花似錦掰吕、人聲如沸果覆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽随静。三九已至,卻和暖如春吗讶,著一層夾襖步出監(jiān)牢的瞬間燎猛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工照皆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留重绷,地道東北人。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓膜毁,卻偏偏與公主長得像昭卓,于是被迫代替她去往敵國和親愤钾。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內容