這本書討論如何將數據轉換為知識痴鳄。 數據是廉價的( 至少相對而言如此)钝的, 但知識卻異常寶貴及塘。
書中對三門相互關聯的學科進行介紹:
- 概率論
主要研究隨機事件封锉。 人們對某些事件發(fā)生的可能性高低一般都有直觀的認識绵跷, 所以未經特殊訓練就會使用“ 可能”、“ 不可能” 之類的詞匯成福。 但本書會介紹如何量化這種可能性 - 統(tǒng)計學
統(tǒng)計學旨在根據數據樣本推測總情況抖坪。 大部分統(tǒng)計分析都基于概率, 所以這兩方面的內容通常兼而有之闷叉。 - 計算
量化分析的最佳工具擦俐。 計算機是處理統(tǒng)計量的常用工具。 此外握侧, 計算實驗還有助于理解概率論和統(tǒng)計學中的概念蚯瞧。
在日常生活中,我們經常會依據自己的個人經歷得到一些經驗之談品擎,這些經驗之談會因為觀察的數量太少埋合、選擇偏差、確認偏差萄传、不準確等因素存在種種不足甚颂。
為解決這種不足,本書運用以下統(tǒng)計學手段:
- 收集數據
量化分析的最佳工具秀菱。 計算機是處理統(tǒng)計量的常用工具振诬。 此外, 計算實驗還有助于理解概率論和統(tǒng)計學中的概念衍菱。 - 描述性統(tǒng)計
計算能總結數據的統(tǒng)計量赶么, 并評測各種數據可視化的方法。 - 探索性數據分析
尋找模式脊串、 差異和其他能解答我們問題的特征辫呻。 同時, 我們會檢查不一致性琼锋, 并確認其局限性放闺。 - 假設檢驗
在發(fā)現明顯的影響時( 比如兩個族群間的差異), 我們需要評判這種影響是否真實缕坎, 也就是說是否是因為隨機因素造成的怖侦。 - 估計
我們會用樣本數據推斷全部人口的特征。
術語
- 經驗之談(anecdotal evidence)
個人隨意收集的證據, 而不是通過精心設計并經過研究得到的础钠。 - 直觀效應(apparent effect)
表示發(fā)生了某種有意思的事情的度量或匯總統(tǒng)計量恰力。 - 人為(artifact)
由于偏差、 測量錯誤或其他錯誤導致的直觀效應旗吁。 - 隊列(cohort)
一組被調查者踩萎。 - 橫斷面研究( cross-sectional study)
收集群體在特定時間點的數據的研究。 - 字段( field)
數據庫中組成記錄的變量名稱很钓。 - 縱貫研究( longitudinal study)
跟蹤群體香府, 隨著時間推移對同一組人反復采集數據的研究。 - 過采樣( oversampling)
為了避免樣本量過少码倦, 而增加某個子群體代表的數量企孩。 - 總體( population)
要研究的一組事物, 通常是一群人袁稽, 但這個術語也可用于動物勿璃、 蔬菜和礦產。 - 原始數據( raw data)
未經或只經過很少的檢查推汽、 計算或解讀而采集和重編碼的值补疑。 - 重編碼( recode)
通過對原始數據進行計算或是其他邏輯處理得到的值。 - 記錄( record)
數據庫中關于一個人或其他對象的信息的集合歹撒。 - 代表性( representative)
如果人群中的每個成員都有同等的機會進入樣本莲组, 那么這個樣本就具有代表性。 - 被調查者( respondent)
參與調查的人暖夭。 - 樣本( sample)
總體的一個子集锹杈, 用于收集數據。 - 統(tǒng)計顯著( statistically significant)
若一個直觀效應不太可能是由隨機因素引起的迈着, 就是統(tǒng)計顯著的竭望。 - 匯總統(tǒng)計量( summary statistic)
通過計算將一個數據集歸結到一個數字( 或者是少量的幾個數字),而這個數字能表示數據的某些特點寥假。 - 表( table)
數據庫中若干記錄的集合市框。