第1章 程序員的統(tǒng)計思維

這本書討論如何將數據轉換為知識痴鳄。 數據是廉價的( 至少相對而言如此)钝的, 但知識卻異常寶貴及塘。

書中對三門相互關聯的學科進行介紹:

  • 概率論
    主要研究隨機事件封锉。 人們對某些事件發(fā)生的可能性高低一般都有直觀的認識绵跷, 所以未經特殊訓練就會使用“ 可能”、“ 不可能” 之類的詞匯成福。 但本書會介紹如何量化這種可能性
  • 統(tǒng)計學
    統(tǒng)計學旨在根據數據樣本推測總情況抖坪。 大部分統(tǒng)計分析都基于概率, 所以這兩方面的內容通常兼而有之闷叉。
  • 計算
    量化分析的最佳工具擦俐。 計算機是處理統(tǒng)計量的常用工具。 此外握侧, 計算實驗還有助于理解概率論和統(tǒng)計學中的概念蚯瞧。

在日常生活中,我們經常會依據自己的個人經歷得到一些經驗之談品擎,這些經驗之談會因為觀察的數量太少埋合、選擇偏差、確認偏差萄传、不準確等因素存在種種不足甚颂。

為解決這種不足,本書運用以下統(tǒng)計學手段:

  • 收集數據
    量化分析的最佳工具秀菱。 計算機是處理統(tǒng)計量的常用工具振诬。 此外, 計算實驗還有助于理解概率論和統(tǒng)計學中的概念衍菱。
  • 描述性統(tǒng)計
    計算能總結數據的統(tǒng)計量赶么, 并評測各種數據可視化的方法。
  • 探索性數據分析
    尋找模式脊串、 差異和其他能解答我們問題的特征辫呻。 同時, 我們會檢查不一致性琼锋, 并確認其局限性放闺。
  • 假設檢驗
    在發(fā)現明顯的影響時( 比如兩個族群間的差異), 我們需要評判這種影響是否真實缕坎, 也就是說是否是因為隨機因素造成的怖侦。
  • 估計
    我們會用樣本數據推斷全部人口的特征。

術語

  • 經驗之談(anecdotal evidence)
    個人隨意收集的證據, 而不是通過精心設計并經過研究得到的础钠。
  • 直觀效應(apparent effect)
    表示發(fā)生了某種有意思的事情的度量或匯總統(tǒng)計量恰力。
  • 人為(artifact)
    由于偏差、 測量錯誤或其他錯誤導致的直觀效應旗吁。
  • 隊列(cohort)
    一組被調查者踩萎。
  • 橫斷面研究( cross-sectional study)
    收集群體在特定時間點的數據的研究。
  • 字段( field)
    數據庫中組成記錄的變量名稱很钓。
  • 縱貫研究( longitudinal study)
    跟蹤群體香府, 隨著時間推移對同一組人反復采集數據的研究。
  • 過采樣( oversampling)
    為了避免樣本量過少码倦, 而增加某個子群體代表的數量企孩。
  • 總體( population)
    要研究的一組事物, 通常是一群人袁稽, 但這個術語也可用于動物勿璃、 蔬菜和礦產。
  • 原始數據( raw data)
    未經或只經過很少的檢查推汽、 計算或解讀而采集和重編碼的值补疑。
  • 重編碼( recode)
    通過對原始數據進行計算或是其他邏輯處理得到的值。
  • 記錄( record)
    數據庫中關于一個人或其他對象的信息的集合歹撒。
  • 代表性( representative)
    如果人群中的每個成員都有同等的機會進入樣本莲组, 那么這個樣本就具有代表性。
  • 被調查者( respondent)
    參與調查的人暖夭。
  • 樣本( sample)
    總體的一個子集锹杈, 用于收集數據。
  • 統(tǒng)計顯著( statistically significant)
    若一個直觀效應不太可能是由隨機因素引起的迈着, 就是統(tǒng)計顯著的竭望。
  • 匯總統(tǒng)計量( summary statistic)
    通過計算將一個數據集歸結到一個數字( 或者是少量的幾個數字),而這個數字能表示數據的某些特點寥假。
  • 表( table)
    數據庫中若干記錄的集合市框。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市糕韧,隨后出現的幾起案子,更是在濱河造成了極大的恐慌喻圃,老刑警劉巖萤彩,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異斧拍,居然都是意外死亡雀扶,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來愚墓,“玉大人予权,你說我怎么就攤上這事±瞬幔” “怎么了扫腺?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長村象。 經常有香客問我笆环,道長,這世上最難降的妖魔是什么厚者? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任躁劣,我火速辦了婚禮,結果婚禮上库菲,老公的妹妹穿的比我還像新娘账忘。我一直安慰自己,他們只是感情好熙宇,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布鳖擒。 她就那樣靜靜地躺著,像睡著了一般奇颠。 火紅的嫁衣襯著肌膚如雪败去。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天烈拒,我揣著相機與錄音圆裕,去河邊找鬼。 笑死荆几,一個胖子當著我的面吹牛吓妆,可吹牛的內容都是我干的。 我是一名探鬼主播吨铸,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼行拢,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了诞吱?” 一聲冷哼從身側響起舟奠,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎房维,沒想到半個月后沼瘫,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡咙俩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年耿戚,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡膜蛔,死狀恐怖坛猪,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情皂股,我是刑警寧澤墅茉,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站屑墨,受9級特大地震影響躁锁,放射性物質發(fā)生泄漏。R本人自食惡果不足惜卵史,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一战转、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧以躯,春花似錦槐秧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至址晕,卻和暖如春膀懈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背谨垃。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工启搂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人刘陶。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓胳赌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親匙隔。 傳聞我的和親對象是個殘疾皇子疑苫,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內容