date: 2019-03-13 17:11:37
title: 讀書筆記| 面向數(shù)據(jù)科學(xué)家的實(shí)用統(tǒng)計(jì)學(xué)
- 系統(tǒng)梳理數(shù)據(jù)科學(xué)中重要的統(tǒng)計(jì)學(xué)概念, 演示統(tǒng)計(jì)學(xué)方法在數(shù)據(jù)科學(xué)中的應(yīng)用
- github: https://github.com/andrewgbruce/statistics-for-data-scientists
- R Tutorial: http://www.r-tutor.com/
mind
- 老生常談, 關(guān)注「原書名」, 可以幫助你很好的了解這本書到底要講啥: 「Practical Statistics for Data Scientists: 50 Essential Concepts」
- 關(guān)于術(shù)語: 數(shù)據(jù)科學(xué) = 統(tǒng)計(jì)學(xué) + 計(jì)算機(jī)科學(xué) + 信息技術(shù) + 一些特定領(lǐng)域的研究, 「術(shù)語滿天飛」是常態(tài), 而我一向的觀點(diǎn)認(rèn)為 -- 術(shù)語是一道無形的墻, 看似很難, 實(shí)則只是「知道就很簡單, 不知道以為很難」. 同時(shí), 它們也代表著這個(gè)領(lǐng)域的知識儲備.
- 數(shù)據(jù)科學(xué)從業(yè)者的參考書: 實(shí)用統(tǒng)計(jì)學(xué)術(shù)語 + 數(shù)據(jù)挖掘行為和實(shí)踐. 同理, 非數(shù)據(jù)科學(xué)從業(yè)者, 更多的是了解概念, 加深對數(shù)據(jù)科學(xué)的印象, 以及嘗試 run 一下示例.
- 代碼使用 R 語言: 語言都是圖靈完備的, R 語言能實(shí)現(xiàn)的, 作為數(shù)據(jù)分析的大戶 Python 語言也一定可以. 但是能熟練使用 R 語言的人就不那么多了. 雖然 docker run 一個(gè) R 語言環(huán)境很簡單, 面對起代碼來還是有 「熟悉度」 帶來的不小障礙
note
本書并非又一本統(tǒng)計(jì)學(xué)教程, 也不是機(jī)器學(xué)習(xí)手冊. 它運(yùn)用清晰的解釋和豐富的示例, 將實(shí)用的統(tǒng)計(jì)學(xué)術(shù)語與當(dāng)下的數(shù)據(jù)挖掘行為和實(shí)踐聯(lián)系起來. 對數(shù)據(jù)科學(xué)從業(yè)者來說, 這都是一本非常出色的參考書.
- 為什么探索性數(shù)據(jù)分析是數(shù)據(jù)科學(xué)關(guān)鍵的第一步
- 隨機(jī)抽樣如何降低偏差, 生成高質(zhì)量數(shù)據(jù)集
- 實(shí)驗(yàn)設(shè)計(jì)原則如何針對問題生成確定性答案
- 如何使用回歸方法估計(jì)結(jié)果并檢測異常
- 用于預(yù)測記錄所屬類別的主要分析分類方法
- 從數(shù)據(jù)中「學(xué)習(xí)」的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法
- 從未標(biāo)記數(shù)據(jù)中提取有意義信息的無監(jiān)督學(xué)習(xí)方法
如果你不知道自己在尋找什么, 那么努力尋找吧, 終會發(fā)現(xiàn)它. -- Yogi Berra
為此, 人們提出了統(tǒng)計(jì)假設(shè)檢驗(yàn)方法, 目的是使研究人員免受隨機(jī)性的愚弄.
正則化是一種通過修改的代價(jià)函數(shù)去 「懲罰」 模型復(fù)雜度(聯(lián)想一下奧卡姆剃刀原理)的技術(shù).
均值回歸現(xiàn)象
女士品茶 -- 費(fèi)舍爾 -- 數(shù)理統(tǒng)計(jì)學(xué)簡史(數(shù)理統(tǒng)計(jì)學(xué)史上相對有趣的故事)
提出假設(shè) -> 設(shè)計(jì)實(shí)驗(yàn) -> 收集數(shù)據(jù) -> 推斷/結(jié)論
樸素貝葉斯算法
冷啟動(dòng)問題
EDA, 探索性數(shù)據(jù)分析
estimate 估計(jì)量
metric 度量
EX
統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ): 數(shù)據(jù)挖掘/推理和預(yù)測
統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ) ed2
統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論: 基于 R 應(yīng)用
數(shù)據(jù)挖掘: 實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)
數(shù)理統(tǒng)計(jì)學(xué)簡史
百萬大決定: 世界是如何運(yùn)作的?
PS: 還有許多論文 , 由于沒有受過專門的研究訓(xùn)練, 對論文的處理能力還處在捉襟見肘階段, 只羅列了部分參考書籍.