一苦掘、全書提綱
記錄全書主要內(nèi)容和次要內(nèi)容,整理全書大綱
全書提綱結(jié)構(gòu)圖
每章內(nèi)容記錄摘抄
第一章?信息圖形化:第一印象
第二章?集中趨勢的量度:中庸之道
第三章?分散性與變異性的量度:強(qiáng)大的“距”
第四章?概率計算:把握機(jī)會
第五章?離散概率分布的運用:善用期望
第六章?排列與組合:排序反番、排位、排
第七章?幾何分布、二項分布及泊松分布:堅持離散
第八章?正態(tài)分布的運用:保持正態(tài)
第九章?再談?wù)龖B(tài)分布的運用:超越正態(tài)
第十章?統(tǒng)計抽樣的運用:抽取樣本
第十一章?總體和樣本的估計:進(jìn)行預(yù)測
第十二章?置信區(qū)間的構(gòu)建:自信地猜測
第十三章?假設(shè)檢驗的運用:研究證據(jù)
第十四章?χ2 分布:繼續(xù)探討
第十五章?相關(guān)與回歸:我的線條如何存筏?
二罢绽、評論心得
對書中內(nèi)容發(fā)表評論或自己的心得
全書整體評價
這本書和《深入淺出數(shù)據(jù)分析》屬于同一個系列畏线,兩本書有部分內(nèi)容相通的,這本書同樣的風(fēng)格是內(nèi)容比較生動有趣良价。讀完后對貝葉斯定理寝殴、卡方分布蒿叠、抽樣統(tǒng)計、線性回歸蚣常、皮爾森系數(shù)市咽、抽樣的方差為什么除以n-1,都有了新的認(rèn)識抵蚊,對統(tǒng)計學(xué)的一些相關(guān)內(nèi)容更加熟悉和有信心了施绎。
各部分單獨評價
第一章~第六章
前六章的內(nèi)容比較基礎(chǔ),主要講了直方圖贞绳,條形圖谷醉,折線圖,均值冈闭,中位數(shù)俱尼,眾數(shù),四分位數(shù)萎攒,k分位數(shù)遇八,方差,標(biāo)準(zhǔn)差耍休,韋恩圖(高中稱之為“文氏圖”)刃永,互斥事件,相關(guān)事件羊精,獨立事件揽碘,條件概率,貝葉斯定理(這個與“獨立事件概率”在文本自動分類中被廣泛運用)园匹,概率分布雳刺,期望,排列與組合裸违。每章內(nèi)容都會設(shè)計一個場景來將所有知識點穿起來掖桦,這樣比較生動,記憶深刻供汛。比如“小孩游泳班的平均年齡異城雇簦”引出“眾數(shù)”這個概念。用“輪盤賭每格的顏色和奇偶性”引出“相關(guān)事件”和“相關(guān)事件的概率”等等怔昨,還有很多例子雀久。
第七章~第九章
這三章主要講解了一些常見的離散的概率分布:
幾何分布:事件概率相同且獨立事件第一次發(fā)生的概率
二項分布:事件概率相同且獨立的事件在n次中發(fā)生指定次數(shù)的概率
珀松分布:單獨事件在給定區(qū)間的次數(shù),求出發(fā)生特定次數(shù)的概率
特備值得指數(shù)的是二項分布在n很大時趁舀,計算量很大赖捌,如果此時概率p很小(p<0.1)矮烹,那么可以用珀松分布近似計算二項分布越庇。除了介紹離散的概率分布外罩锐,還介紹了應(yīng)用最為廣泛的連續(xù)概率分布——正太分布(又稱“高斯分布”)。因為自然界中很多現(xiàn)象都可以用正太分布建模卤唉,比如人類的身高涩惑,體重等。如果能夠用正太分布建模桑驱,那么可以很方便的計算出概率(通過標(biāo)準(zhǔn)化后查表獲得)竭恬。正太分布還有一個特性:當(dāng)n很大,并且p符合一定條件時熬的,可以用正太分布近似計算“二項分布”(np>5且nq>5)和“珀松分布”(λ>15時)痊硕,但是需要進(jìn)行連續(xù)性修正。
第十章~第十五章
最后六個章節(jié)主要介紹了概率統(tǒng)計在實際中的運用:
抽樣:如果需要研究的整體比較大悦析,基本上無法對所有單位進(jìn)行度量寿桨,因為這樣費時費力此衅,那么就需要通過抽取相對較小的一部分來研究總體强戴,這個過程叫抽樣。抽取過程中需要使用一些技巧使得樣本無偏挡鞍,也就是使得樣本最大限度的代表整體骑歹,有樣本的特性估計整體特性(如期望和方差)。其實抽樣的過程也是符合概率的墨微。樣本無偏的概率是可以記過正太分布計算出來的道媚,而且最重要的是,樣本越大翘县,無偏的幾率也就越大最域。同時,了解到抽樣方差除以n-1是為了是猜測的方差結(jié)果更接近總體方差锈麸。
置信區(qū)間:仍然是通過樣本估計總體镀脂,但是不是給出精確的數(shù)字,而是給出對總體特性估計的范圍和處于此范圍的概率忘伞。
假設(shè)檢驗:采用樣本數(shù)據(jù)薄翅,判斷總體的斷言是否可信。主要的思想是先假設(shè)成立氓奈,然后在樣本中努力找到證據(jù)推翻假設(shè)翘魄。
卡方分布:卡方分布是另外一種連續(xù)的正太分布,可以用于優(yōu)度擬合(檢驗分布與樣本期望的相關(guān)性)和獨立性檢驗舀奶。
相關(guān)與回歸:此章講解了最小二乘線性回歸的運用暑竟,同時引出了相關(guān)系數(shù)(又稱“皮爾森系數(shù)”)的使用場景(此系數(shù)在度量向量關(guān)系方面使用廣泛)。