因為教書宾肺,所以,在講解相關的概念和技術的時候侵俗,總是習慣首先從大處著眼
爱榕,然后在小處入手
。所謂從大處著眼
坡慌,就是梳理下概念和技術的源流和歷史;在小處入手
就是總是使用具體的例子來講解藻三。這樣洪橘,才能既有對相關專題的宏觀把握,又能直觀地領會背后的數(shù)學棵帽。
統(tǒng)計學
了解統(tǒng)計學思想更為有趣熄求,其實也更為重要
統(tǒng)計學,想來理工科的人都學習過逗概。不過弟晚,可能也都有頭疼的感覺:似乎學習統(tǒng)計學就必須先學習概率論,可概率論就向一座山逾苫,想要弄懂并不容易(我要承認卿城,我是沒有深入體會的)。
因為自己學習某一理論總是習慣了解其后的歷史铅搓,所以瑟押,也了解到統(tǒng)計學早期的一些有趣的軼事。知道星掰,最早使用統(tǒng)計學
來認知社會現(xiàn)象的時候多望,并不是學會了概率論才行的。更像是氢烘,先做了怀偷,然后才是夯實理論基礎 - 這在數(shù)學發(fā)展的過程中是屢見不鮮的。
約翰 · 格朗特(1620-1674)播玖。他以 1604 年倫敦教會每周一次發(fā)表的 “死亡公報” 為研究資料椎工,在 1662 年發(fā)表了《關于死亡公報的自然和政治觀察》的論著。書中分析了 60 年來倫敦居民死亡的原因及人口變動的關系,首次提出通過大量觀察晋渺,可以發(fā)現(xiàn)新生兒性別比例具有穩(wěn)定性和不同死因的比例等人口規(guī)律镰绎;并且第一次編制了“生命表”,對死亡率與人口壽命作了分析木西,從而引起了普遍的關注畴栖。他的研究清楚地表明了統(tǒng)計學作為國家管理工具的重要作用。
1654年,兩位法國數(shù)學家帕斯卡和費馬通過通信討論解決了由賭徒分配賭金引起的"點數(shù)問題",才標志著概率論的誕生,因此公認的概率論創(chuàng)始人是帕斯卡與費馬八千。
比利時的阿道夫 · 凱特勒(1796-1874)在19 世紀中葉正式把古典概率論引進統(tǒng)計學吗讶,使統(tǒng)計學進入一個新的發(fā)展階段,其主要著作有:《論人類》恋捆、《概率論書簡》照皆、《社會制度》和《社會物理學》等。他主張用研究自然科學的方法研究社會現(xiàn)象沸停。
所以膜毁,了解統(tǒng)計學的思想,并不需要嚴格的概率論的知識愤钾。不過瘟滨,現(xiàn)在的書籍大多秉承了倒敘
的方式,總是將后來的解釋- 也就是理論基礎
先說一大堆能颁,然后才是嚴謹?shù)?/code>將
鮮活的
統(tǒng)計學思想妥善地隱藏在紛繁復雜的各個章節(jié)中杂瘸。很多時候,學習統(tǒng)計學的人在概率論就已經死去了
:smile:
其實伙菊,統(tǒng)計學的很新內容是很簡潔明了的败玉,也就是基于分布的小概率邏輯推斷而已。
核心就是基于分布的小概率邏輯推薦
我們都有這樣的經歷镜硕,當你習慣了每天某一時刻會發(fā)生某件事時(如日出日落)运翼,突然有一天此事不再發(fā)生,你必然會覺得很奇怪谦疾,會推測是不是因為什么原因導致了此事在今天沒有發(fā)生南蹂。
其實,將此種現(xiàn)象在數(shù)學(統(tǒng)計學)中提煉出來就是小概率事件(Small Probability Event)念恍。為了量化這樣的概念六剥,統(tǒng)計學中做了嚴謹?shù)睦碚摌嫿ǎ簿褪歉怕收摰鹊膬r值所在峰伙。
為此疗疟,統(tǒng)計學理論的基本任務就是:
- 某一事件發(fā)生的分布(Distribution)。
- 所謂的分布瞳氓,簡單地講就是事件發(fā)生的頻率策彤。如果事件有多種取值,每一值也就有對應的頻率。這也是早期概率的定義店诗。常見的有四種分布 - 也就是后面正態(tài)裹刮,學生,卡方和費舍爾
- 這里有個問題庞瘸,那就是如何獲得分布捧弃。除了一些理論可以推定的,很多現(xiàn)實中的問題都是通過樣本來推定總體的分布的擦囊。那么违霞,這種推定是否正確?這就是學者要證明的 - 很多時候就需要數(shù)學家了瞬场。概率論便是這類學者要用到的工具买鸽。
- 基于小概率事件(SPE)進行推斷
- 有了前面的分布,在指定事件取值的主要區(qū)間(按照設定的規(guī)則贯被,可以建立取值區(qū)間與可能程度 - 也就是概率 - 的對應關系眼五,即給定98%的可能程度,就有對應的取值范疇)彤灶,那么弹砚,剩下的取值范疇就是所謂的小概率事件的范疇,每一個被小概率事件的范疇覆蓋的取值就是小概率事件了枢希。
- 所謂小概率事件的意義就在于,按照事件取值的可能程度朱沃,小概率事件發(fā)生的可能性是很低的苞轿。如果有一次抽查就遇到了小概率事件,也就是"不應該發(fā)生的發(fā)生了"逗物,這就意味著有兩種推斷:
- 原來的分布是有問題的
- 此次事件是有特殊的原因導致的
常見統(tǒng)計學書籍的章節(jié)雖然很多搬卒,其實都是可以從上面衍生出來的。
基本的四個分布 - 正態(tài)翎卓,學生契邀,卡方和費舍爾
以正態(tài)分布為例
下圖即為標準正態(tài)分布(Standard Normal Distribution)的示意。橫坐標上就是隨機變量(與事件是綁定的)的取值失暴;那個鐘型曲線覆蓋下的面積就是對應于相應取值范疇的可能程度(概率)坯门。例如,變量取值在[0, 0.5]時逗扒,概率是19.1%古戴。
對于像正態(tài)分布這類的對稱形狀,如果指定以0點所在的位置對稱向左右等距擴展作為規(guī)則矩肩,得到的區(qū)間和概率是一一對應的现恼。如,[-1,1]對應的概率就是2*(15+19.1) = 30+38.2 = 68.2%。此時叉袍,-1和1就是概率68.2%所對應的的關鍵值(Critical Value)始锚。
而按照慣例,我們通常會指定比較大的概率(常用的多是大于或等于95% - 如95%喳逛, 96%瞧捌, 98%等)作為事件可能取值的極大可能程度,在統(tǒng)計學中稱為置信度(Confidence Level)艺配。如下圖所示:95.4%是很大的概率了察郁,對應的關鍵值是-2和2,[-2,2]也就是統(tǒng)計學書籍中對應95.4%置信度的置信區(qū)間(Confidence Interval)转唉。
對應的皮钠,排除在置信區(qū)間之外的可能取值范疇就是我們所感興趣的小概率事件區(qū)間(SPE Interval)。如下圖示赠法。如果再一次抽樣中得到的統(tǒng)計變量的值落入此小概率事件區(qū)間中麦轰,那么,按照核心就是基于分布的小概率邏輯推薦中的敘述砖织,我們就有理由做兩種推斷了款侵。
剩下的就是如何計算給定置信度下的置信區(qū)間。這也是統(tǒng)計學書籍的主要內容侧纯。感謝前人的艱苦付出新锈,他們完成了很多分布的計算表格,如果你遇到計算給定置信度下的置信區(qū)間
的問題眶熬,去查表即可妹笆。
說起來,統(tǒng)計學的基本內容也就是圍繞著兩個計算問題展開的:
- 如何基于樣本計算分布的參數(shù)
- 計算給定置信度下的置信區(qū)間
正態(tài)分布下求解雙尾置信區(qū)間的例子
下面給出一個求解置信度95%的雙尾(2 Tails娜氏,也就是要求對稱的置信區(qū)間拳缠。與之對應的是單尾,即對應置信度95%的單尾置信區(qū)間是從-∞到關鍵值)置信區(qū)間的例子贸弥。想要完成計算窟坐,就必須了解如何使用計算表(Table of Normal Distribution)。
想要準確使用計算表绵疲,就要注意與表格對應的示意圖(Indicator)哲鸳。上面圖中左側就是對應的示意圖,表示對應[0,0.45]的概率是0.1736盔憨,即計算表格中深藍色箭頭所示意的帕胆。
如果想要求解置信度95%的雙尾置信區(qū)間,也就是要求找到某個x值般渡,[-x,x]區(qū)間上的概率恰好就是95%懒豹。想要使用上面的計算表格完成x的查找芙盘,就要做一點小小的轉換。
因為正態(tài)分布是對稱的脸秽,那么儒老,[-x,x]區(qū)間上的高綠要保證是95%,也就意味著[0,x]區(qū)間上的概率必須是95%的二分之一记餐,即47.5%=0.4750驮樊。查表得到x=1.96。即置信區(qū)間是[-1.96,1.96]片酝。
注意:此處的示例是對應標準正態(tài)分布的計算囚衔。不過,實際正態(tài)分布變量的置信區(qū)間計算也很簡單雕沿,就是借助正態(tài)分布到標準正態(tài)分布的轉換公即可练湿,也就是上圖中左側示意圖下面所標識的公式,其中z對應標準正態(tài)分布變量审轮,x是實際的變量(當然要要確保x是正態(tài)分布)肥哎,μ和σ是正態(tài)分布的兩個參數(shù) - 均值和標準方差。
Example: Your business – Quality Control:
Your company is majoring to produce some products, whose size is firmly required: μ=21 mm, and the variance should be smaller than σ≤0.1 5 mm.
Today, you pick 9 products from that collection, and measure the average length of those 9 products is 21.4 mm.
Are you confident (95%-2 tail) with the quality of your products?
Solution:
其他分布
前面提到疾渣,統(tǒng)計學的基本內容是依賴于分布的篡诽,一般教科書中提到的主要就是四種分布 - 前面的正態(tài)分布,學生分布榴捡,卡方分布杈女,以及費舍爾分布。
如下圖所示吊圾,針對不同的統(tǒng)計變量碧信,就會有已經證明了的統(tǒng)計分布與之相對應;而剩下的計算也仍然是前面介紹的套路:或者估計相應分部的參數(shù)街夭;或者計算給定置信度的置信區(qū)間,然后進行推斷躏筏。
其中比較有趣的是所謂的ANOVA - ANalysis Of VAriance (方差估計)板丽。雖然名字里有方差一次,實際的應用跟方差沒啥關系趁尼。有興趣的請自行檢索埃碱。
統(tǒng)計學章節(jié)概覽
在有了前面的儲備后,看看常見的統(tǒng)計學的書籍酥泞,也就沒那么障礙了砚殿。
[概率論與數(shù)理統(tǒng)計]
https://book.douban.com/subject/2201479/
作者: 陳希孺
出版社: 中國科學技術大學出版社
出版年: 2009-2
頁數(shù): 385
定價: 38.00元
叢書: 陳希孺文集
ISBN: 9787312018381
章節(jié)目錄 | 備注 |
---|---|
總序 序 第1章 事件的概率 第2章 隨機變量及概率分布 第3章 隨機變量的數(shù)字特征 |
概率論的東西 |
第4章 參數(shù)估計 4.1 數(shù)理統(tǒng)計學的基本概念 4.2 矩估計、極大似然估計和貝葉斯估計 4.3 點估計的優(yōu)良性準則 4.4 區(qū)間估計 |
對應分布的估計芝囤,顯然包括區(qū)間估計的計算 |
第5章 假設檢驗 |
其實是基于小概率事件邏輯推斷的一種描述而已似炎,核心的計算仍然是小概率區(qū)間辛萍。 當基于樣本得到的值落在小概率區(qū)間,則推翻零假設羡藐;否則不能推翻 切記:不能推翻零假設贩毕,并不意味著就證明零假設是對的! |
第6章 回歸仆嗦、相關與方差分析 6.1 回歸分析的基本概念 6.2 一元線性回歸 6.3 多元線性回歸 6.4 相關分析 6.5 方差分析 |
這里的內容都會發(fā)現(xiàn)完成復雜的運算辉阶,而基于分布的計算部分仍然是類似的 例如線性回歸后估計預測的可信度;相關分析是否可信瘩扼;ANOVA 能否否定產品不同設計與銷售沒有關系谆甜,等 |
附錄 習題 習題提示與解答 附表 |
其實,還有一些統(tǒng)計學書籍也會講因子分析集绰、PCA等內容納入规辱。不贅述 |
多元統(tǒng)計分析章節(jié)概覽
[應用多元統(tǒng)計分析]
https://book.douban.com/subject/1239695/
作者: 高惠璇
出版社: 北京大學出版社
出版年: 2005-1
頁數(shù): 419
定價: 28.00元
裝幀: 簡裝本
叢書: 北京大學數(shù)學教學系列叢書
ISBN: 9787301078587
目錄 | 備注 |
---|---|
第一章 緒論 第二章 多元正態(tài)分布及參數(shù)的估計 第三章 多元正態(tài)總體參數(shù)的假設檢驗 第四章 回歸分析 |
嗯,雖則內容肯定不同倒慧;但套路應該還是類似的 |
第五章 判別分析 §5.1 距離判別 §5.2 貝葉斯(Bayes)判別法及廣義平方距離判別法 §5.3 費希爾(Fisher)判別 §5.4 判別效果的檢驗及各變量判別能力的檢驗 §5.5 逐步判別 習題五 |
這在數(shù)據(jù)挖掘(Data Mining)里會歸入分類按摘,在機器學習(Machine Learning)里歸入指導下的學習算法(Suppersized Learning) |
第六章 聚類分析 §6.1 聚類分析的方法 §6.2 距離與相似系數(shù) §6.3 系統(tǒng)聚類法 §6.4 系統(tǒng)聚類法的性質及類的確定 §6.5 動態(tài)聚類法 §6.6 有序樣品聚類法(最優(yōu)分割法) §6.7 變量聚類方法 |
這在數(shù)據(jù)挖掘(Data Mining)里會歸入聚類,在機器學習(Machine Learning)里歸入無指導下的學習算法(Unsuppersized Learning) |
第七章 主成分分析 §7.1 總體的主成分 §7.2 樣本的主成分 §7.3 主成分分析的應用 |
就是PCA了纫谅,不依賴分布了 |
第八章 因子分析 §8.1 引言 §8.2 因子模型 …… |
不要跟基于回歸的影響因子分析相混淆炫贤。 |
第九章 對應分析方法 |
以后再了解吧 |
第十章 典型相關分析 |
相關呀 |
第十一章 偏最小二乘回歸分析 |
這是從優(yōu)化論的角度計算回歸問題 |
附錄 矩陣代數(shù) 部分習題參考解答或提示 參考文獻 主要符號說明 索引 |
個人覺得,多元統(tǒng)計分析付秕,很多內容已經跟后來的數(shù)據(jù)挖掘和機器學習相重合了兰珍。已經不是嚴重依賴分布的統(tǒng)計學傳統(tǒng)套路了。不過询吴,這類方法也仍然稱之為統(tǒng)計學習(Statistical Learning)
[統(tǒng)計學習方法(第2版)]
https://book.douban.com/subject/33437381/
統(tǒng)計學習方法
[統(tǒng)計學習方法(第2版)]
https://book.douban.com/subject/33437381/
作者: 李航
出版社: 清華大學出版社
出版年: 2019-5-1
頁數(shù): 464
定價: 98.00元
裝幀: 平裝
ISBN: 9787302517276
目錄
第一篇 監(jiān)督學習
第二篇 無監(jiān)督學習
第13章 無監(jiān)督學習概論
13.1.1 無監(jiān)督學習基本原理
13.1.2 基本問題
13.1.3 機器學習三要素
13.1.4 無監(jiān)督學習方法
第14章 聚類方法
14.1 聚類的基本概念
14.1.1 相似度或距離
14.1.2 類或簇
14.1.3 類與類之間的距離
14.2 層次聚類
14.3 k均值聚類
14.3.1 模型
14.3.2 策略
14.3.3 算法
14.3.4 算法特點
本章概要
第15章 奇異值分解
15.1 奇異值分解的定義與性質
15.1.1 定義與定理
15.1.2 緊奇異值分解與截斷奇異值分解
15.1.3 幾何解釋
15.1.4 主要性質
15.2 奇異值分解的計算
15.3 奇異值分解與矩陣近似
15.3.1 弗羅貝尼烏斯范數(shù)
15.3.2 矩陣的優(yōu)近似
15.3.3 矩陣的外積展開式
本章概要
第16章 主成分分析
16.1 總體主成分分析
16.1.1 基本想法
16.1.2 定義和導出
16.1.3 主要性質
16.1.4 主成分的個數(shù)
16.1.5 規(guī)范化變量的總體主成分
16.2 樣本主成分分析
16.2.1 樣本主成分的定義和性質
16.2.2 相關矩陣的特征值分解算法
16.2.3 數(shù)據(jù)局正的奇異值分解算法
本章概要
繼續(xù)閱讀
習題
參考文獻
第17章 潛在語義分析
17.1 單詞向量空間與話題向量空間
17.1.1 單詞向量空間
17.1.2 話題向量空間
17.2 潛在語義分析算法
17.2.1 矩陣奇異值分解算法
17.2.2 例子
17.3 非負矩陣分解算法
17.3.1 非負矩陣分解
17.3.2 潛在語義分析模型
17.3.3 非負矩陣分解的形式化
17.3.4 算法
本章概要
第18章 概率潛在語義分析
18.1 概率潛在語義分析模型
18.1.1 基本想法
18.1.2 生成模型
18.1.3 共現(xiàn)模型
18.1.4 模型性質
18.2 概率潛在語義分析的算法
本章概要
第19章 馬爾可夫鏈蒙特卡羅法
19.1 蒙特卡羅法
19.1.1 隨機抽樣
19.1.2 數(shù)學期望估計
19.1.3 積分計算
19.2 馬爾可夫鏈
19.2.1 基本定義
19.2.2 離散狀態(tài)馬爾可夫鏈
19.2.3 連續(xù)狀態(tài)馬爾可夫鏈
19.2.4 馬爾可夫鏈的性質
19.3 馬爾可夫鏈蒙特卡羅法
19.3.1 基本想法
19.3.2 基本步驟
19.3.3 馬爾可夫鏈蒙特卡羅法與統(tǒng)計學習
19.4 Metropolis-Hastings算法
19.4.1 基本原理
19.4.2 Metropolis-Hastings算法
19.4.3 單分量Metropolis-Hastings算法
19.5 吉布斯抽樣
19.5.1 基本原理
19.5.2 吉布斯抽樣算法
19.5.3 抽樣計算
本章概要
第20章 潛在狄利克雷分配
20.1 狄利克雷分布
20.1.1 分布定義
20.1.2 共軛先驗
20.2 潛在狄利克雷分配模型
20.2.1 基本想法
20.2.2 模型定義
20.2.3 概率圖模型
20.2.4 隨機變量序列的可交換性
20.2.5 概率公式
20.3 LDA的吉布斯抽樣算法
20.3.1 基本想法
20.3.2 算法的主要部分
20.3.3 算法的后處理
20.3.4 算法
20.4 LDA的變分EM算法
20.4.1 變分推理
20.4.2 變分EM算法
20.4.3 算法推導
20.4.4 算法總結
本章概要
第21章 PageRank算法
21.1 PageRank的定義
21.1.1 基本想法
21.1.2 有向圖和隨機游走模型
21.1.3 PageRank的基本定義
21.1.4 PageRank的一般定義
21.2 PageRank的計算
21.2.1 迭代算法
21.2.2 冪法
21.3.3 代數(shù)算法
本章概要
第22章 無監(jiān)督學習方法總結
22.1 無監(jiān)督學習方法的關系和特點
22.1.1 各種方法之間的關系
22.1.2 無監(jiān)督學習方法
22.1.3 基礎及其學習方法
22.2 話題模型之間的關系和特點
參考文獻
附錄A 梯度下降法
附錄B 牛頓法和擬牛頓法
附錄C 拉格朗日對偶性
附錄D 矩陣的基本子空間
附錄E KL散度的定義和狄利克雷分布的性質
索引
題外話
仍然是:證明才難掠河!不過,先體會整體框架也同樣重要C图啤唠摹!
那些分布函數(shù)的由來
了解一下分布的由來也很有趣
- [正態(tài)分布的前世今生]
- [數(shù)理統(tǒng)計學簡史]
https://book.douban.com/subject/1522839/
涉及經濟民生的那些指數(shù)
CPI,GDP之類
還有股票市場的那些指數(shù)
一些有趣的視頻
BBC拍了幾部有關數(shù)據(jù)分析的視頻奉瘤,值得看看
- 2010.BBC.樂在其中統(tǒng)計學.The.Joy.of.Stats
- 2013.BBC.地平線.大數(shù)據(jù)時代.horizon.the.age.of.big.data
- 2016.BBC.The.Joy.of.Data
最后是幾本專業(yè)書
- [Statistical Methods for the Social Sciences, 4/E]
https://book.douban.com/subject/3868520/
- [應用多元統(tǒng)計分析]
https://book.douban.com/subject/1239695/
- [實用多元統(tǒng)計分析]
https://book.douban.com/subject/3519805/