《女士品茶》讀書筆記之一
最近整理以前看過的書,想了想先從《女士品茶》開始堕伪,正如這本書的自序所言栗菜,全書沒有關(guān)于概率統(tǒng)計(jì)的抽象概念欠雌,但是卻介紹了一些概率統(tǒng)計(jì)在各個(gè)領(lǐng)域的應(yīng)用。這幾篇系列文章將依托于《女士品茶》這本書富俄,對概率統(tǒng)計(jì)世界的那些八卦做一些梳理,供茶余飯后一樂呵霍比。
隨機(jī)性 概率和統(tǒng)計(jì)
隨機(jī)性,概率和統(tǒng)計(jì)這三個(gè)名詞經(jīng)常會(huì)同時(shí)出現(xiàn)暴备,以至于很多人都會(huì)把它們混為一談,其實(shí)這三個(gè)數(shù)學(xué)概念有著巨大的區(qū)別。
所謂隨機(jī)性通常都是不可預(yù)測的同義詞望迎,但是在數(shù)學(xué)中隨機(jī)性并非不可預(yù)測出乎意料,隨機(jī)事件都擁有一個(gè)可以進(jìn)行數(shù)學(xué)描述的結(jié)構(gòu)凌外。
而概率表達(dá)的是人們對于可能發(fā)生的事件的感受。概率的數(shù)學(xué)理論中具有復(fù)雜的方法用于計(jì)算事件發(fā)生的概率康辑,并且這其中伴隨著很多重要定律的產(chǎn)生。
統(tǒng)計(jì)分布概念的提出很大程度上是概率理論的功勞疮薇,但是概率理論本身又不足以描述統(tǒng)計(jì)方法,有時(shí)科學(xué)上的統(tǒng)計(jì)方法還會(huì)違反某些概率定律惦辛。
一切要從那位喝茶的姑娘開始
雖然這本書的名字叫做《女士品茶》,不過這本書和女士以及茶都沒有什么關(guān)系胖齐。但是整個(gè)概率統(tǒng)計(jì)的歷史又必須從一個(gè)喝茶的姑娘開始玻淑。
題外話呀伙,如果你就在電腦邊不妨立刻打開R,然后輸入
?fisher.test()
查看fisher.test在R中的幫助文檔剿另,其中對該檢驗(yàn)使用的示例就是一個(gè)女士喝茶的故事箫锤。
20實(shí)際20年代末雨女,有一天幾個(gè)劍橋的老師和他們的家人在一起喝下午茶谚攒。本來一起喝茶無非就是聊聊哪個(gè)同事又申請上基金哪個(gè)同事打算跳槽氛堕,但是有一個(gè)女士偏偏跳出來破環(huán)氛圍,堅(jiān)定地認(rèn)為這個(gè)奶茶先放奶還是先放茶會(huì)有極大的差別讼稚。然后一個(gè)叫做羅納德埃爾默費(fèi)希爾的老哥就陷入了沉思括儒,他在思考锐想,心里琢磨如何才能判斷這個(gè)不知道是誰家姑娘的話到底是對還是錯(cuò)。于是乎他們一幫人就用各種方式泡了好多杯奶茶讓這位女士依次品嘗赠摇。
整個(gè)實(shí)驗(yàn)過程在費(fèi)希爾的《實(shí)驗(yàn)設(shè)計(jì)》這本書中有詳細(xì)的論述固逗。主要問題就在于給她多少杯茶合適,她猜對多少才算真能喝出差別抒蚜,同時(shí)需要給這位女士透露多少信息等。但是書中并沒有寫真的存在這么一件品茶的故事嗡髓。
品茶故事暫且告一段落操漠,但是《實(shí)驗(yàn)設(shè)計(jì)》這本書對20世紀(jì)的前50年產(chǎn)生了暴風(fēng)般的影響饿这。要知道浊伙,在此之前所有的科學(xué)實(shí)驗(yàn)都是說不清為什么要這么做长捧,做完實(shí)驗(yàn)也不會(huì)把所有結(jié)果全部公布嚣鄙。其中最著名的一個(gè)例子或許就是孟德爾同學(xué)的豌豆實(shí)驗(yàn),那個(gè)神奇的3:1分離比串结。如今的您可能很難想象他的結(jié)論是這樣描述的:兩組實(shí)驗(yàn)的前10個(gè)結(jié)果可以說明……
費(fèi)希爾的貢獻(xiàn)就在于完全改變了這一局面哑子,比如人們曾經(jīng)爭論了20年哪種肥料更有效,最后他的結(jié)論是那些數(shù)據(jù)和天氣的關(guān)系更大而與肥料無關(guān)肌割。意不意外卧蜓,驚不驚喜。
至于那個(gè)品茶的女士把敞,據(jù)當(dāng)時(shí)在場的其他人回憶弥奸,她的所有判斷全部正確。意不意外奋早,驚不驚喜盛霎。
自己的坑自己來填
這一趴首先出場的配角是英國科學(xué)家弗朗西斯高爾頓,作為一名正牌爵士耽装,他最大的貢獻(xiàn)其實(shí)是發(fā)現(xiàn)了指紋獨(dú)一無二的特性愤炸,而且還做了分類和識(shí)別的方法,類似于指紋這種不規(guī)則的凹凸也被稱為“高爾頓標(biāo)識(shí)”掉奄。也就是說规个,今天你每次在使用指紋給手機(jī)解鎖的時(shí)候都應(yīng)該默念一句“感謝老高”。
對于統(tǒng)計(jì)挥萌,他的貢獻(xiàn)則在于:因?yàn)樗浅OM褦?shù)學(xué)的嚴(yán)謹(jǐn)性帶到生物學(xué)中绰姻,為此統(tǒng)計(jì)了大量的父子身高數(shù)據(jù)枉侧。然后發(fā)現(xiàn)了一個(gè)重要的現(xiàn)象“均值回歸”引瀑。一句話解釋就是“高爸爸的兒子雖然高但是比高爸爸矮榨馁,矮爸爸的兒子雖然也矮但是個(gè)子比矮爸爸高”憨栽!你可別看這句話和繞口令一樣,但是均值回歸延申出來的統(tǒng)計(jì)模型卻主導(dǎo)了如今的經(jīng)濟(jì)學(xué)和工程學(xué)。
如果說均值回歸的意義就是人類的身高基本穩(wěn)定屑柔,不會(huì)因?yàn)椤案甙职值膬鹤颖雀甙职指呗庞职謨鹤颖劝职职倍斐扇祟惿砀叩难杆賰蓸O分化,從而確保物種的平衡和相似掸宛。進(jìn)而高爾頓又給出了相關(guān)系數(shù)的概念死陆。
故事到這里,配角就該告一段落了唧瘾,真正把相關(guān)系數(shù)用公式完整表達(dá)出來的則是他的學(xué)生卡爾皮爾遜措译。而他也是這一趴的主人公。皮爾遜的革命性思想在于闡明了實(shí)驗(yàn)結(jié)果并非是仔細(xì)測量的精確值饰序,而只是一些數(shù)字的分布领虹,進(jìn)而這些分布可以寫成公式來描述觀測值等于給定值的概率。一句話就是在實(shí)驗(yàn)里求豫,我們只談數(shù)值的概率而不談確定的值塌衰。
既然我們測到的不是真的,就需要來解決隨機(jī)屬性的問題蝠嘉,于是就有了所謂的鐘形曲線或者正態(tài)分布最疆。
說到正態(tài)分布,當(dāng)我在讀這一章節(jié)的時(shí)候是晨,最吸引我的其實(shí)不是正文的內(nèi)容肚菠,而是腳注對于正態(tài)分布的注解。
正態(tài)分布有時(shí)又叫高斯分布罩缴,這是因?yàn)槿藗冊?jīng)認(rèn)為高斯是第一個(gè)寫出正態(tài)分布公式的人蚊逢。實(shí)際上,首個(gè)寫下正態(tài)分布公式的不是卡爾·弗里德里象镎拢·高斯烙荷,而是一位更早的數(shù)學(xué)家,名叫亞伯拉罕·棣莫弗檬寂。另外终抽。我們有理由相信。在此之前桶至,丹尼爾·伯努利曾在無意中發(fā)現(xiàn)了這個(gè)公式昼伴。這些事實(shí)可以證明當(dāng)代科學(xué)史學(xué)家斯蒂芬·施蒂格勒所說的誤稱定律,即數(shù)學(xué)上一切以入命名的概念都不是以發(fā)現(xiàn)者的名字命名的镣屹。
皮爾遜在正態(tài)分布的基礎(chǔ)上提出了所謂的“偏斜分布”圃郊,同時(shí)定義了這個(gè)體系中的四個(gè)重要的參數(shù):均值,標(biāo)準(zhǔn)差女蜈,對稱度和峰度持舆。這個(gè)事情在我們今天看來,其實(shí)就是我們所有觀測的東西都需要這四個(gè)參數(shù)來描述居兆,但是我們永遠(yuǎn)無法真的知道這四個(gè)參數(shù)泥栖,只能用已有的數(shù)據(jù)去估計(jì)聊倔。即參數(shù)估計(jì)耙蔑。
這一部分的結(jié)尾也是這一章節(jié)的高潮甸陌,當(dāng)然也是我覺得最喜感的地方钱豁。
為了應(yīng)用自己的研究成果牲尺,皮爾遜和他的幾個(gè)老鐵創(chuàng)辦了《生物統(tǒng)計(jì)》雜志幌蚊,本意是要用他們的數(shù)學(xué)思想證明達(dá)爾文關(guān)于進(jìn)化論的觀點(diǎn)。簡單說就是算出某一個(gè)物種某種特點(diǎn)的全部四個(gè)參數(shù),進(jìn)而觀察這四個(gè)參數(shù)的變化搓茬。然而事與愿違卷仑,雖然他們收到了世界各地超級多的數(shù)據(jù)锡凝,但最后僅僅把雜志變成了為了數(shù)據(jù)而數(shù)據(jù)的堆砌私爷。
在這個(gè)過程中衬浑,1908年工秩,一個(gè)作者使用 “學(xué)生” 的筆名提出了一種叫做 “t 檢驗(yàn)” 的思想助币,也就是所謂的“student t test”螟碎。這是這位“學(xué)生”的首次登場掉分,后面還有他的故事。
在皮爾遜為了證明達(dá)爾文進(jìn)化論而努力的生涯中华坦,他曾經(jīng)在《生物統(tǒng)計(jì)》雜志發(fā)表了一篇文章,論述澳大利亞土著人和歐洲人身體測量結(jié)果具有相同分布歹袁,同時(shí)提出了一種叫做“擬合優(yōu)度檢驗(yàn)”的統(tǒng)計(jì)工具宇攻,“擬合優(yōu)度檢驗(yàn)”這個(gè)家伙可以說非常厲害逞刷,能用來判斷一組觀測值是否符合某個(gè)預(yù)期分布夸浅。
它厲害到什么程度呢帆喇?老皮爾遜的兒子埃貢皮爾遜后來就是用老爺子的“擬合優(yōu)度檢驗(yàn)”推翻了大部分老皮爾遜生前的工作坯钦。對于卡爾皮爾遜來說婉刀,正所謂“自己挖的坑突颊,終究要由自己來填”洗显。
未完待續(xù)……