本來這周的安排是寫方差和標(biāo)準(zhǔn)差。動筆之后绰筛,發(fā)現(xiàn)不先說清楚樣本和整體枢泰,方差什么的就只是個(gè)名詞而已。
先稍微講一下數(shù)學(xué)铝噩,畢竟統(tǒng)計(jì)就是數(shù)學(xué)的一個(gè)分支衡蚂。通過票圈大家知道了著名的裝逼名言:世界有三類人,數(shù)學(xué)家骏庸、實(shí)現(xiàn)數(shù)學(xué)家預(yù)言的工程師毛甲,和…其他人。是不是特別像“一等男人開政府具被、二等男人開保險(xiǎn)公司玻募、剩下都是三等男人”,吼吼吼~
但是一姿,數(shù)學(xué)給人感覺其實(shí)還是“沒用”七咧。這個(gè)直觀的感覺是對的改执,純粹的數(shù)學(xué)是沒有什么“用”的。我們用等速螺線來描述鸚鵡螺殼的優(yōu)美曲線坑雅,但鸚鵡螺的生長原則其實(shí)很簡單,不過就是最大可能利用上一個(gè)空間的一條邊的情況下衬横,用最少的幾丁質(zhì)材料做一個(gè)盡可能大的新空間裹粤。這個(gè)“邏輯”的結(jié)果,就是一條近似完美的等速螺線蜂林。受重力影響足夠大的物體幾乎都是球體也是類似道理遥诉。所以數(shù)學(xué)是一種“邏輯”,表述了一種“原理”噪叙,闡述了對現(xiàn)實(shí)的一種“理解”或者“觀點(diǎn)”矮锈。比較過分的是,為了高效睁蕾,或者裝逼,那些數(shù)學(xué)家硬生生把自然語言改成了代數(shù)公式,相當(dāng)于把Python搞成了匯編畸陡,結(jié)果就是大部分人瘋了坦刀。周誥殷盤,佶屈聱牙臭杰。
好了回到統(tǒng)計(jì)粤咪。不知道有沒有人和我一樣,第一次接觸統(tǒng)計(jì)的時(shí)候會困惑為啥要研究這么個(gè)東西渴杆?后來學(xué)了經(jīng)濟(jì)學(xué)和心理學(xué)寥枝,這個(gè)問題才慢慢有點(diǎn)模模糊糊的答案。
第一個(gè)答案是:窮磁奖。對某件事情的了解囊拜,最直白莫過于普查。想要知道中國人口的情況点寥,做人口普查最準(zhǔn)確艾疟、最直接了。為啥不這么干呢敢辩?貴氨卫场!老這么干GDP都拿去填人口普查的坑了戚长。
第二個(gè)答案是:焦慮盗冷。人的本性就是好奇。越不知道越想知道同廉,不知道的未來也非要加一個(gè)解釋仪糖。還要問柑司,這個(gè)解釋靠不靠譜啊…
于是,窮且焦慮的人類锅劝,創(chuàng)造了統(tǒng)計(jì)攒驰。當(dāng)然,我們這么有想象力的故爵、窮且焦慮的人類還創(chuàng)造了很多“統(tǒng)計(jì)”玻粪,比如星座配對啊,摸骨測字算命啊~開會報(bào)數(shù)诬垂,撒謊耍賴劲室,互相死懟,等等等等~
窮怎么解決呢结窘?整體搞不定很洋,那就劃個(gè)小圈子唄,劃圈子的動作就是“抽樣”隧枫。這個(gè)小圈子呢喉磁,就是“樣本”。對于這個(gè)樣本悠垛,我們就可以進(jìn)行各種自己看感興趣的研究了线定。好了,研究來研究去确买,這個(gè)結(jié)果終究是樣本的情況斤讥。那么樣本對于整體意味著什么呢?這個(gè)就是統(tǒng)計(jì)解決的問題了湾趾,利用數(shù)學(xué)的邏輯芭商,去“證明”整體的情況“類似于”樣本。雖然預(yù)算少搀缠,我們也可以認(rèn)為“基本”知道了整體情況铛楣。舉個(gè)例子,想要知道下大學(xué)生畢業(yè)平均薪水的情況艺普◆ぶ荩可以抽樣100個(gè)大學(xué)生畢業(yè)的薪水,計(jì)算這100個(gè)學(xué)生的平均薪水歧譬,然后再推論“所有符合條件”的大學(xué)生畢業(yè)薪水的平均數(shù)岸浑,就是“近似于”這100個(gè)樣本的平均薪水。
細(xì)心點(diǎn)的讀者馬上就會發(fā)現(xiàn)瑰步,這“抽樣”里的花樣就多了矢洲。比如,你去知乎用戶里抽樣這100個(gè)缩焦,可能結(jié)論就是平均畢業(yè)薪水50萬…呵呵读虏,有沒有被平均的感覺责静?這就涉及到了“隨機(jī)抽樣”的問題,這里不展開盖桥,留個(gè)#TODO灾螃。
除了經(jīng)濟(jì)上的原因,有時(shí)候整體的情況在當(dāng)代的科技水平下揩徊,是真的不可知睦焕。比如天文學(xué)和天體物理學(xué)都會研究宇宙的恒星數(shù)量和物質(zhì)總量,但是這個(gè)真不知道確切的數(shù)字靴拱。只能通過“可觀測的宇宙”,再用統(tǒng)計(jì)的方式來推測整個(gè)宇宙的情況猾普。
那么袜炕,焦慮怎么辦?答案是概率初家。相信大家直覺上都馬上就明白了偎窘,樣本的情況(或者專業(yè)點(diǎn)講:特征集合)一定是能“在一定程度上”表述整體的情況的。不然溜在,我們不太蠢了么… 關(guān)鍵在于“多大程度上”陌知。概率分布可以用了表達(dá)對某個(gè)?事件(比如樣本平均數(shù)是否等于整體平均數(shù))的可信程度(置信區(qū)間)。以前特別熱門的Six Sigma概念就是基于正態(tài)分布的置信掖肋。
說起概率仆葡,大家一定會提到“拋硬幣”。拋的次數(shù)多了志笼,正反面出現(xiàn)的概率就慢慢穩(wěn)定在了50%沿盅。這個(gè)就是古典概率里的頻率穩(wěn)定的方式來描述概率。其實(shí)纫溃,還有貝葉斯學(xué)派對概率的解釋腰涧,認(rèn)為概率是對某個(gè)事件的信心表述。貝葉斯的概念是個(gè)非常重要的概念紊浩,有興趣的讀者可以自己“深度學(xué)習(xí)”一下窖铡。
這么一想,統(tǒng)計(jì)的最淺層的存在意義就是:用加班和便當(dāng)來描述詩和遠(yuǎn)方坊谁,再問你信不信這碗雞湯费彼。咳咳呜袁,用樣本的情況來描述整體敌买,并且給出這個(gè)情況的可信程度。
那么統(tǒng)計(jì)對你有啥意義阶界?好吧虹钮,統(tǒng)計(jì)會改變你的思維模式聋庵。再舉例說明。用過導(dǎo)航app都知道路線確定后芙粱,程序會給出一個(gè)預(yù)計(jì)到達(dá)時(shí)間祭玉。請問這個(gè)時(shí)間是怎么來的?我問過不少人春畔,基本的回答就是距離除以(平均)速度脱货。當(dāng)然不是咯~ 現(xiàn)實(shí)中的方式是:假定“到達(dá)時(shí)間”是某些特征向量的函數(shù),這些特征可以是“所在城市”律姨、“路線現(xiàn)有擁擠指數(shù)”振峻、“行駛方式”、“是否高峰期”等等择份,通過回歸的方式來預(yù)測扣孟。