說過了均數(shù)馅袁,很多人都會(huì)想到最近非常流行的兩句調(diào)侃“被平均”和“拖后腿”乘瓤。既然我們說了均數(shù)是非常好的代表總體的一個(gè)指標(biāo),那這種感覺是怎么來的呢冲九?直覺錯(cuò)了么谤草?除了故意抬杠的,這個(gè)直覺是有一定道理莺奸。
相信大部分人聽說過“正態(tài)分布”丑孩。這個(gè)正態(tài)分布的英語名字有兩個(gè),一個(gè)是高斯分布灭贷,為的是紀(jì)念它的發(fā)現(xiàn)者數(shù)學(xué)天才高斯温学。而另外一個(gè)呢,就是Normal Distribution氧腰,也就是“正常分布”枫浙。為什么這么說呢刨肃,因?yàn)檫@個(gè)分布在真實(shí)世界里實(shí)在是太常見了(和斐波那契數(shù)列差不多了)。這里我們不展開正態(tài)分布的事箩帚,以后會(huì)講≌嬗眩現(xiàn)在我們只要知道正態(tài)分布很常見。在正態(tài)分布中大部分的數(shù)據(jù)(如果算平均薪水的話紧帕,就是大部分人的薪水的數(shù)值)是集中在整體數(shù)據(jù)的平均數(shù)的附近的盔然。換句話講,就是這個(gè)“均數(shù)”可以代表大部分?jǐn)?shù)據(jù)是嗜。這個(gè)就是我們在統(tǒng)計(jì)意義上愈案,對(duì)“平均”這個(gè)事情的信心來源,通常來說“均數(shù)”代表了大多數(shù)鹅搪,而且這才叫“正痴拘鳎”。
好了丽柿,那么問題來了恢准,既然只是“集中在平均數(shù)附近”,就說明并不是所有數(shù)據(jù)都正好等于均數(shù)(廢話)甫题。超過大家沒意見馁筐,少了就有人覺得被平均了。這里就可以給出一個(gè)概念坠非,離均差敏沉。顧名思義,就是每個(gè)數(shù)據(jù)離開均數(shù)的差距炎码,公式就是做減法盟迟。若代表數(shù)據(jù),
表示均數(shù)辅肾,那么離均差就是
队萤。
一個(gè)數(shù)據(jù)如此,全部數(shù)據(jù)呢矫钓?最簡單的想法就是要尔,把離均差都加起來唄。問題又來了新娜,稍微算一下就知道離均差有正有負(fù)赵辕。如果簡單地加總,那么答案永遠(yuǎn)是零概龄,就失去的比較不同總體(比如上海和北京的平均薪水)的意義还惠,零等于零么。
這里需要進(jìn)行一下數(shù)學(xué)上的處理私杜,把離均差先平方以后再加總蚕键。一來是方便救欧,平方一般都會(huì)算的;另外呢锣光,平方也不影響單調(diào)性笆怠。通俗的說,就是3比2大誊爹,那么3的平方9也比2的平方4大蹬刷,這樣就不影響比較了。于是公式就成了:
問題又來了频丘。不同的總體擁有的數(shù)據(jù)量是不同的办成,比如北京和上海的在職人數(shù)不同,那么人數(shù)多的總體就有可能怎么都比人數(shù)少的那個(gè)大搂漠。北京上海還不明顯迂卢,你要北京和某四線城市比呢?對(duì)吧状答。這時(shí)冷守,我們肯定會(huì)很自然的想,那么再除以這個(gè)城市人數(shù)不就可以了惊科?對(duì)的,所以式子就變成了:
這里直接把方差的希臘字母放上去了亮钦,因?yàn)檫@個(gè)公式就是方差的定義公式馆截。通過考察每個(gè)數(shù)據(jù)離開均數(shù)的差距,我們可以描述這個(gè)“被研究的總體”到底有多少人是“被平均”了蜂莉,統(tǒng)計(jì)上說就是一個(gè)數(shù)據(jù)集的離散程度有多少蜡娶。
好了,問題又來了映穗。(這么多問題=颜拧)平方僅僅是個(gè)數(shù)學(xué)處理,在現(xiàn)實(shí)生活中一般沒有啥意義蚁滋,薪水的平方啥意思宿接?又不能領(lǐng)了薪水先平方下再去花(哈哈哈)。所以辕录,在統(tǒng)計(jì)指導(dǎo)意義上睦霎,還是再把方差求平方根。當(dāng)然一般只取正值走诞,或者叫絕對(duì)值副女,但實(shí)際上表達(dá)的是正負(fù)都可以。這個(gè)平方根就是標(biāo)準(zhǔn)差蚣旱,碑幅。
如果有人對(duì)前幾年大流行的精益管理還有映像的話戴陡,這個(gè)西格瑪就是6西格瑪里的西格瑪。精益的six sigma就是用到了正態(tài)分布的雙側(cè)檢驗(yàn)沟涨,以后再講恤批。
難得最近有空,又可以愉快滴寫作了拷窜。好了开皿,今天到這里。下次考慮討論參數(shù)估計(jì)篮昧。
[返回目錄](http://www.reibang.com/p/e840e58deb4f)