期望值(Expectation)和方差(Variance)是統(tǒng)計(jì)學(xué)入門(mén)繞不過(guò)去的兩個(gè)指標(biāo)。許多教科書(shū)一上來(lái)就用上各種符號(hào)和公式旁涤,讓一些基礎(chǔ)不好的同學(xué)摸不著頭腦翔曲。本文試圖用最直接的例子給各位解釋一下這兩個(gè)概念。
比如劈愚,現(xiàn)在有一個(gè)數(shù)組:
0, 1, 1, 2, 2, 2, 3, 3, 3, 3
若要求這個(gè)數(shù)組的平均數(shù)瞳遍,則有:
這種計(jì)算辦法,我們叫作算術(shù)平均數(shù)(Arithmetic Mean)菌羽。
讓我們重新觀察一下這個(gè)數(shù)組掠械。我們發(fā)現(xiàn),里面的元素(element)有自己各自的出現(xiàn)次數(shù)。比如0出現(xiàn)了1次猾蒂,2出現(xiàn)了3次等均唉。這些出現(xiàn)次數(shù),我們稱(chēng)之為頻數(shù)(Frequency)肚菠。本數(shù)組的頻數(shù)總結(jié)如下表:
于是舔箭,上面算術(shù)平均數(shù),也可以寫(xiě)成加權(quán)平均數(shù)(Weighted Mean)形式:
不知道各位小時(shí)候有沒(méi)有這個(gè)困惑蚊逢。我記得我是在小學(xué)六年級(jí)左右學(xué)習(xí)加權(quán)平均數(shù)的层扶,但是加權(quán)平均數(shù)與算術(shù)平均數(shù)不就是算出同一個(gè)結(jié)果嗎?為什么要多發(fā)明出一個(gè)玩意來(lái)增加負(fù)擔(dān)呢烙荷?這個(gè)問(wèn)題直到我大一的時(shí)候?qū)W習(xí)了期望值才得以解決怒医。原來(lái)只要稍微變換一下上式,即可得:
這時(shí)奢讨,原數(shù)組的平均數(shù)被寫(xiě)成其四個(gè)元素0稚叹,1,2拿诸,3分別乘以各自概率(Probability)再求和的形式扒袖。這種寫(xiě)法,也就是所謂期望(也稱(chēng)數(shù)學(xué)期望)的定義亩码。期望值通常用希臘字母或者概率函數(shù)形式表示:
這里有必要解釋一下概率這個(gè)詞季率。這個(gè)詞是屬于那種日常對(duì)話(huà)經(jīng)常用到,但是要解釋起來(lái)好像說(shuō)不透的一個(gè)詞描沟。實(shí)際上飒泻,所謂概率就是占比(Portion)。比如一個(gè)班有32人吏廉,其中男生12人泞遗,女生20人,那么男生的概率(或占比)就是12/32 = 0.375席覆,女生的概率(或占比)就是20/32 = 0.625 史辙。因此,有時(shí)理解不透的話(huà)佩伤,不妨用占比甚至百分比來(lái)理解概率聊倔,會(huì)更容易一點(diǎn)。
因此生巡,上面數(shù)組的期望值可以拆分成下面表格理解:
通過(guò)上面幾種形式耙蔑,不論數(shù)組均值用哪種方法計(jì)算,最后的結(jié)果還是2 孤荣。因此甸陌,期望值實(shí)質(zhì)就是這個(gè)數(shù)組的總體均值须揣。這里需要注意的是“總體”一詞⊙悖總體(Population)是一個(gè)統(tǒng)計(jì)學(xué)術(shù)語(yǔ)返敬,指的是這個(gè)研究?jī)?nèi)容的所有對(duì)象。與它相對(duì)應(yīng)的詞是樣本(Sample)寥院,也就是這個(gè)研究?jī)?nèi)容的部分對(duì)象劲赠。
如果說(shuō)期望值描述的是一組數(shù)據(jù)的總體趨勢(shì)(Central Tendency),那么方差(Variance)則是描述這個(gè)組數(shù)據(jù)的離散程度(Dispersion)秸谢。所謂的離散程度凛澎,指的是各個(gè)數(shù)值與均值距離形成的一個(gè)度量,其計(jì)算公式為:
其中估蹄,希臘字母為方差塑煎,希臘字母?(讀sigma)為標(biāo)準(zhǔn)差(本節(jié)先不討論),Var(X)是計(jì)算總體X的方差函數(shù)臭蚁。乍一看最铁,這個(gè)公式很復(fù)雜,我們先用一個(gè)最簡(jiǎn)單的數(shù)組為例垮兑。比如一組數(shù)據(jù)只有1,2,3,4四個(gè)數(shù)字冷尉。那么容易得到這四個(gè)數(shù)字的均值為2.5,寫(xiě)成期望值有:
而方差系枪,實(shí)際就是每一個(gè)元素與均值的差的平方求和雀哨,再取均值,即:
這組數(shù)據(jù)之所以說(shuō)是“簡(jiǎn)單的”私爷,是因?yàn)槊恳粋€(gè)元素只出現(xiàn)了一次雾棺,因此其出現(xiàn)概率均為1/4,頻數(shù)不明顯衬浑。但是對(duì)于本文第一個(gè)數(shù)組捌浩,每個(gè)元素的頻數(shù)是不一樣的,因此嚎卫,其方差從展開(kāi)到一般嘉栓,有:
因?yàn)椋膫€(gè)元素的頻數(shù)不一樣拓诸,所以上式進(jìn)一步寫(xiě)成加權(quán)平均形式:
這個(gè)式子,也可拆分“元素乘以概率”的形式:
如果把每一項(xiàng)看成一個(gè)新的數(shù)組元素的話(huà)麻昼,那么方差則可以寫(xiě)成下面等價(jià)的期望值形式:
最后提醒一下奠支,和的x用大寫(xiě),因?yàn)樗硎镜氖沁@個(gè)數(shù)據(jù)總體抚芦,而求和展開(kāi)式的x則用小寫(xiě)倍谜,因?yàn)樗鼈兇頂?shù)據(jù)里面的每一個(gè)元素迈螟。