統(tǒng)計(jì)學(xué)可以分為描述和推斷兩個(gè)部分。
即使數(shù)據(jù)是“不確定的”吃媒,他們也有自己固有的“特點(diǎn)”和“特征”烙如。這種固有的特點(diǎn)和特征叫作“分布的特性”。
統(tǒng)計(jì)學(xué)對于一堆數(shù)據(jù)炊琉,進(jìn)行了信息壓縮展蒂,雖然犧牲了原始數(shù)據(jù)的細(xì)節(jié),但這種犧牲反而刻畫出了數(shù)據(jù)分布和其背后的特征苔咪,所謂壓縮锰悼,可以理解為總結(jié)數(shù)據(jù)要點(diǎn)的一種操作。
平均值是從數(shù)據(jù)中選出的一個(gè)代表數(shù)值团赏,在直方圖中是使左右平衡的點(diǎn)箕般;數(shù)據(jù)在平均值的周邊分布,反映了數(shù)據(jù)的集中趨勢舔清;多次出現(xiàn)的數(shù)據(jù)對平均值的影響力大丝里;分布左右對稱的情況下,其對稱軸通過的點(diǎn)即平均值体谒。對數(shù)據(jù)取平均值的方法不止一個(gè)杯聚,根據(jù)需要有不同處理手法,最為常用的是算術(shù)平均抒痒,這種平均可以在合計(jì)的意義上保持其本質(zhì)幌绍;對于增長率等情況,想在乘法意義上保持其本質(zhì)則應(yīng)該使用幾何平均故响;其他還有均方根平均傀广、調(diào)和平均等等。
方差是可以評價(jià)數(shù)據(jù)波動(dòng)情況的量彩届,但是以方差來刻畫數(shù)據(jù)的波動(dòng)特征有兩點(diǎn)不方便伪冰。第一,作為表示波動(dòng)情況的數(shù)值太大了樟蠕;第二贮聂,單位發(fā)生了變化靠柑。將方差開平方后得到標(biāo)準(zhǔn)差(S.D.)這個(gè)統(tǒng)計(jì)量,使用標(biāo)準(zhǔn)差刻畫數(shù)據(jù)的波動(dòng)特征則相對比較合適吓懈,S.D.是表示以平均值為基點(diǎn)病往,數(shù)據(jù)大致擴(kuò)散到多遠(yuǎn)的程度的刻畫量。
知道了標(biāo)準(zhǔn)差骄瓣,從數(shù)據(jù)中我們還可以知道些什么呢停巷?第一,可以明白一組數(shù)據(jù)中某一個(gè)數(shù)據(jù)的意義榕栏。一組數(shù)據(jù)中的某一個(gè)數(shù)據(jù)是否特殊畔勤,應(yīng)當(dāng)以S.D.為基準(zhǔn)來看待,比如這個(gè)數(shù)據(jù)是處于一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)還是兩個(gè)兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi)等等扒磁。如果數(shù)據(jù)的偏離處在一個(gè)S.D.以內(nèi)庆揪,可以說是“平常”的數(shù)據(jù)妨托,而處在兩個(gè)S.D.以外缸榛,則可以說這個(gè)數(shù)據(jù)是“特殊”的數(shù)據(jù)。第二兰伤,可以通過比較多個(gè)數(shù)據(jù)組得出不同内颗。比如說,兩個(gè)人分別10次考試的成績作為兩個(gè)數(shù)據(jù)組敦腔,分析這兩個(gè)數(shù)據(jù)組的特征差異均澳。
僅憑收益率的平均值不能判斷某一產(chǎn)品是否屬于優(yōu)良投資,S.D.也是一個(gè)很重要的參數(shù)符衔。一個(gè)比較合適的做法是將兩者綜合考慮找前,將收益率的平均值比上收益率的S.D.,我們將收益率的平均值稱為回報(bào)(縱坐標(biāo))判族,收益率的S.D.稱為風(fēng)險(xiǎn)(橫坐標(biāo))躺盛,以回報(bào)和風(fēng)險(xiǎn)的綜合效果作為投資產(chǎn)品的一個(gè)優(yōu)良衡量標(biāo)準(zhǔn)。比較不同產(chǎn)品時(shí)形帮,可以過原點(diǎn)和各自的比值點(diǎn)作直線槽惫,即可得到各產(chǎn)品的斜率。斜率較大者品質(zhì)較為優(yōu)良沃缘。如此即可將回報(bào)和風(fēng)險(xiǎn)各不相同的產(chǎn)品進(jìn)行一個(gè)統(tǒng)一的比較躯枢。
標(biāo)準(zhǔn)正態(tài)分布的平均值為0则吟,標(biāo)準(zhǔn)差為1槐臀。距離平均值1個(gè)S.D.范圍以內(nèi)的數(shù)據(jù)的相對頻數(shù)為0.6826(7成弱);距離平均值2個(gè)S.D.范圍以內(nèi)的數(shù)據(jù)的相對頻數(shù)為0.9544(9成5強(qiáng))氓仲。標(biāo)準(zhǔn)正態(tài)分布的95%預(yù)測命中區(qū)間為-1.96至+1.96水慨。滿足95%預(yù)測命中的區(qū)間還有很多得糜,但是由于正態(tài)分布左右對稱的特點(diǎn),選擇其他區(qū)間要滿足95%命中的話晰洒,會導(dǎo)致需要預(yù)測的范圍變大朝抖,即相應(yīng)的降低了預(yù)測的精度〉海總之這個(gè)區(qū)間要盡可能選在數(shù)據(jù)集中的區(qū)域治宣。需要注意的是,95%預(yù)測命中區(qū)間和95%置信區(qū)間不是同一個(gè)概念砌滞。
“95%預(yù)測命中區(qū)間”是指“95%的數(shù)據(jù)在此區(qū)間”侮邀,因此,認(rèn)為“下次觀測到的數(shù)據(jù)進(jìn)入此區(qū)間有95%的概率”贝润。但是绊茧,置信區(qū)間的情況不是這樣〈蚓颍“95%置信區(qū)間”是指“無論出現(xiàn)什么樣的觀測值x,反復(fù)以此方法進(jìn)行數(shù)據(jù)值N的估計(jì)华畏,其中95%的估計(jì)結(jié)果是命中的”。也就是說尊蚁,如果持續(xù)進(jìn)行區(qū)間估計(jì)亡笑,可求得對應(yīng)觀測值x的各種各樣的區(qū)間,但在100次中有95次真正的N落在求出的區(qū)間內(nèi)横朋。(置信區(qū)間是針對因變量均值的區(qū)間况芒,而預(yù)測區(qū)間是針對因變量個(gè)體值的區(qū)間。比如叶撒,讓你預(yù)測一個(gè)高中班級中學(xué)生的平均身高绝骚,跟讓你預(yù)測該班級中具體某一個(gè)學(xué)生的身高)。
可以說祠够,統(tǒng)計(jì)學(xué)的方法論與目前的科學(xué)法則的形式稍有不同压汪,這就意味著要從一開始就放棄100%命中。
從部分推測整體可以說是統(tǒng)計(jì)學(xué)的妙趣所在古瓤,推論統(tǒng)計(jì)的工作止剖,是關(guān)于從觀測來的數(shù)據(jù)到整體的推斷和總結(jié)。比如落君,我們做醬湯的時(shí)候穿香,需要判斷味道是否合適,于是绎速,用勺子舀著喝一點(diǎn)皮获,這就是根據(jù)部分推斷整體。但是偶爾會嘗到稍淡或稍濃的地方纹冤,所以醬湯總體的味道與試嘗的味道多少有些偏差也是正常的洒宝。同樣购公,也必須做好統(tǒng)計(jì)推論與總體并非完全一致,而是有一定偏差的思想準(zhǔn)備雁歌。
進(jìn)行充分的觀測宏浩,就能相當(dāng)鮮明地捕捉總體的情況。現(xiàn)實(shí)中很多情況并不允許我們進(jìn)行大量的觀測靠瞎,在此種情況下比庄,如何實(shí)現(xiàn)從不那么大量的觀測去推斷總體的特點(diǎn)呢?
雖然通過“隨機(jī)抽樣法”觀測足夠多的次數(shù)確實(shí)可以明確這些分布乏盐,但我們卻無法對周圍的不確定現(xiàn)象進(jìn)行那么多次觀測(比如科學(xué)試驗(yàn)一般很難獲取規(guī)模龐大的數(shù)據(jù))印蔗。
假如我們實(shí)際觀測到了1個(gè)數(shù)據(jù),可以從它推測總體的什么呢丑勤?可以推測“總體的平均值接近這個(gè)觀測到的值”吧华嘹,因?yàn)槠骄凳菑姆植贾羞x取的具有代表性的數(shù)據(jù),數(shù)據(jù)的分布有向平均值聚集的趨勢法竞。假設(shè)通過什么手段知道了總體的標(biāo)準(zhǔn)差耙厚,那我們就能知道數(shù)據(jù)的集中程度,對總體做一個(gè)更詳細(xì)的推測岔霸。即使分布不是正態(tài)分布而是一般分布薛躬,根據(jù)切比雪夫不等式,通過選取適當(dāng)?shù)膋呆细,普通數(shù)據(jù)也視為分布在-k個(gè)S.D.到k個(gè)S.D.之間型宝,而這個(gè)范圍之外的數(shù)據(jù)視為特殊數(shù)據(jù)(比如正態(tài)分布是k = 2,一般距離平均值大于k個(gè)S.D.以上的數(shù)據(jù)占全體數(shù)據(jù)的比例不大于1/(k^2)絮爷,現(xiàn)實(shí)中的一般分布取3或6個(gè)S.D.的比較常用趴酣?)。
觀測1個(gè)數(shù)據(jù)推測很容易具有偶然性坑夯,所以一般是觀測n個(gè)數(shù)據(jù)再取算術(shù)平均即為樣本均值岖寞,根據(jù)大數(shù)法則,觀測的數(shù)據(jù)個(gè)數(shù)n越大柜蜈,樣本均值接近總體均值的可能性越高(大樣本推斷)仗谆。在戈塞特之前的學(xué)者們,以樣本標(biāo)準(zhǔn)差作為總體標(biāo)準(zhǔn)差使用淑履,確實(shí)隶垮,如果樣本數(shù)n夠大,沒什么問題秘噪。但是狸吞,戈塞特發(fā)現(xiàn)钓丰,如果樣本數(shù)n小缓淹,就會產(chǎn)生無法忽視的大的偏差粪躬,于是他發(fā)現(xiàn)了t分布捉貌,使得實(shí)現(xiàn)小樣本自然估計(jì)成為可能(小樣本推斷)贯要。
(書本后記)統(tǒng)計(jì)學(xué)理論中有某種秘訣的“飛躍”暖侨,推論統(tǒng)計(jì)的方法是從部分推論整體的一種歸納法。習(xí)慣了數(shù)學(xué)中完美無缺的演繹法的人可能覺得別扭崇渗,要領(lǐng)悟這種充滿飛躍的理論體系字逗,必須將頭腦從過往習(xí)慣的思考方法中切換出來。統(tǒng)計(jì)學(xué)正是因?yàn)橛辛诉@樣的飛躍宅广,才有了更加密切聯(lián)系“現(xiàn)實(shí)”的可能葫掉,這也正是統(tǒng)計(jì)學(xué)的活力和魅力所在。