數(shù)理統(tǒng)計(jì)對(duì)已有的數(shù)據(jù)進(jìn)行解釋,它也是AI領(lǐng)域的重要組成部分讨惩。
1. 數(shù)理統(tǒng)計(jì)的意義:
基礎(chǔ)的統(tǒng)計(jì)理論有助于對(duì)機(jī)器學(xué)習(xí)的算法和數(shù)據(jù)挖掘的結(jié)果做出解釋婶熬,只有做出合理的解讀,數(shù)據(jù)的價(jià)值才能夠體現(xiàn)床估。
2. 相關(guān)概念:
數(shù)理統(tǒng)計(jì)(mathematical statistics)根據(jù)觀察或?qū)嶒?yàn)得到的數(shù)據(jù)來(lái)研究隨機(jī)現(xiàn)象,并對(duì)研究對(duì)象的客觀規(guī)律做出合理的估計(jì)和判斷诱渤。
- 數(shù)理統(tǒng)計(jì)和概率論的關(guān)系
- 數(shù)理統(tǒng)計(jì)以概率論為理論基礎(chǔ)顷窒,研究對(duì)象則是未知分布的隨機(jī)變量,研究方法是對(duì)隨機(jī)變量進(jìn)行獨(dú)立重復(fù)的觀察,根據(jù)得到的觀察結(jié)果對(duì)原始分布做出推斷鞋吉。
- 概率論作用的前提是隨機(jī)變量的分布已知鸦做,根據(jù)已知的分布來(lái)分析隨機(jī)變量的特征與規(guī)律;
- 數(shù)理統(tǒng)計(jì)可以看成是逆向的概率論谓着,以彩票為例:概率論根據(jù)搖獎(jiǎng)規(guī)律判斷中獎(jiǎng)可能性泼诱,數(shù)理統(tǒng)計(jì)用以往的記錄來(lái)推斷。
- 樣本(sample):有限的數(shù)據(jù)集合赊锚。樣本通常由對(duì)總體進(jìn)行多次獨(dú)立的重復(fù)觀測(cè)而得到治筒,這保證了不同的樣本值之間相互獨(dú)立,并且都與總體具有相同的分布舷蒲。
- 總體(population):觀察對(duì)象所有的可能取值耸袜。數(shù)理統(tǒng)計(jì)的任務(wù)就是根據(jù)樣本推斷總體的數(shù)字特征。
-
樣本均值:
-
樣本方差:
- 參數(shù)估計(jì)(estimation theory):通過(guò)隨機(jī)抽取的樣本來(lái)估計(jì)總體分布的方法
- 點(diǎn)估計(jì)(point estimation):在已知總體分布函數(shù)形式牲平,但未知其一個(gè)或者多個(gè)參數(shù)時(shí)堤框,借助于總體的一個(gè)樣本來(lái)估計(jì)未知參數(shù)的取值就是參數(shù)的點(diǎn)估計(jì)。
- 點(diǎn)估計(jì)的核心在于構(gòu)造合適的統(tǒng)計(jì)量 θ? 纵柿,并用這個(gè)統(tǒng)計(jì)量的觀察值作為未知參數(shù) θ 的近似值蜈抓。
- 矩估計(jì)法(method of moments):
- 矩表示的是隨機(jī)變量的分布特征,k 階矩的定義為隨機(jī)變量的 k次方的均值昂儒,即 E(X^k)沟使。
- 樣本的 k 階矩估計(jì)總體的 k 階矩,樣本矩的函數(shù)幾乎處處收斂于總體矩的相應(yīng)函數(shù).
- 最大似然估計(jì)法(maximum likelihood estimation):
- 既然抽樣得到的是已有的樣本值渊跋,就可以認(rèn)為取到這一組樣本值的概率較大腊嗡,因而在估計(jì)參數(shù) θ 的時(shí)候就需要讓已有樣本值出現(xiàn)的可能性最大。
- 似然函數(shù)被定義為樣本觀測(cè)值出現(xiàn)的概率拾酝,確定未知參數(shù)的準(zhǔn)則是讓似然函數(shù)的取值最大化叽唱,也就是微積分中求解函數(shù)最大值的問(wèn)題。
- 估計(jì)量評(píng)價(jià)標(biāo)準(zhǔn)
- 無(wú)偏性:估計(jì)量的數(shù)學(xué)期望等于未知參數(shù)的真實(shí)值微宝;
- 有效性:無(wú)偏估計(jì)量的方差盡可能小虎眨;
- 一致性:當(dāng)樣本容量趨近于無(wú)窮時(shí)蟋软,估計(jì)量依概率收斂于未知參數(shù)的真實(shí)值。
- 置信區(qū)間(confidence interval):在估計(jì)未知參數(shù) θ 的過(guò)程中嗽桩,除了求出估計(jì)量岳守,還需要估計(jì)出一個(gè)區(qū)間,并且確定這個(gè)區(qū)間包含 θ真實(shí)值的可信程度碌冶。
- 對(duì)總體反復(fù)抽樣多次湿痢,每次得到容量相同的樣本,則根據(jù)每一組樣本值都可以確定出一個(gè)置信區(qū)間 (θ?,θˉ),其上界和下界是樣本的兩個(gè)統(tǒng)計(jì)量譬重,分別代表了置信上限和置信下限拒逮。
- 置信水平:對(duì)所有置信區(qū)間中包含 θ真實(shí)值的比率進(jìn)行統(tǒng)計(jì)
- 區(qū)間估計(jì)(interval estimation):
- 點(diǎn)估計(jì)(point estimation):在已知總體分布函數(shù)形式牲平,但未知其一個(gè)或者多個(gè)參數(shù)時(shí)堤框,借助于總體的一個(gè)樣本來(lái)估計(jì)未知參數(shù)的取值就是參數(shù)的點(diǎn)估計(jì)。
- 假設(shè)檢驗(yàn)(hypothesis test):參數(shù)估計(jì)的對(duì)象是總體的某個(gè)參數(shù),假設(shè)檢驗(yàn)的對(duì)象則是關(guān)于總體的某個(gè)論斷臀规,即關(guān)于總體的假設(shè)滩援。
- 假設(shè)檢驗(yàn)的作用就在于根據(jù)學(xué)習(xí)器在測(cè)試集上的性能推斷其泛化能力的強(qiáng)弱,并確定所得結(jié)論的精確程度塔嬉,可以進(jìn)一步推廣為比較不同學(xué)習(xí)器的性能玩徊。由于度量學(xué)習(xí)器性能的常用指標(biāo)是錯(cuò)誤率.
- 小概率事件:發(fā)生概率小于 1% 的事件。如果樣本中出現(xiàn)了小概率事件谨究,就認(rèn)為這不是真正意義上的小概率事件恩袱,原始的假設(shè)也就此被推翻。
- 數(shù)理統(tǒng)計(jì)看監(jiān)督學(xué)習(xí):在假設(shè)空間中搜索能夠針對(duì)特定問(wèn)題做出良好預(yù)測(cè)的假設(shè)胶哲。
- 泛化能力:學(xué)習(xí)器通過(guò)對(duì)測(cè)試數(shù)據(jù)集的學(xué)習(xí)得到具有普適性的模型畔塔,這個(gè)模型適用于不屬于測(cè)試集的新樣本的能力被稱為泛化能力。泛化能力越強(qiáng)纪吮,學(xué)習(xí)器就越好俩檬。
- 對(duì)泛化性能的解釋也是機(jī)器學(xué)習(xí)算法分析的重要內(nèi)容。泛化誤差的構(gòu)成可以分為三部分:偏差(bias)碾盟、方差(variance)和噪聲(noise)棚辽。
- 偏差:算法預(yù)測(cè)值和真實(shí)結(jié)果之間的偏離程度,刻畫的是模型的欠擬合特性冰肴;
- 方差:數(shù)據(jù)的擾動(dòng)對(duì)預(yù)測(cè)性能的影響屈藐,刻畫的是模型的過(guò)擬合特性;
- 噪聲:在當(dāng)前學(xué)習(xí)任務(wù)上能夠達(dá)到的最小泛化誤差熙尉,刻畫的是任務(wù)本身的難度联逻。
- 偏差和方差都難以實(shí)現(xiàn)同時(shí)優(yōu)化。