AI學(xué)習(xí)筆記之?dāng)?shù)學(xué)基礎(chǔ)三(數(shù)理統(tǒng)計(jì))

數(shù)理統(tǒng)計(jì)對(duì)已有的數(shù)據(jù)進(jìn)行解釋,它也是AI領(lǐng)域的重要組成部分讨惩。

1. 數(shù)理統(tǒng)計(jì)的意義:

基礎(chǔ)的統(tǒng)計(jì)理論有助于對(duì)機(jī)器學(xué)習(xí)的算法和數(shù)據(jù)挖掘的結(jié)果做出解釋婶熬,只有做出合理的解讀,數(shù)據(jù)的價(jià)值才能夠體現(xiàn)床估。

2. 相關(guān)概念:

數(shù)理統(tǒng)計(jì)(mathematical statistics)根據(jù)觀察或?qū)嶒?yàn)得到的數(shù)據(jù)來(lái)研究隨機(jī)現(xiàn)象,并對(duì)研究對(duì)象的客觀規(guī)律做出合理的估計(jì)和判斷诱渤。

  • 數(shù)理統(tǒng)計(jì)和概率論的關(guān)系
    • 數(shù)理統(tǒng)計(jì)以概率論為理論基礎(chǔ)顷窒,研究對(duì)象則是未知分布的隨機(jī)變量,研究方法是對(duì)隨機(jī)變量進(jìn)行獨(dú)立重復(fù)的觀察,根據(jù)得到的觀察結(jié)果對(duì)原始分布做出推斷鞋吉。
    • 概率論作用的前提是隨機(jī)變量的分布已知鸦做,根據(jù)已知的分布來(lái)分析隨機(jī)變量的特征與規(guī)律;
    • 數(shù)理統(tǒng)計(jì)可以看成是逆向的概率論谓着,以彩票為例:概率論根據(jù)搖獎(jiǎng)規(guī)律判斷中獎(jiǎng)可能性泼诱,數(shù)理統(tǒng)計(jì)用以往的記錄來(lái)推斷。
  • 樣本(sample):有限的數(shù)據(jù)集合赊锚。樣本通常由對(duì)總體進(jìn)行多次獨(dú)立的重復(fù)觀測(cè)而得到治筒,這保證了不同的樣本值之間相互獨(dú)立,并且都與總體具有相同的分布舷蒲。
  • 總體(population):觀察對(duì)象所有的可能取值耸袜。數(shù)理統(tǒng)計(jì)的任務(wù)就是根據(jù)樣本推斷總體的數(shù)字特征。
  • 樣本均值:
  • 樣本方差:
  • 參數(shù)估計(jì)(estimation theory):通過(guò)隨機(jī)抽取的樣本來(lái)估計(jì)總體分布的方法
    • 點(diǎn)估計(jì)(point estimation):在已知總體分布函數(shù)形式牲平,但未知其一個(gè)或者多個(gè)參數(shù)時(shí)堤框,借助于總體的一個(gè)樣本來(lái)估計(jì)未知參數(shù)的取值就是參數(shù)的點(diǎn)估計(jì)。
      • 點(diǎn)估計(jì)的核心在于構(gòu)造合適的統(tǒng)計(jì)量 θ? 纵柿,并用這個(gè)統(tǒng)計(jì)量的觀察值作為未知參數(shù) θ 的近似值蜈抓。
      • 矩估計(jì)法(method of moments):
        • 矩表示的是隨機(jī)變量的分布特征,k 階矩的定義為隨機(jī)變量的 k次方的均值昂儒,即 E(X^k)沟使。
        • 樣本的 k 階矩估計(jì)總體的 k 階矩,樣本矩的函數(shù)幾乎處處收斂于總體矩的相應(yīng)函數(shù).
      • 最大似然估計(jì)法(maximum likelihood estimation):
        • 既然抽樣得到的是已有的樣本值渊跋,就可以認(rèn)為取到這一組樣本值的概率較大腊嗡,因而在估計(jì)參數(shù) θ 的時(shí)候就需要讓已有樣本值出現(xiàn)的可能性最大。
        • 似然函數(shù)被定義為樣本觀測(cè)值出現(xiàn)的概率拾酝,確定未知參數(shù)的準(zhǔn)則是讓似然函數(shù)的取值最大化叽唱,也就是微積分中求解函數(shù)最大值的問(wèn)題。
      • 估計(jì)量評(píng)價(jià)標(biāo)準(zhǔn)
        • 無(wú)偏性:估計(jì)量的數(shù)學(xué)期望等于未知參數(shù)的真實(shí)值微宝;
        • 有效性:無(wú)偏估計(jì)量的方差盡可能小虎眨;
        • 一致性:當(dāng)樣本容量趨近于無(wú)窮時(shí)蟋软,估計(jì)量依概率收斂于未知參數(shù)的真實(shí)值。
      • 置信區(qū)間(confidence interval):在估計(jì)未知參數(shù) θ 的過(guò)程中嗽桩,除了求出估計(jì)量岳守,還需要估計(jì)出一個(gè)區(qū)間,并且確定這個(gè)區(qū)間包含 θ真實(shí)值的可信程度碌冶。
        • 對(duì)總體反復(fù)抽樣多次湿痢,每次得到容量相同的樣本,則根據(jù)每一組樣本值都可以確定出一個(gè)置信區(qū)間 (θ?,θˉ),其上界和下界是樣本的兩個(gè)統(tǒng)計(jì)量譬重,分別代表了置信上限和置信下限拒逮。
      • 置信水平:對(duì)所有置信區(qū)間中包含 θ真實(shí)值的比率進(jìn)行統(tǒng)計(jì)
    • 區(qū)間估計(jì)(interval estimation):
  • 假設(shè)檢驗(yàn)(hypothesis test):參數(shù)估計(jì)的對(duì)象是總體的某個(gè)參數(shù),假設(shè)檢驗(yàn)的對(duì)象則是關(guān)于總體的某個(gè)論斷臀规,即關(guān)于總體的假設(shè)滩援。
    • 假設(shè)檢驗(yàn)的作用就在于根據(jù)學(xué)習(xí)器在測(cè)試集上的性能推斷其泛化能力的強(qiáng)弱,并確定所得結(jié)論的精確程度塔嬉,可以進(jìn)一步推廣為比較不同學(xué)習(xí)器的性能玩徊。由于度量學(xué)習(xí)器性能的常用指標(biāo)是錯(cuò)誤率.
  • 小概率事件:發(fā)生概率小于 1% 的事件。如果樣本中出現(xiàn)了小概率事件谨究,就認(rèn)為這不是真正意義上的小概率事件恩袱,原始的假設(shè)也就此被推翻。
  • 數(shù)理統(tǒng)計(jì)看監(jiān)督學(xué)習(xí):在假設(shè)空間中搜索能夠針對(duì)特定問(wèn)題做出良好預(yù)測(cè)的假設(shè)胶哲。
  • 泛化能力:學(xué)習(xí)器通過(guò)對(duì)測(cè)試數(shù)據(jù)集的學(xué)習(xí)得到具有普適性的模型畔塔,這個(gè)模型適用于不屬于測(cè)試集的新樣本的能力被稱為泛化能力。泛化能力越強(qiáng)纪吮,學(xué)習(xí)器就越好俩檬。
    • 對(duì)泛化性能的解釋也是機(jī)器學(xué)習(xí)算法分析的重要內(nèi)容。泛化誤差的構(gòu)成可以分為三部分:偏差(bias)碾盟、方差(variance)和噪聲(noise)棚辽。
    • 偏差:算法預(yù)測(cè)值和真實(shí)結(jié)果之間的偏離程度,刻畫的是模型的欠擬合特性冰肴;
    • 方差:數(shù)據(jù)的擾動(dòng)對(duì)預(yù)測(cè)性能的影響屈藐,刻畫的是模型的過(guò)擬合特性;
    • 噪聲:在當(dāng)前學(xué)習(xí)任務(wù)上能夠達(dá)到的最小泛化誤差熙尉,刻畫的是任務(wù)本身的難度联逻。
    • 偏差和方差都難以實(shí)現(xiàn)同時(shí)優(yōu)化。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末检痰,一起剝皮案震驚了整個(gè)濱河市包归,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌铅歼,老刑警劉巖公壤,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異椎椰,居然都是意外死亡厦幅,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門慨飘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)确憨,“玉大人,你說(shuō)我怎么就攤上這事⌒萜” “怎么了吞歼?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)玫芦。 經(jīng)常有香客問(wèn)我浆熔,道長(zhǎng),這世上最難降的妖魔是什么桥帆? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任医增,我火速辦了婚禮,結(jié)果婚禮上老虫,老公的妹妹穿的比我還像新娘叶骨。我一直安慰自己,他們只是感情好祈匙,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布忽刽。 她就那樣靜靜地躺著,像睡著了一般夺欲。 火紅的嫁衣襯著肌膚如雪跪帝。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天些阅,我揣著相機(jī)與錄音伞剑,去河邊找鬼。 笑死市埋,一個(gè)胖子當(dāng)著我的面吹牛黎泣,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播缤谎,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼抒倚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了坷澡?” 一聲冷哼從身側(cè)響起托呕,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎频敛,沒(méi)想到半個(gè)月后项郊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了是辕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片私蕾。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出食绿,到底是詐尸還是另有隱情侈咕,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布器紧,位于F島的核電站耀销,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏铲汪。R本人自食惡果不足惜熊尉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望掌腰。 院中可真熱鬧狰住,春花似錦、人聲如沸齿梁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)勺择。三九已至创南,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間省核,已是汗流浹背稿辙。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留芳撒,地道東北人邓深。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像笔刹,于是被迫代替她去往敵國(guó)和親芥备。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容