統(tǒng)計(jì)學(xué)習(xí)基本概念
- 統(tǒng)計(jì)學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析的一門學(xué)科。統(tǒng)計(jì)學(xué)習(xí)也稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí)∠驳拢現(xiàn)在嗤瞎,當(dāng)人們提及機(jī)器學(xué)習(xí)時(shí)墙歪,往往是指統(tǒng)計(jì)機(jī)器學(xué)習(xí)。
- 統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性贝奇,這是統(tǒng)計(jì)學(xué)習(xí)的前提虹菲。
- 統(tǒng)計(jì)學(xué)習(xí)的目的:統(tǒng)計(jì)學(xué)習(xí)用于對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析,特別是對(duì)未知新數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析掉瞳。
- 統(tǒng)計(jì)學(xué)習(xí)包括監(jiān)督學(xué)習(xí)(supervised learning)届惋、非監(jiān)督學(xué)習(xí)(unsupervised learning)、半監(jiān)督學(xué)習(xí)(semi-supervised learning)和強(qiáng)化學(xué)習(xí)(reinforcement learning)等菠赚。
- 統(tǒng)計(jì)學(xué)習(xí)方法包括模型的假設(shè)空間脑豹、模型選擇的準(zhǔn)則以及模型學(xué)習(xí)的算法,稱其為統(tǒng)計(jì)學(xué)習(xí)方法的三要素衡查,簡(jiǎn)稱為模型(model)瘩欺、策略(strategy)和算法(algorithm)。
- 重要概念:
- 假設(shè)空間(hypothesis space):要學(xué)習(xí)的模型所屬于的某個(gè)函數(shù)的集合拌牲,即學(xué)習(xí)模型的集合
- 輸入輸出空間(input output space):輸入與輸出所有可能取值的集合
- 每個(gè)具體的輸入是一個(gè)實(shí)例(instance)俱饿,通常由特征向量(feature vector)表示。所有特征向量存在的空間稱為特征空間(feature space)塌忽。特征空間的每一維對(duì)應(yīng)與一個(gè)特征拍埠。模型實(shí)際上都是定義在特征空間上的。
- 輸入變量與輸出變量均為連續(xù)變量的預(yù)測(cè)問(wèn)題稱為回歸問(wèn)題土居;輸出變量為有限個(gè)離散變量的預(yù)測(cè)問(wèn)題成為分類問(wèn)題枣购;輸入變量與輸出變量均為變量序列的問(wèn)題稱為標(biāo)注問(wèn)題。
- 監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y)擦耀,P(X,Y)表示分布函數(shù)棉圈。需要注意的是在學(xué)習(xí)過(guò)程中,假定這一聯(lián)合概率分布存在眷蜓,但對(duì)學(xué)習(xí)系統(tǒng)來(lái)說(shuō)分瘾,聯(lián)合概率分布的具體定義是未知的。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)被看做是依據(jù)聯(lián)合概率分布P(X,Y)獨(dú)立同分布產(chǎn)生的吁系。統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律德召,X和Y具有聯(lián)合概率分布的假設(shè)是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)。
- 監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)由輸入到輸出的映射汽纤,這一映射由模型來(lái)表示上岗。模型屬于有輸入空間到輸出空間的映射的集合,這個(gè)集合就是假設(shè)空間冒版。假設(shè)空間的確定意味著學(xué)習(xí)范圍的確定液茎。