緒論
基本術(shù)語
- 數(shù)據(jù)集(data set):示例(instance)或樣本(sample)的集合欲虚。樣本由反映時間或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的屬性(attribute)或特征(feature)構(gòu)成狮斗。屬性上的取值為屬性值(attribute value),屬性張成的空間成為屬性空間(attribute space)补疑、樣本空間(sample space)歧沪。把每一個實稱為一個特征向量(feature vector)莲组。擁有標記信息的示例稱為樣例(example)诊胞。所有標記構(gòu)成標記空間(label space)。
- 學(xué)習(xí)(learning)或訓(xùn)練(training):通過執(zhí)行某個學(xué)習(xí)算法來完成锹杈。學(xué)得模型對應(yīng)了關(guān)于數(shù)據(jù)的某種潛在的規(guī)律厢钧,稱為假設(shè)(hypothesis),學(xué)習(xí)過程就是為了找出或者逼近真相嬉橙。
- 分類(classification)、回歸(regression):欲預(yù)測的是離散值寥假,此時學(xué)習(xí)任務(wù)為分類市框;欲預(yù)測的是連續(xù)值,此學(xué)習(xí)任務(wù)為回歸糕韧。一般地枫振,預(yù)測任務(wù)是希望通過對訓(xùn)練集${(x_1,y_1)(x_2,y_2),.....,(x_m,y_m)}$進行學(xué)習(xí),建立一個從輸入空間$X到輸出空間Y的映射f:X\rightarrowY萤彩。對于二分類任務(wù)粪滤,通常令$Y={-1,+1}或{0,1};對于多分為任務(wù),|Y|>2$;對于回歸任務(wù)雀扶,Y=R$杖小。學(xué)得模型后,使用其進行預(yù)測的過程稱為測試(testing)愚墓,被測試的樣本成為測試樣本(testing sample)予权。
- 聚類(clustering):將訓(xùn)練集中的示例分為若干組,每組成為一個簇(cluster)浪册。這些自動形成的簇可能對應(yīng)一些潛在的概念劃分扫腺,這樣的學(xué)習(xí)過程有助于我們了解數(shù)據(jù)內(nèi)在的規(guī)律,能為更深入地分析數(shù)據(jù)建立基礎(chǔ)村象。
- 監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning):監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)擁有標記信息笆环,分類和回歸是代表攒至;無監(jiān)督學(xué)習(xí)不擁有標記信息,聚類是代表躁劣。
- 泛化(generalization):機器學(xué)習(xí)的目的是使得學(xué)得的模型更好的適用于新樣本迫吐,而不是僅僅在訓(xùn)練樣本上工作的很好。具有強泛化能力的模型能很好地適用于整個樣本空間习绢。盡管訓(xùn)練集通常只是樣本空間的一個很小的采樣渠抹,我們?nèi)韵M芎芎玫胤从吵稣麄€樣本空間的特性,否者就要很難期望哎訓(xùn)練集上學(xué)得的模型在整個樣本空間都工作得很好闪萄。一般假設(shè)樣本空間全體服從一個未知分布(distribution)$D$梧却,我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的,即獨立同分布(independent and identically distribution)败去。#假設(shè)空間