續(xù)上次的部分渴邦。
? ? ? ?從數(shù)據(jù)中學(xué)得模型的過(guò)程稱(chēng)為“學(xué)習(xí)”(learning)或“訓(xùn)練”(training),這個(gè)過(guò)程通過(guò)執(zhí)行某個(gè)學(xué)習(xí)算法來(lái)完成爷贫。訓(xùn)練過(guò)程中使用的數(shù)據(jù)稱(chēng)為“訓(xùn)練數(shù)據(jù)”(training data)想虎,每個(gè)樣本稱(chēng)為一個(gè)“訓(xùn)練樣本”(training sample),訓(xùn)練樣本組成的集合稱(chēng)為“訓(xùn)練集”(training set)耸成。學(xué)得模型對(duì)應(yīng)了關(guān)于數(shù)據(jù)的某種潛在的規(guī)律报亩,因此亦稱(chēng)“假設(shè)” (hypothesis);這種潛在規(guī)律自身井氢,則稱(chēng)為“真相”或“真實(shí)”(ground-truth)弦追,學(xué)習(xí)過(guò)程就是為了找出或逼近真相。
? ? ? ? 關(guān)于示例結(jié)果的信息花竞,稱(chēng)為“標(biāo)記”(label)劲件;擁有了標(biāo)記信息的示例,則稱(chēng)為“樣例”(example)约急。一般地零远,用(xi,yi)表示第i個(gè)樣例,其中yi屬于Y厌蔽,Y是所有標(biāo)記的集合遍烦,亦稱(chēng)“標(biāo)記空間”(label space)或“輸出空間”。
? ? ? ? 若我們預(yù)測(cè)的是離散值躺枕,此類(lèi)學(xué)習(xí)任務(wù)稱(chēng)為“分類(lèi)”(classification) 服猪;若預(yù)測(cè)的是連續(xù)值,此類(lèi)學(xué)習(xí)任務(wù)稱(chēng)為“回歸”(regression)拐云。對(duì)只涉及兩個(gè)類(lèi)別的“二分類(lèi)”(binary classification)任務(wù)罢猪,通常稱(chēng)其中一個(gè)類(lèi)為“正類(lèi)”(positive class),另一個(gè)類(lèi)稱(chēng)為“反類(lèi)”“negative class”叉瘩;涉及多個(gè)類(lèi)別時(shí)膳帕,則稱(chēng)為“多分類(lèi)”(multi-class classification)任務(wù)。
? ? ? ? 學(xué)得模型之后薇缅,使用其進(jìn)行預(yù)測(cè)的過(guò)程稱(chēng)為“測(cè)試”(testing)危彩,被預(yù)測(cè)的樣本稱(chēng)為“測(cè)試樣本”(testing sample)。
? ? ? ?此外泳桦,我們還可以對(duì)某種需要分類(lèi)的東西進(jìn)行“聚類(lèi)”(clustering)汤徽,即將訓(xùn)練集中的數(shù)據(jù)分成若干組,每組稱(chēng)為一個(gè)“簇”(cluster)灸撰。這樣的分類(lèi)過(guò)程可能基于某種屬性進(jìn)行劃分谒府,這樣的劃分過(guò)程可以幫助我們了解數(shù)據(jù)內(nèi)在的規(guī)律拼坎,能為更深入地分析數(shù)據(jù)建立基礎(chǔ)。但在實(shí)際進(jìn)行聚類(lèi)學(xué)習(xí)時(shí)完疫,一般認(rèn)為不知道所謂的屬性分類(lèi)泰鸡,并且學(xué)習(xí)過(guò)程中使用的訓(xùn)練樣本通常不擁有標(biāo)記信息。根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息壳鹤,學(xué)習(xí)任務(wù)可以大致分為兩大類(lèi):“監(jiān)督學(xué)習(xí)”(supervised learning)和“無(wú)監(jiān)督學(xué)習(xí)”(unsupervised learning)盛龄,分類(lèi)和回歸是前者的代表,而聚類(lèi)則是后者的代表芳誓。
? ? ? ? 需要注意的是余舶,機(jī)器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型能很好地適用于“新樣本”,而不僅僅是在訓(xùn)練樣本上工作得很好兆沙;即便對(duì)聚類(lèi)這樣的無(wú)監(jiān)督學(xué)習(xí)任務(wù),我們也希望學(xué)得的簇劃分能適用于沒(méi)在訓(xùn)練集中出現(xiàn)的樣本莉掂。學(xué)得模型適用于新樣本的能力葛圃,稱(chēng)為“泛化”(generalization)能力。具有強(qiáng)泛化能力的模型能很好地適用于整個(gè)樣本空間憎妙。