1.1引言
本書的“模型”泛指從數(shù)據(jù)中學(xué)的的結(jié)果仑濒。
1.2基本術(shù)語
從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”或“訓(xùn)練”,這個(gè)過程通過執(zhí)行某個(gè)學(xué)習(xí)算法來完成汇陆。訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”,其中每個(gè)樣本稱為一個(gè)“訓(xùn)練樣本”,訓(xùn)練樣本組成的集合稱為“訓(xùn)練集”阿迈。
對只涉及兩個(gè)類別的“二分類”任務(wù),通常稱其中一個(gè)類為“正類”轧叽,另一個(gè)類為“反類”苗沧;涉及多個(gè)類別時(shí),則稱為“多分類”任務(wù)炭晒。
“聚類”即將訓(xùn)練集中的西瓜分為若干個(gè)組待逞,每組稱為一個(gè)“簇”;這些自動(dòng)形成的簇可能對應(yīng)一些潛在的概念劃分网严。
根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息识樱,學(xué)習(xí)任務(wù)大致劃分為兩大類:“監(jiān)督學(xué)習(xí)”和“無監(jiān)督學(xué)習(xí)”,分類和回歸是前者的代表,而聚類是后者的代表怜庸。
1.3假設(shè)空間
歸納學(xué)習(xí)有狹義和廣義之分当犯,廣義的歸納學(xué)習(xí)大體相當(dāng)于從樣例中學(xué)習(xí),而狹義的歸納學(xué)習(xí)則要求從訓(xùn)練數(shù)據(jù)中學(xué)得概念割疾,因此亦稱為“概念學(xué)習(xí)”或“概念形成”嚎卫。
我們可以把學(xué)習(xí)過程看作是一個(gè)在所有假設(shè)組成的空間中進(jìn)行搜索的過程,搜索目標(biāo)是找到與訓(xùn)練集“匹配”的假設(shè)宏榕。
需注意的是拓诸,現(xiàn)實(shí)問題中我們常面臨很大的假設(shè)空間,但學(xué)習(xí)過程是基于有限樣本訓(xùn)練集進(jìn)行的担扑,因此恰响,可能有多個(gè)假設(shè)與訓(xùn)練集一致,即存在著一個(gè)與訓(xùn)練集一致的“假設(shè)合集”涌献,我們稱之為“版本空間”胚宦。
1.4歸納偏好
機(jī)器算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好,稱為“歸納偏好”燕垃。
“奧卡姆剃刀”是一種常用的枢劝、自然科學(xué)研究中最基本的原則,即“若有多個(gè)假設(shè)與觀察一致卜壕,則選擇最簡單的那個(gè)”您旁。然而奧卡姆剃刀并非唯一可行的原則。
無論學(xué)習(xí)算法A多聰明轴捎、學(xué)習(xí)算法B多笨拙鹤盒,它們的期望性能竟然相同!這就是“沒有免費(fèi)的午餐”定理侦副,簡稱NFL定理侦锯。我們需要注意到,NFL定理有一個(gè)重要的前提:所有“問題”出現(xiàn)的機(jī)會(huì)相同秦驯、或所有問題同等重要尺碰。
NFL定理最重要的寓意是,若考慮所有潛在的問題译隘,則所有學(xué)習(xí)算法都一樣好亲桥。要談?wù)撍惴ǖ南鄬?yōu)略,必須要針對具體的學(xué)習(xí)問題固耘;在某些問題上表現(xiàn)好的學(xué)習(xí)算法题篷,在另一些問題上卻可能不盡如人意,學(xué)習(xí)算法自身的歸納偏好與問題是否相配厅目,往往會(huì)起到?jīng)Q定性的作用悼凑。
1.6應(yīng)用現(xiàn)狀
數(shù)據(jù)發(fā)掘是從海量數(shù)據(jù)中發(fā)掘知識(shí)偿枕,這就必然涉及對“海量數(shù)據(jù)"的管理和分析,大體來說户辫,數(shù)據(jù)領(lǐng)域的研究為數(shù)據(jù)挖掘提供數(shù)據(jù)管理技術(shù)渐夸,而機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的研究為數(shù)據(jù)挖掘提供數(shù)據(jù)分析技術(shù)。