1.1引言
機(jī)器學(xué)習(xí)致力于研究如何通過計算的手段藐鹤,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能。
計算機(jī)從數(shù)據(jù)中產(chǎn)生模型的算法稱為學(xué)習(xí)算法赂韵。生活中,我們可以基于經(jīng)驗(yàn)作出預(yù)判祭示。而在計算機(jī)系統(tǒng)中,利用學(xué)習(xí)算法质涛,基于數(shù)據(jù)產(chǎn)生模型稠歉,通過模型做出判斷。
1.2專業(yè)術(shù)語
示例/樣本:關(guān)于事件或?qū)ο蟮拿枋?這里指一個西瓜)
屬性:表示事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)(例如西瓜的色澤汇陆,根蒂怒炸,敲聲)
屬性值:屬性上的取值(例如青綠,烏黑)
屬性空間/樣本空間/輸入空間:屬性張成的多維空間
學(xué)習(xí)/訓(xùn)練:從數(shù)據(jù)中學(xué)得模型的過程
要建立關(guān)于預(yù)測的模型毡代,我們需要獲得訓(xùn)練樣本的結(jié)果信息阅羹。比如((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)中教寂,“好瓜”稱為標(biāo)記捏鱼,擁有標(biāo)記信息的示例稱為樣例。
若預(yù)測的是離散值酪耕,此類學(xué)習(xí)任務(wù)稱為分類导梆,若預(yù)測的是連續(xù)值,此類學(xué)習(xí)任務(wù)稱為回歸。對西瓜做“聚類”將訓(xùn)練集中的西瓜分為若干組问潭,每組稱為一個簇猿诸,這些自動形成的簇可能存在潛在的概念劃分。
在學(xué)得f后狡忙,對測試樣例x梳虽,可得到y(tǒng)=f(x)。
根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)記信息灾茁,學(xué)習(xí)任務(wù)可以分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)窜觉。分類和回歸是前者的代表,聚類是后者的代表北专。
學(xué)得模型適用于新樣本的能力禀挫,稱為泛化能力
1.3假設(shè)空間
歸納:從特殊到一般的泛化過程,即從具體的事實(shí)歸結(jié)出一般性規(guī)律拓颓。
演繹:從一般到特殊的特化過程语婴,即從基礎(chǔ)原理推演出具體狀況。
把學(xué)習(xí)過程看成在所有假設(shè)組成的空間中搜索的過程驶睦,目標(biāo)是找到能夠?qū)⒂?xùn)練集中所有瓜判斷正確的假設(shè)砰左,假設(shè)的表示一旦成立,假設(shè)空間的大小就能確定场航。
假設(shè)色澤缠导,根蒂,敲聲分別有3,2,2種可能取值溉痢,那么假設(shè)空間規(guī)模大小為4*3*3+1=37(4表示色澤除了可以取3個值中的任意一個僻造,有3種情況,還包含1種無論取哪個值都合適的情況孩饼,用通配符*號表示髓削。1表示極端情況:好瓜這個概念根本不成立)
1.4歸納偏好
歸納偏好/偏好:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好
無論學(xué)習(xí)算法a多聰明,學(xué)習(xí)算法b多笨拙镀娶,它們的期望值相同蔬螟,這就是NFL(沒有免費(fèi)的午餐)定理,但它的重要前提是所有問題出現(xiàn)的機(jī)會相同或者所有問題同等重要
在某些問題上表現(xiàn)好的學(xué)習(xí)算法汽畴,在其他問題上可能不盡人意旧巾,所以學(xué)習(xí)算法的歸納偏好與問題是否匹配往往起到?jīng)Q定性作用
1.5發(fā)展歷程
推理期、知識期忍些、學(xué)習(xí)期鲁猩、從樣例中學(xué)習(xí)(符號主義學(xué)習(xí)罢坝、基于神經(jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí))搅窿、統(tǒng)計學(xué)習(xí)男应、深度學(xué)習(xí)
1.6應(yīng)用現(xiàn)狀
機(jī)器學(xué)習(xí)不僅成為智能數(shù)據(jù)分析技術(shù)的創(chuàng)新源泉娱仔,還能通過建立一些關(guān)于學(xué)習(xí)的計算模型來促進(jìn)我們理解“人類如何學(xué)習(xí)”