版本空間
今天來聊聊機(jī)器學(xué)習(xí)中的一個(gè)概念: version space, 中文翻譯中盐须,有‘變形空間’和‘版本空間’兩種說法让禀,這里沿用周志華老師在西瓜書中的使用到的術(shù)語淮椰,稱之為‘版本空間’忱反。版本空間指的是在學(xué)習(xí)過程中纠修,與已知數(shù)據(jù)集一致的所有假設(shè)(hypothesis)的子集集合榕酒。通常用于對內(nèi)容進(jìn)行收斂胚膊。
版本空間算法
前面說到版本空間通常用于對學(xué)習(xí)內(nèi)容進(jìn)行收斂,而版本空間算法實(shí)際上是指:
對于所有需要學(xué)習(xí)的訓(xùn)練集:
如果給定的訓(xùn)練集是正例想鹰,那么泛化當(dāng)前的特化模型使得其包含該正例紊婉,同時(shí)剔除不能包含該正例的泛化模型;
如果給定的訓(xùn)練集是負(fù)例辑舷,那么特化當(dāng)前所有的的泛化模型來包含這個(gè)負(fù)例喻犁,同時(shí)剔除無法包含這個(gè)負(fù)例的特化模型;
刪除任何可以被其他模型描述的模型
直到特化模型與泛化模型相同時(shí),我們想要尋找的版本空間就誕生了
舉例
以上純概念的講述可能有點(diǎn)難以理解肢础,以一個(gè)實(shí)例來講:
想象某天你在餐館吃飯后過敏了还栓,你不知道是什么原因?qū)е碌模?jì)過敏為正例(圖中以綠色線框表示)传轰,不過敏為負(fù)例(圖中以紅色外框表示)剩盒,你的情況是:
‘小波餐館
早餐
周五
價(jià)格便宜’
那么我們可以提煉出相應(yīng)的特化模型和泛化模型,分別表示可能過敏的最特化模型和最泛化模型:
接下來來了第二位客人慨蛙,他也過敏了辽聊,根據(jù)他的情況,結(jié)合前面提到的版本空間算法期贫,每新增一個(gè)正例跟匆,我們對特化模型進(jìn)行泛化,第二個(gè)正例中通砍,與第一個(gè)正例不同的是時(shí)段玛臂,我們對時(shí)段進(jìn)行泛化,得到新的特化模型
接下來來了第3位客人封孙,他沒有過敏迹冤,是負(fù)例,根據(jù)版本空間算法虎忌,新增負(fù)例叁巨,我們對泛化模型進(jìn)行特化,因?yàn)樨?fù)例的存在說明并不是在任何餐館呐籽、任何時(shí)段、任何日期蚀瘸、任何價(jià)格的情況下都會(huì)導(dǎo)致過敏狡蝶,肯定是有一定約束的:
同時(shí),我們將泛化模型中不包含已存在的特化模型(即‘任何餐館贮勃,早餐贪惹,任何日期,任何價(jià)格’)和包含了負(fù)例(即‘任何參觀寂嘉,任何時(shí)段奏瞬,任何日期,便宜’)的泛化模型剔除泉孩,那么得到:
接下來也是一樣的操作硼端,隨著正例和負(fù)例的增多,最后特化模型和泛化模型會(huì)傾向于相等寓搬,到那一步珍昨,我們要尋找的版本空間也就出現(xiàn)了。
大家感興趣的還可以參考周志華老師西瓜書中的第5頁,里面以西瓜為例镣典,也講解了版本空間的運(yùn)用
版本空間的不足
版本空間通常用于收斂內(nèi)容兔毙,但是,它同樣存在限制兄春,比如說在只存在正例或者只存在負(fù)例的情況下澎剥,算法就沒有辦法很好地被運(yùn)用了