5.1基于規(guī)則的分類器
形式:規(guī)則-預(yù)測類 if-then(和決策樹區(qū)別,決策樹規(guī)則有總分,規(guī)則分類是平行的,但是它倆可以轉(zhuǎn)換)
5.1.1原理:
1.互斥規(guī)則:一條記錄不能出現(xiàn)多個(gè)預(yù)測類,避免多個(gè)類出現(xiàn)的方法有:有序規(guī)則(規(guī)則按優(yōu)先降序排列)和無序規(guī)則(產(chǎn)生多個(gè)預(yù)測類变逃,進(jìn)行加權(quán)計(jì)票)
2.窮舉規(guī)則:每天記錄都應(yīng)有預(yù)測類必逆,不行就整一個(gè)其他類
5.1.2規(guī)則的排序方案:
1.基于規(guī)則排序:秩越前怠堪,越容易被解釋,秩越低的規(guī)則越難被解釋
2.基于類排序:屬于同一類的規(guī)則一起出現(xiàn)
5.1.3如何建立基于規(guī)則的分類器:
1.直接方法(5.1.4)? ?2.間接方法(5.1.5)
5.1.4規(guī)則提取的直接方法
順序覆蓋:規(guī)則基于某種評估度量以貪心的方式增長名眉。
1.learn-one-rule函數(shù):原理-建立-評價(jià)
(1)原理:該函數(shù)的目標(biāo)是提取一個(gè)分類規(guī)則粟矿,該規(guī)則涵蓋訓(xùn)練集中大量正例,沒有或僅覆蓋少量反例损拢。
(2)建立:它先產(chǎn)生一個(gè)初始規(guī)則r陌粹,并不斷對該規(guī)則球精,直到滿足某種終止條件為止福压。然后修剪該規(guī)則掏秩,改進(jìn)泛化誤差或舞。
(3)規(guī)則增長策略:
-從特殊到一般:以一個(gè)正例為初始種子,刪除合取向泛化規(guī)則蒙幻,直到覆蓋反例停止映凳。
-從一般到特殊:以空集規(guī)則開始,不斷加入合取向邮破,反例減少诈豌,直到無反例被覆蓋。
(4)規(guī)則評估:同時(shí)考慮準(zhǔn)確率和覆蓋率抒和,可用:似然比統(tǒng)計(jì)量矫渔、Laplace度量、FOIL信息增益進(jìn)行評價(jià)摧莽。
(5)規(guī)則剪枝:4.4
2.順序覆蓋基本原理
規(guī)則提取出來之后庙洼,順序覆蓋算法必須要?jiǎng)h除該規(guī)則所覆蓋的所有正例和反例。
3.RIPPER算法:合取向-規(guī)則-規(guī)則集
規(guī)則增長策略:從一般到特殊镊辕,使用信息增益來選擇最佳的合取項(xiàng)送膳,規(guī)則開始覆蓋反例時(shí)停止加入合取項(xiàng)。利用準(zhǔn)確率進(jìn)行剪枝丑蛤。
建立規(guī)則集:規(guī)則生成后叠聋,刪除其所覆蓋的正例和反例,若規(guī)則在確認(rèn)集上的錯(cuò)誤率低于0.5受裹,則終止加入新規(guī)則碌补。
5.1.5規(guī)則提取的間接方法:
從其他分類模型中提取規(guī)則(此節(jié)已決策樹模型為例)
1.規(guī)則產(chǎn)生:每一條路徑就是一個(gè)規(guī)則,簡化規(guī)則棉饶,規(guī)則剪枝厦章。
2.規(guī)則排序:將同一類標(biāo)號(hào)的規(guī)則放在一個(gè)規(guī)則子集中,計(jì)算子集的長度照藻,按照長度由小到大進(jìn)行排序袜啃,構(gòu)成規(guī)則集。子集長度=L+g*L’
5.1.6基于規(guī)則的分類器的特征:
與決策樹非常類似幸缕,能夠產(chǎn)生易于解釋的描述性模型群发。