分類任務(wù)就是確定對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類(店鋪病歷表激涤,款式判斷)
4.1預(yù)備知識(shí)
分類計(jì)數(shù)非常適合預(yù)測(cè)或描述二元或標(biāo)稱類型的數(shù)據(jù)集衷蜓,但是分類技術(shù)不考慮隱含的序數(shù)關(guān)系累提。
4.2解決分類問題的一般方法(方法論)P91(圖4-3)
分類技術(shù)是一種根據(jù)輸入數(shù)據(jù)集建立分類模型的系統(tǒng)方法。分類法包括:決策樹分類法磁浇,基于規(guī)則的分類法斋陪,神經(jīng)網(wǎng)絡(luò),支持向量機(jī)和樸素貝葉斯分類法。分類模型能夠很好的擬合輸入數(shù)據(jù)中類標(biāo)號(hào)和屬性集之間的聯(lián)系无虚,因此訓(xùn)練算法的主要目的就是建立具有很好繁華能力的模型缔赠。(即建立能夠準(zhǔn)確預(yù)測(cè)位置樣本類標(biāo)號(hào)的模型。)
4.3決策樹歸納(可用于店鋪病例診斷)
原理:一系列的問題和這些問題的可能回答可以組織成決策樹的形式友题。樹中包含三種節(jié)點(diǎn):根節(jié)點(diǎn)嗤堰,內(nèi)部結(jié)點(diǎn),葉結(jié)點(diǎn)或終結(jié)點(diǎn)咆爽。
建立:Hunt算法
屬性梁棠;類型:二元屬性置森,標(biāo)稱屬性斗埂,序數(shù)屬性,連續(xù)屬性(比較或分區(qū)間)
最佳劃分度量:選擇最佳劃分的度量通常是根據(jù)劃分后子女節(jié)點(diǎn)不純性的程度凫海。熵呛凶,Gini,X2是常用的三種不純性計(jì)算方法行贪。不純性越低漾稀,類分布就越傾斜。劃分前和劃分后的不純程度相差越大建瘫,效果越好崭捍,計(jì)算相差程度用信息增益。
特點(diǎn)總結(jié):
1.決策樹歸納是一種構(gòu)建分類模型的非參數(shù)方法啰脚。它補(bǔ)要求任何先驗(yàn)假設(shè)殷蛇,不假定類和其他屬性服從一定的概率分布。
2.已開發(fā)的構(gòu)建決策樹技術(shù)不需要昂貴的計(jì)算代價(jià)橄浓,即使訓(xùn)練集非常大粒梦,亦可以快速建立。決策樹一旦建立荸实,未知樣本分類非吃让牵快。
3.決策樹相對(duì)容易解釋准给。
4.決策樹是離散值函數(shù)的典型代表泄朴,但它不能很好的推廣到特定的布爾問題。
5.決策樹算法對(duì)于噪聲的干擾具有相當(dāng)好的魯棒性露氮。
6.在葉結(jié)點(diǎn)祖灰,記錄可能太少,對(duì)于葉結(jié)點(diǎn)代表的類沦辙,不能做出具有統(tǒng)計(jì)意義的判決夫植,這就是所謂的數(shù)據(jù)碎片。解決方法,就是當(dāng)樣本數(shù)小于某個(gè)特定閾值時(shí)停止分裂详民。
4.4模型的過分?jǐn)M合
當(dāng)決策樹很小時(shí)延欠,訓(xùn)練和檢驗(yàn)誤差都很大,這是由于模型尚未學(xué)習(xí)到數(shù)據(jù)的真實(shí)結(jié)構(gòu)沈跨,模型擬合不足由捎。但決策樹過大后,訓(xùn)練誤差會(huì)逐漸降低饿凛,而檢驗(yàn)誤差開始增大狞玛,稱為過擬合(模型過分?jǐn)M合)。原因在于涧窒,過于龐大的決策樹可能擬合了訓(xùn)練樣本中的噪聲數(shù)據(jù)心肪,這些結(jié)點(diǎn)降低了決策樹的性能,不能很好的泛化到檢驗(yàn)樣本纠吴。出現(xiàn)過擬合的情況:噪聲數(shù)據(jù)導(dǎo)致的過擬合硬鞍,缺乏代表性樣本導(dǎo)致的過分?jǐn)M合,多重比較過程戴已。
4.4.4估計(jì)泛化誤差
估計(jì)誤差能助于學(xué)習(xí)算法進(jìn)行模型選擇固该,即找到一個(gè)具有合適復(fù)雜度、不易發(fā)生過分?jǐn)M合的模型糖儡。理想的復(fù)雜度是能產(chǎn)生最低泛化的模型的復(fù)雜度伐坏。由于模型依靠訓(xùn)練數(shù)據(jù),對(duì)檢驗(yàn)數(shù)據(jù)的性能握联,只能進(jìn)行估計(jì)桦沉。對(duì)泛化誤差估計(jì)的方法有:使用再代入估計(jì)(訓(xùn)練誤差=泛化誤差),結(jié)合模型復(fù)雜度拴疤,估計(jì)統(tǒng)計(jì)上界永部,使用確認(rèn)集。
4.4.5處理決策歸納中的過分?jǐn)M合
先剪枝:設(shè)定結(jié)束條件呐矾,比如觀察到不純性度量的增益低于某個(gè)確定閾值就停止擴(kuò)展葉苔埋。/后剪枝:初始決策樹按照最大規(guī)模生長,然后用心葉結(jié)點(diǎn)替換子樹蜒犯。
4.5評(píng)估分類器的性能:通過估計(jì)泛化誤差组橄,模型已建立,接下來需要在檢驗(yàn)數(shù)據(jù)集上測(cè)試性能罚随,用檢驗(yàn)集上的準(zhǔn)確率來比較模型性能玉工。比較的方法主要有四:1.保持方法(將原始數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)+檢驗(yàn)數(shù)據(jù));2.隨機(jī)二次抽樣:(可以多次重復(fù)保持方法來改進(jìn)對(duì)分類器性能的估計(jì))淘菩;3.交叉驗(yàn)證(原始數(shù)據(jù)分成k份遵班,每次1份作為檢驗(yàn)數(shù)據(jù)屠升,其余的作為訓(xùn)練數(shù)據(jù),以此輪轉(zhuǎn)狭郑,每個(gè)記錄用于訓(xùn)練的次數(shù)相同腹暖,并且恰好檢驗(yàn)一次。)翰萨;4.自助法(訓(xùn)練記錄采用有放回抽樣)脏答。
4.6比較分類器的方法:不同的數(shù)據(jù)集大小不同,兩個(gè)分類器準(zhǔn)確率上的差異可能不是統(tǒng)計(jì)顯著的亩鬼。借助統(tǒng)計(jì)檢驗(yàn)方法來對(duì)不同模型進(jìn)行比較殖告。
4.6.1估計(jì)準(zhǔn)確度的置信區(qū)間
4.6.2比較兩個(gè)模型的性能
4.6.3比較兩種分類法的性能