《數(shù)據(jù)挖掘?qū)д摗稢H4分類:基本概念、決策樹與模型評(píng)估-讀書筆記

分類任務(wù)就是確定對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類(店鋪病歷表激涤,款式判斷)

4.1預(yù)備知識(shí)

分類計(jì)數(shù)非常適合預(yù)測(cè)描述二元或標(biāo)稱類型的數(shù)據(jù)集衷蜓,但是分類技術(shù)不考慮隱含的序數(shù)關(guān)系累提。

4.2解決分類問題的一般方法(方法論)P91(圖4-3)

分類技術(shù)是一種根據(jù)輸入數(shù)據(jù)集建立分類模型的系統(tǒng)方法。分類法包括:決策樹分類法磁浇,基于規(guī)則的分類法斋陪,神經(jīng)網(wǎng)絡(luò),支持向量機(jī)和樸素貝葉斯分類法。分類模型能夠很好的擬合輸入數(shù)據(jù)中類標(biāo)號(hào)和屬性集之間的聯(lián)系无虚,因此訓(xùn)練算法的主要目的就是建立具有很好繁華能力的模型缔赠。(即建立能夠準(zhǔn)確預(yù)測(cè)位置樣本類標(biāo)號(hào)的模型。)

4.3決策樹歸納(可用于店鋪病例診斷)

原理:一系列的問題和這些問題的可能回答可以組織成決策樹的形式友题。樹中包含三種節(jié)點(diǎn):根節(jié)點(diǎn)嗤堰,內(nèi)部結(jié)點(diǎn),葉結(jié)點(diǎn)或終結(jié)點(diǎn)咆爽。

建立:Hunt算法

屬性梁棠;類型:二元屬性置森,標(biāo)稱屬性斗埂,序數(shù)屬性,連續(xù)屬性(比較或分區(qū)間)

最佳劃分度量:選擇最佳劃分的度量通常是根據(jù)劃分后子女節(jié)點(diǎn)不純性的程度凫海。熵呛凶,Gini,X2是常用的三種不純性計(jì)算方法行贪。不純性越低漾稀,類分布就越傾斜。劃分前和劃分后的不純程度相差越大建瘫,效果越好崭捍,計(jì)算相差程度用信息增益。

特點(diǎn)總結(jié):

1.決策樹歸納是一種構(gòu)建分類模型的非參數(shù)方法啰脚。它補(bǔ)要求任何先驗(yàn)假設(shè)殷蛇,不假定類和其他屬性服從一定的概率分布。

2.已開發(fā)的構(gòu)建決策樹技術(shù)不需要昂貴的計(jì)算代價(jià)橄浓,即使訓(xùn)練集非常大粒梦,亦可以快速建立。決策樹一旦建立荸实,未知樣本分類非吃让牵快。

3.決策樹相對(duì)容易解釋准给。

4.決策樹是離散值函數(shù)的典型代表泄朴,但它不能很好的推廣到特定的布爾問題。

5.決策樹算法對(duì)于噪聲的干擾具有相當(dāng)好的魯棒性露氮。

6.在葉結(jié)點(diǎn)祖灰,記錄可能太少,對(duì)于葉結(jié)點(diǎn)代表的類沦辙,不能做出具有統(tǒng)計(jì)意義的判決夫植,這就是所謂的數(shù)據(jù)碎片。解決方法,就是當(dāng)樣本數(shù)小于某個(gè)特定閾值時(shí)停止分裂详民。


4.4模型的過分?jǐn)M合

當(dāng)決策樹很小時(shí)延欠,訓(xùn)練和檢驗(yàn)誤差都很大,這是由于模型尚未學(xué)習(xí)到數(shù)據(jù)的真實(shí)結(jié)構(gòu)沈跨,模型擬合不足由捎。但決策樹過大后,訓(xùn)練誤差會(huì)逐漸降低饿凛,而檢驗(yàn)誤差開始增大狞玛,稱為過擬合(模型過分?jǐn)M合)。原因在于涧窒,過于龐大的決策樹可能擬合了訓(xùn)練樣本中的噪聲數(shù)據(jù)心肪,這些結(jié)點(diǎn)降低了決策樹的性能,不能很好的泛化到檢驗(yàn)樣本纠吴。出現(xiàn)過擬合的情況:噪聲數(shù)據(jù)導(dǎo)致的過擬合硬鞍,缺乏代表性樣本導(dǎo)致的過分?jǐn)M合,多重比較過程戴已。

4.4.4估計(jì)泛化誤差

估計(jì)誤差能助于學(xué)習(xí)算法進(jìn)行模型選擇固该,即找到一個(gè)具有合適復(fù)雜度、不易發(fā)生過分?jǐn)M合的模型糖儡。理想的復(fù)雜度是能產(chǎn)生最低泛化的模型的復(fù)雜度伐坏。由于模型依靠訓(xùn)練數(shù)據(jù),對(duì)檢驗(yàn)數(shù)據(jù)的性能握联,只能進(jìn)行估計(jì)桦沉。對(duì)泛化誤差估計(jì)的方法有:使用再代入估計(jì)(訓(xùn)練誤差=泛化誤差),結(jié)合模型復(fù)雜度拴疤,估計(jì)統(tǒng)計(jì)上界永部,使用確認(rèn)集。

4.4.5處理決策歸納中的過分?jǐn)M合

先剪枝:設(shè)定結(jié)束條件呐矾,比如觀察到不純性度量的增益低于某個(gè)確定閾值就停止擴(kuò)展葉苔埋。/后剪枝:初始決策樹按照最大規(guī)模生長,然后用心葉結(jié)點(diǎn)替換子樹蜒犯。

4.5評(píng)估分類器的性能:通過估計(jì)泛化誤差组橄,模型已建立,接下來需要在檢驗(yàn)數(shù)據(jù)集上測(cè)試性能罚随,用檢驗(yàn)集上的準(zhǔn)確率來比較模型性能玉工。比較的方法主要有四:1.保持方法(將原始數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)+檢驗(yàn)數(shù)據(jù));2.隨機(jī)二次抽樣:(可以多次重復(fù)保持方法來改進(jìn)對(duì)分類器性能的估計(jì))淘菩;3.交叉驗(yàn)證(原始數(shù)據(jù)分成k份遵班,每次1份作為檢驗(yàn)數(shù)據(jù)屠升,其余的作為訓(xùn)練數(shù)據(jù),以此輪轉(zhuǎn)狭郑,每個(gè)記錄用于訓(xùn)練的次數(shù)相同腹暖,并且恰好檢驗(yàn)一次。)翰萨;4.自助法(訓(xùn)練記錄采用有放回抽樣)脏答。

4.6比較分類器的方法:不同的數(shù)據(jù)集大小不同,兩個(gè)分類器準(zhǔn)確率上的差異可能不是統(tǒng)計(jì)顯著的亩鬼。借助統(tǒng)計(jì)檢驗(yàn)方法來對(duì)不同模型進(jìn)行比較殖告。

4.6.1估計(jì)準(zhǔn)確度的置信區(qū)間

4.6.2比較兩個(gè)模型的性能

4.6.3比較兩種分類法的性能


第四章 思維導(dǎo)圖
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市雳锋,隨后出現(xiàn)的幾起案子黄绩,更是在濱河造成了極大的恐慌,老刑警劉巖魄缚,帶你破解...
    沈念sama閱讀 211,948評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宝与,死亡現(xiàn)場離奇詭異焚廊,居然都是意外死亡冶匹,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門咆瘟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嚼隘,“玉大人,你說我怎么就攤上這事袒餐》捎迹” “怎么了?”我有些...
    開封第一講書人閱讀 157,490評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵灸眼,是天一觀的道長卧檐。 經(jīng)常有香客問我,道長焰宣,這世上最難降的妖魔是什么霉囚? 我笑而不...
    開封第一講書人閱讀 56,521評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮匕积,結(jié)果婚禮上盈罐,老公的妹妹穿的比我還像新娘。我一直安慰自己闪唆,他們只是感情好盅粪,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著悄蕾,像睡著了一般票顾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,842評(píng)論 1 290
  • 那天奠骄,我揣著相機(jī)與錄音霸旗,去河邊找鬼。 笑死戚揭,一個(gè)胖子當(dāng)著我的面吹牛诱告,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播民晒,決...
    沈念sama閱讀 38,997評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼精居,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了潜必?” 一聲冷哼從身側(cè)響起靴姿,我...
    開封第一講書人閱讀 37,741評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎磁滚,沒想到半個(gè)月后佛吓,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,203評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡垂攘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評(píng)論 2 327
  • 正文 我和宋清朗相戀三年维雇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晒他。...
    茶點(diǎn)故事閱讀 38,673評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡吱型,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出陨仅,到底是詐尸還是另有隱情津滞,我是刑警寧澤,帶...
    沈念sama閱讀 34,339評(píng)論 4 330
  • 正文 年R本政府宣布灼伤,位于F島的核電站触徐,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏狐赡。R本人自食惡果不足惜撞鹉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望猾警。 院中可真熱鬧孔祸,春花似錦、人聲如沸发皿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽穴墅。三九已至惶室,卻和暖如春温自,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背皇钞。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評(píng)論 1 266
  • 我被黑心中介騙來泰國打工悼泌, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人夹界。 一個(gè)月前我還...
    沈念sama閱讀 46,394評(píng)論 2 360
  • 正文 我出身青樓馆里,卻偏偏與公主長得像,于是被迫代替她去往敵國和親可柿。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鸠踪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容

  • 分類任務(wù)就是確定對(duì)象屬于那個(gè)與定義的目標(biāo)類 4.1預(yù)備知識(shí) 4.1.1分類與回歸 分類任務(wù)的輸入數(shù)據(jù)時(shí)記錄的集合营密。...
    啦啦啦_9a5f閱讀 1,845評(píng)論 0 0
  • 決策樹理論在決策樹理論中,有這樣一句話目锭,“用較少的東西评汰,照樣可以做很好的事情。越是小的決策樹痢虹,越優(yōu)于大的決策樹”被去。...
    制杖灶灶閱讀 5,840評(píng)論 0 25
  • [TOC] 分類基本概念、決策樹與模型評(píng)估 基本概念 分類:確定對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類(目標(biāo)類的總體是已知的)...
    hyfine閱讀 3,086評(píng)論 0 0
  • 1 基本概念 1.1 分類定義 簡言之世分,確定對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類编振。 學(xué)術(shù)一點(diǎn):通過學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)f...
    七八音閱讀 6,056評(píng)論 0 0
  • 一、如何建立決策樹 1臭埋、Hunt算法 Hunt算法是許多決策樹算法的基礎(chǔ),包括ID3臀玄、C4.5瓢阴、CART。Hunt...
    longgb246閱讀 5,540評(píng)論 0 2