決策樹

是使用頻率最高的數(shù)據(jù)挖掘算法是复,原因是不需要了解機器學(xué)習(xí)的知識也能搞明白決策樹是怎么工作。

優(yōu)勢:數(shù)據(jù)形式非常容易理解,可以從不熟悉的數(shù)據(jù)集合中提取出一系列規(guī)則,計算復(fù)雜度不高关带,對中間值的缺失不敏感,可以處理不相關(guān)特征數(shù)據(jù)

缺點:可能會產(chǎn)生過度匹配問題

使用數(shù)據(jù)范圍:數(shù)值型和標稱型

基尼不純度:從一個數(shù)據(jù)集中隨機選取子項沼撕,度量其被錯誤分類到其他分組里的概率宋雏。

信息增益:計算每個特征值劃分數(shù)據(jù)集獲得的信息增益,獲得信息增益最高的特征就是最好的選擇

熵定義為信息的期望值务豺,如果待分類的事務(wù)可能劃分在多個分類中好芭,則符號Xi的信息定義為l(Xi)=-lgP(Xi),P(Xi)是選擇該分類的概率,所有類別所有可能值包含的信息期望值E=-∑P(Xi)lgP(Xi)


信息表示

算法流程:?

每次遍歷特征冲呢,對數(shù)據(jù)集按此特征進行劃分后舍败,計算數(shù)據(jù)集的新熵值,并對所以唯一特征值得到的熵求和,和越小邻薯,劃分結(jié)果越有序裙戏,用此特征劃分效果越好。

遞歸構(gòu)建決策樹厕诡, 直到遍歷完所有劃分數(shù)據(jù)集的屬性累榜,或者每個分枝下的所有實例都具有相同的分類


C4.5

信息增益準則會對可能取值數(shù)目較多的屬性有所偏好,為了減少這種偏好帶來的不良影響灵嫌,考慮內(nèi)在信息量壹罚,使用信息增益率


內(nèi)在信息
信息增益率

特征的重要性會隨著其內(nèi)在信息(Intrinsic Information)的增大而減小。 信息增益率作為一種補償(Compensate)措施來解決信息增益所存在的問題寿羞,但是它也有可能導(dǎo)致過分補償猖凛,而選擇那些內(nèi)在信息很小的特征,這一點可以嘗試:首先绪穆,僅考慮那些信息增益超過平均值的特征辨泳,其次再比較信息增益。


CART

使用基尼不純度進行劃分


基尼系數(shù)玖院,其中pj是類j在T中的相對頻率菠红,當類在T中是傾斜的時,gini(T)會最小
將T劃分為T1(實例數(shù)為N1)和T2(實例數(shù)為N2)兩個子集后难菌,劃分數(shù)據(jù)的Gini定義

隨后選擇最小的Gini(T)作為結(jié)點劃分決策樹


剪枝

解決決策樹學(xué)習(xí)算法中過擬合

預(yù)剪枝: 在決策樹生成過程中试溯,對每個節(jié)點在劃分前先進行估計,如不能帶來泛化性能提高郊酒,則停止劃分

后剪枝:在生成完決策樹后耍共,自底向上對非葉子節(jié)點進行考察,如將其替換為葉子節(jié)點后泛化性能提升猎塞,則將該子樹替換為葉節(jié)點试读。

泛化性能的考察可以使用留出法:即留出一部分樣本用作測試。


數(shù)值型屬性的轉(zhuǎn)化

如密度荠耽,長度等钩骇,采用二分法轉(zhuǎn)化

如20個密度數(shù)據(jù),進行排序后相鄰兩個數(shù)據(jù)進行折中铝量,Ta = { ai+ai+1/2 1<=i<=n-1}

那么每個決策點的含義變?yōu)??“密度是否>Ta”,相當于額外再增加N-1個屬性倘屹,但感覺這么做在數(shù)據(jù)量大的時候效率衰減會很快


缺失值的處理

可以采取加入權(quán)重的方法,表示這條數(shù)據(jù)可能處于這個劃分集的概念慢叨,對于屬性不缺失的數(shù)據(jù)纽匙,權(quán)重為1,對于剩余的拍谐,權(quán)重為元樣本中的概率分布

在計算信息增益的時候先不考慮屬性缺失數(shù)據(jù)烛缔,待確定劃分屬性后馏段,將這條在該屬性上數(shù)據(jù)缺失的數(shù)據(jù)以原樣本中的概率分布分別加入到劃分的下一層去


多變量決策樹

軸平行是一般決策樹的決策邊界的特點,但存在一些情況需要多段劃分才能取得較好的近似

如某個決策點變?yōu)?-0.8*密度-0.44*含糖率<=-0.333

主要算法有OC1践瓷,先貪心的尋找每個屬性的最優(yōu)權(quán)值院喜,在局部優(yōu)化的基礎(chǔ)上再對分類邊界進行隨機擾動以試圖找到更好的邊界,


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末晕翠,一起剝皮案震驚了整個濱河市喷舀,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌淋肾,老刑警劉巖硫麻,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異樊卓,居然都是意外死亡拿愧,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進店門简识,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赶掖,“玉大人感猛,你說我怎么就攤上這事七扰。” “怎么了陪白?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵颈走,是天一觀的道長。 經(jīng)常有香客問我咱士,道長立由,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任序厉,我火速辦了婚禮锐膜,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘弛房。我一直安慰自己道盏,他們只是感情好,可當我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布文捶。 她就那樣靜靜地躺著荷逞,像睡著了一般。 火紅的嫁衣襯著肌膚如雪粹排。 梳的紋絲不亂的頭發(fā)上种远,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天,我揣著相機與錄音顽耳,去河邊找鬼坠敷。 笑死妙同,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的常拓。 我是一名探鬼主播渐溶,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼弄抬!你這毒婦竟也來了茎辐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤掂恕,失蹤者是張志新(化名)和其女友劉穎拖陆,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體懊亡,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡依啰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了店枣。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片速警。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鸯两,靈堂內(nèi)的尸體忽然破棺而出闷旧,到底是詐尸還是另有隱情,我是刑警寧澤钧唐,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布忙灼,位于F島的核電站,受9級特大地震影響钝侠,放射性物質(zhì)發(fā)生泄漏该园。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一帅韧、第九天 我趴在偏房一處隱蔽的房頂上張望里初。 院中可真熱鬧,春花似錦忽舟、人聲如沸双妨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽斥难。三九已至,卻和暖如春帘饶,著一層夾襖步出監(jiān)牢的瞬間绍哎,已是汗流浹背横浑。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留紫谷,地道東北人。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子骆莹,可洞房花燭夜當晚...
    茶點故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容