下個學(xué)期開始就要講數(shù)據(jù)挖掘了麦锯,有點(diǎn)開心碎紊,也有點(diǎn)緊張佑附。數(shù)據(jù)挖掘不是單純的講解理論,更偏向于實踐仗考。所以除了把基礎(chǔ)的概念講清楚音同,如何帶著同學(xué)們做一些有意義的項目,確實是一個挑戰(zhàn)~~
今天呢秃嗜,我們就從決策樹開始权均,先介紹基礎(chǔ)的概念顿膨,然后再做一個項目練手。
先提醒大家一下叽赊,我會將一個算法分為多篇文章介紹虽惭,由淺入深。今天先給大家介紹一下決策樹的基本流程蛇尚。
決策樹是一類常見的機(jī)器學(xué)習(xí)方法芽唇。以二分類為例,我們希望從給定的訓(xùn)練數(shù)據(jù)集學(xué)得一個模型用以對新示例進(jìn)行分類取劫,這個把樣本分類的任務(wù)匆笤,可看作對“當(dāng)前樣本屬于正類嗎?”這個問題的“決策”或“判斷”谱邪。顧名思義炮捧,決策樹是基于樹結(jié)構(gòu)來進(jìn)行決策的,這恰是人類在面臨決策問題時一種很自然的處理機(jī)制惦银。例如咆课,我們要對“這是好機(jī)會嗎?”這樣的問題進(jìn)行決策時扯俱,通常會進(jìn)行一系列的判斷或“子決策”:我們先看“每個月賺多少錢”书蚪,如果是“合乎自己預(yù)期”,則我們再看“這家公司的主營業(yè)務(wù)”迅栅,如果是“一些熱門的行業(yè)”殊校,我們再判斷“它位于哪個地區(qū)”,如果是在“一線城市”读存,最后为流,我們的出最終決策:這是個好機(jī)會。
顯然让簿,決策過程的最終結(jié)論對應(yīng)了我們所希望的判定結(jié)果敬察,例如“是”或“不是”好機(jī)會;決策過程中提出的每個判定問題都是對某個屬性的“測試”尔当,例如“每月收入=莲祸?”,“主營業(yè)務(wù)=居凶?”虫给;每個測試的結(jié)果或是導(dǎo)出最終結(jié)論藤抡,或是導(dǎo)出進(jìn)一步的判定問題侠碧,其考慮范圍是在上次決策結(jié)果的限定范圍之內(nèi),例如:若在“每個月賺多少錢=合乎自己預(yù)期”之后再判斷“這家公司的主營業(yè)務(wù)=缠黍?”弄兜,則僅在考慮合乎自己預(yù)期的收入的基礎(chǔ)上的公司的主營業(yè)務(wù)。
這句話理解起來比較繞,簡單來說就是替饿,判斷這家公司的主營業(yè)務(wù)的前提是语泽,收入需要滿足自己的預(yù)期。如果收入達(dá)不到預(yù)期视卢,那可能考慮的就不是主營業(yè)務(wù)踱卵,而是別的條件。
所以据过,面對“每月收入=惋砂?”這種問題,我們?nèi)绾位卮鹕F(xiàn)實生活中答案肯定不止一種西饵。我們選擇其中一種答案后,接下來該考慮什么問題鳞芙,是“主營業(yè)務(wù)=眷柔?”,還是“公司位于哪個地區(qū)=原朝?”驯嘱。這些問題的重要性如何取舍,是都考慮還是挑選某幾個問題喳坠。如何解決這些疑問呢宙拉?就需要用到算法了~~
好了,決策樹的基本概念先介紹這么多丙笋,我們盡量不說的那么書面化谢澈,盡量用通俗一點(diǎn)的語言來表達(dá)。期待下一篇對決策樹的進(jìn)一步介紹吧~