數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)中很大一部分是解決分類問題。
分類可以定義為:
- 對現(xiàn)有數(shù)據(jù)進(jìn)行學(xué)習(xí)讯榕,得到一個目標(biāo)函數(shù)或規(guī)則,把每個屬性集x映射到一個預(yù)先定義的類標(biāo)號y (即最終分為的幾個類別)
目標(biāo)函數(shù)或規(guī)則也稱為分類模型(Classification Model)刽虹,一個模型必須同時具有很好的擬合能力(很好擬合輸入樣本數(shù)據(jù)中類標(biāo)號和屬性間關(guān)系)和泛化能力(正確預(yù)測位置樣本的標(biāo)號)凿滤。
一、常用的分類方法介紹
- (1) 樸素貝葉斯(Bayes)
- (2) 決策樹(Decision Tree)
- (3) 支持向量機(jī)(Suport Vector Machine)
- (4) K近鄰 (KNN)
- (5) 邏輯回歸(Logistic Regression)
- (6) 神經(jīng)網(wǎng)絡(luò)
1.樸素貝葉斯
- 基礎(chǔ)思想:對于給出的待分類項(xiàng)况增,求解在此項(xiàng)出現(xiàn)的條件下各個類別出現(xiàn)的概率赞庶,哪個最大,就認(rèn)為此分類項(xiàng)屬于哪個類別澳骤。
-
優(yōu)點(diǎn):
可以和決策樹歧强、神經(jīng)網(wǎng)絡(luò)分類算法相媲美,能運(yùn)用于大型數(shù)據(jù)庫中为肮。
方法簡單摊册,分類準(zhǔn)確率高,速度快颊艳,所需估計的參數(shù)少茅特,對于缺失數(shù)據(jù)不敏感忘分。
缺點(diǎn):
假設(shè)一個屬性對定類的影響?yīng)毩⒂谄渌膶傩灾担@往往并不成立白修。(喜歡吃番茄妒峦、雞蛋,卻不喜歡吃番茄炒蛋)兵睛。
需要知道先驗(yàn)概率舟山。
2.決策樹
- 基礎(chǔ)思想:決策樹是一種簡單但廣泛使用的分類器,它通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹卤恳,對未知的數(shù)據(jù)進(jìn)行分類累盗。決策樹的每個內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試,每個分枝代表該測試的一個輸出突琳,而每個葉結(jié)點(diǎn)存放著一個類標(biāo)號若债。
在決策樹算法中,ID3基于信息增益作為屬性選擇的度量拆融,C4.5基于信息增益比作為屬性選擇的度量蠢琳,CART基于基尼指數(shù)作為屬性選擇的度量。
- **優(yōu)點(diǎn) **:
不需要任何領(lǐng)域知識或參數(shù)假設(shè)镜豹。
適合高維數(shù)據(jù)傲须。
簡單易于理解。
短時間內(nèi)處理大量數(shù)據(jù)趟脂,得到可行且效果較好的結(jié)果泰讽。
缺點(diǎn):
對于各類別樣本數(shù)量不一致數(shù)據(jù),信息增益偏向于那些具有更多數(shù)值的特征昔期。
易于過擬合已卸。
忽略屬性之間的相關(guān)性。
3.支持向量機(jī)
基礎(chǔ)思想:支持向量機(jī)把分類問題轉(zhuǎn)化為尋找分類平面的問題硼一,并通過最大化分類邊界點(diǎn)距離分類平面的距離來實(shí)現(xiàn)分類累澡。
優(yōu)點(diǎn) :
可以解決小樣本下機(jī)器學(xué)習(xí)的問題。
提高泛化性能般贼。
可以解決文本分類愧哟、文字識別、圖像分類等方面仍受歡迎哼蛆。
避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題蕊梧。
**缺點(diǎn) **:
缺失數(shù)據(jù)敏感。
內(nèi)存消耗大人芽,難以解釋望几。
4.K近鄰
- 基礎(chǔ)思想:通過計算每個訓(xùn)練樣例到待分類樣品的距離,取和待分類樣品距離最近的K個訓(xùn)練樣例萤厅,K個樣品中哪個類別的訓(xùn)練樣例占多數(shù)橄抹,則待分類樣品就屬于哪個類別靴迫。
- **優(yōu)點(diǎn) **:
適用于樣本容量比較大的分類問題
缺點(diǎn):
計算量太大
對于樣本量較小的分類問題,會產(chǎn)生誤分楼誓。
5.邏輯回歸(LR)
- 基礎(chǔ)思想:回歸模型中玉锌,y是一個定型變量,比如y=0或1疟羹,logistic方法主要應(yīng)用于研究某些事件發(fā)生的概率主守。
-
優(yōu)點(diǎn) :
速度快,適合二分類問題榄融。
簡單易于理解参淫,直接看到各個特征的權(quán)重。
能容易地更新模型吸收新的數(shù)據(jù)愧杯。
缺點(diǎn):
對數(shù)據(jù)和場景的適應(yīng)能力有局限涎才,不如決策樹算法適應(yīng)性那么強(qiáng)
6.神經(jīng)網(wǎng)絡(luò)
-
基礎(chǔ)思想:神經(jīng)網(wǎng)絡(luò)是對非線性可分?jǐn)?shù)據(jù)的分類方法。與輸入直接相連的稱為隱藏層( hidden layer)力九,與輸出直接相連的稱為輸出層(output layer)耍铜。
神經(jīng)網(wǎng)絡(luò)算法的一大特點(diǎn)就在于不知道隱藏層計算的東西的意義;另一個特點(diǎn)在于神經(jīng)網(wǎng)絡(luò)有比較多的局部最優(yōu)值跌前,可以通過多次隨機(jī)設(shè)定初始值然后運(yùn)行梯度下降算法獲得最優(yōu)值棕兼。 - **優(yōu)點(diǎn) **:
分類準(zhǔn)確率高。
并行處理能力強(qiáng)抵乓。
分布式存儲和學(xué)習(xí)能力強(qiáng)伴挚。
魯棒性較強(qiáng),不易受噪聲影響臂寝。
**缺點(diǎn) **:
需要大量參數(shù)(網(wǎng)絡(luò)拓?fù)湔吕稹㈤y值、閾值)咆贬。
結(jié)果難以解釋。
訓(xùn)練時間過長帚呼。
二掏缎、各分類方法使用場合
如果訓(xùn)練集很小,建議采用樸素貝葉斯(Naive Bayes)
但是隨著訓(xùn)練集的增大煤杀,可以采用其他的邏輯回歸眷蜈,K近鄰
決策樹(DT)容易理解與解釋,主要缺點(diǎn)是容易過擬合沈自,這也正是隨機(jī)森林(Random Forest, RF)(或者Boosted樹)等集成學(xué)習(xí)算法被提出來的原因酌儒。
隨機(jī)森林(RF)在很多分類問題中經(jīng)常表現(xiàn)得最好(一般比SVM稍好),且速度快可擴(kuò)展枯途,也不像SVM那樣需要調(diào)整大量的參數(shù)忌怎,所以最近RF是一個非常流行的算法籍滴。
三、各分類方法效果評價指標(biāo)
更好的數(shù)據(jù)往往比更好的算法更重要榴啸,提取好的特征也需要很大的功夫孽惰。如果你的數(shù)據(jù)集非常大,那么分類算法的選擇可能對最后的分類性能影響并不大(所以可以根據(jù)運(yùn)行速度或者易用性來選擇)鸥印。
- ** 真正類(True Positive,TP)**:指模型預(yù)測為正(1)的勋功,并且實(shí)際上也的確是正(1)的觀察對象的數(shù)量。
- 真負(fù)類(True Negative,TN):指模型預(yù)測為負(fù)(0)的库说,并且實(shí)際上也的確是負(fù)(0)的觀察對象的數(shù)量狂鞋。
- 假正類(False Positive,FP):指模型預(yù)測為正(1)的要销,并且實(shí)際上是負(fù)(0)的觀察對象的數(shù)量。
- 假負(fù)類(False Negative,FN):指模型預(yù)測為負(fù)(0)的夏块,并且實(shí)際上是正(1)的觀察對象的數(shù)量。
查準(zhǔn)率(precision rate)也即精度 和查全率(recall rate)也即真正率
precision rate = TP / (TP + FP)
recall rate = TP / (TP + FN)
一般比較關(guān)心的也是這兩個指標(biāo)脐供。
(更多詳細(xì)的分類方法原理可見
http://blog.csdn.net/china1000/article/details/48597469)