大數(shù)據(jù)挖掘3|分類方法

數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)中很大一部分是解決分類問題

分類可以定義為:

  • 對現(xiàn)有數(shù)據(jù)進(jìn)行學(xué)習(xí)讯榕,得到一個目標(biāo)函數(shù)或規(guī)則,把每個屬性集x映射到一個預(yù)先定義的類標(biāo)號y (即最終分為的幾個類別)

目標(biāo)函數(shù)或規(guī)則也稱為分類模型(Classification Model)刽虹,一個模型必須同時具有很好的擬合能力(很好擬合輸入樣本數(shù)據(jù)中類標(biāo)號和屬性間關(guān)系)和泛化能力(正確預(yù)測位置樣本的標(biāo)號)凿滤。


一、常用的分類方法介紹

  • (1) 樸素貝葉斯(Bayes)
  • (2) 決策樹(Decision Tree)
  • (3) 支持向量機(jī)(Suport Vector Machine)
  • (4) K近鄰 (KNN)
  • (5) 邏輯回歸(Logistic Regression)
  • (6) 神經(jīng)網(wǎng)絡(luò)
1.樸素貝葉斯
  • 基礎(chǔ)思想:對于給出的待分類項(xiàng)况增,求解在此項(xiàng)出現(xiàn)的條件下各個類別出現(xiàn)的概率赞庶,哪個最大,就認(rèn)為此分類項(xiàng)屬于哪個類別澳骤。
  • 優(yōu)點(diǎn)
    可以和決策樹歧强、神經(jīng)網(wǎng)絡(luò)分類算法相媲美,能運(yùn)用于大型數(shù)據(jù)庫中为肮。
    方法簡單摊册,分類準(zhǔn)確率高,速度快颊艳,所需估計的參數(shù)少茅特,對于缺失數(shù)據(jù)不敏感忘分。
    缺點(diǎn)
    假設(shè)一個屬性對定類的影響?yīng)毩⒂谄渌膶傩灾担@往往并不成立白修。(喜歡吃番茄妒峦、雞蛋,卻不喜歡吃番茄炒蛋)兵睛。
    需要知道先驗(yàn)概率舟山。
2.決策樹
  • 基礎(chǔ)思想:決策樹是一種簡單但廣泛使用的分類器,它通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹卤恳,對未知的數(shù)據(jù)進(jìn)行分類累盗。決策樹的每個內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試,每個分枝代表該測試的一個輸出突琳,而每個葉結(jié)點(diǎn)存放著一個類標(biāo)號若债。

在決策樹算法中,ID3基于信息增益作為屬性選擇的度量拆融,C4.5基于信息增益比作為屬性選擇的度量蠢琳,CART基于基尼指數(shù)作為屬性選擇的度量。

  • **優(yōu)點(diǎn) **:
    不需要任何領(lǐng)域知識或參數(shù)假設(shè)镜豹。
    適合高維數(shù)據(jù)傲须。
    簡單易于理解。
    短時間內(nèi)處理大量數(shù)據(jù)趟脂,得到可行且效果較好的結(jié)果泰讽。
    缺點(diǎn)
    對于各類別樣本數(shù)量不一致數(shù)據(jù),信息增益偏向于那些具有更多數(shù)值的特征昔期。
    易于過擬合已卸。
    忽略屬性之間的相關(guān)性。
3.支持向量機(jī)
  • 基礎(chǔ)思想:支持向量機(jī)把分類問題轉(zhuǎn)化為尋找分類平面的問題硼一,并通過最大化分類邊界點(diǎn)距離分類平面的距離來實(shí)現(xiàn)分類累澡。

  • 優(yōu)點(diǎn)
    可以解決小樣本下機(jī)器學(xué)習(xí)的問題。
    提高泛化性能般贼。
    可以解決
    文本分類愧哟、文字識別、圖像分類
    等方面仍受歡迎哼蛆。
    避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題蕊梧。
    **缺點(diǎn) **:
    缺失數(shù)據(jù)敏感。
    內(nèi)存消耗大人芽,難以解釋望几。

4.K近鄰
  • 基礎(chǔ)思想:通過計算每個訓(xùn)練樣例到待分類樣品的距離,取和待分類樣品距離最近的K個訓(xùn)練樣例萤厅,K個樣品中哪個類別的訓(xùn)練樣例占多數(shù)橄抹,則待分類樣品就屬于哪個類別靴迫。
  • **優(yōu)點(diǎn) **:
    適用于樣本容量比較大的分類問題
    缺點(diǎn)
    計算量太大
    對于樣本量較小的分類問題,會產(chǎn)生誤分楼誓。
5.邏輯回歸(LR)
  • 基礎(chǔ)思想:回歸模型中玉锌,y是一個定型變量,比如y=0或1疟羹,logistic方法主要應(yīng)用于研究某些事件發(fā)生的概率主守。
  • 優(yōu)點(diǎn)
    速度快,
    適合二分類問題榄融。

    簡單易于理解参淫,直接看到各個特征的權(quán)重。
    能容易地更新模型吸收新的數(shù)據(jù)愧杯。
    缺點(diǎn)
    對數(shù)據(jù)和場景的適應(yīng)能力有局限涎才,不如決策樹算法適應(yīng)性那么強(qiáng)
6.神經(jīng)網(wǎng)絡(luò)
  • 基礎(chǔ)思想:神經(jīng)網(wǎng)絡(luò)是對非線性可分?jǐn)?shù)據(jù)的分類方法。與輸入直接相連的稱為隱藏層( hidden layer)力九,與輸出直接相連的稱為輸出層(output layer)耍铜。
    神經(jīng)網(wǎng)絡(luò)算法的一大特點(diǎn)就在于不知道隱藏層計算的東西的意義;另一個特點(diǎn)在于神經(jīng)網(wǎng)絡(luò)有比較多的局部最優(yōu)值跌前,可以通過多次隨機(jī)設(shè)定初始值然后運(yùn)行梯度下降算法獲得最優(yōu)值棕兼。
  • **優(yōu)點(diǎn) **:
    分類準(zhǔn)確率高。
    并行處理能力強(qiáng)抵乓。
    分布式存儲和學(xué)習(xí)能力強(qiáng)伴挚。
    魯棒性較強(qiáng),不易受噪聲影響臂寝。
    **缺點(diǎn) **:
    需要大量參數(shù)(網(wǎng)絡(luò)拓?fù)湔吕稹㈤y值、閾值)咆贬。
    結(jié)果難以解釋。
    訓(xùn)練時間過長帚呼。

二掏缎、各分類方法使用場合

  • 如果訓(xùn)練集很小,建議采用樸素貝葉斯(Naive Bayes)

  • 但是隨著訓(xùn)練集的增大煤杀,可以采用其他的邏輯回歸眷蜈,K近鄰

  • 決策樹(DT)容易理解與解釋,主要缺點(diǎn)是容易過擬合沈自,這也正是隨機(jī)森林(Random Forest, RF)(或者Boosted樹)等集成學(xué)習(xí)算法被提出來的原因酌儒。

  • 隨機(jī)森林(RF)在很多分類問題中經(jīng)常表現(xiàn)得最好(一般比SVM稍好),且速度快可擴(kuò)展枯途,也不像SVM那樣需要調(diào)整大量的參數(shù)忌怎,所以最近RF是一個非常流行的算法籍滴。

三、各分類方法效果評價指標(biāo)

更好的數(shù)據(jù)往往比更好的算法更重要榴啸,提取好的特征也需要很大的功夫孽惰。如果你的數(shù)據(jù)集非常大,那么分類算法的選擇可能對最后的分類性能影響并不大(所以可以根據(jù)運(yùn)行速度或者易用性來選擇)鸥印。

  • ** 真正類(True Positive,TP)**:指模型預(yù)測為正(1)的勋功,并且實(shí)際上也的確是正(1)的觀察對象的數(shù)量。
  • 真負(fù)類(True Negative,TN):指模型預(yù)測為負(fù)(0)的库说,并且實(shí)際上也的確是負(fù)(0)的觀察對象的數(shù)量狂鞋。
  • 假正類(False Positive,FP):指模型預(yù)測為正(1)的要销,并且實(shí)際上是負(fù)(0)的觀察對象的數(shù)量。
  • 假負(fù)類(False Negative,FN):指模型預(yù)測為負(fù)(0)的夏块,并且實(shí)際上是正(1)的觀察對象的數(shù)量。

查準(zhǔn)率(precision rate)也即精度 和查全率(recall rate)也即真正率
precision rate = TP / (TP + FP)
recall rate = TP / (TP + FN)
一般比較關(guān)心的也是這兩個指標(biāo)脐供。


(更多詳細(xì)的分類方法原理可見
http://blog.csdn.net/china1000/article/details/48597469

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末浑塞,一起剝皮案震驚了整個濱河市政己,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌释牺,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,589評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件回挽,死亡現(xiàn)場離奇詭異没咙,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)千劈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評論 3 396
  • 文/潘曉璐 我一進(jìn)店門祭刚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事涡驮“瞪” “怎么了?”我有些...
    開封第一講書人閱讀 165,933評論 0 356
  • 文/不壞的土叔 我叫張陵遮怜,是天一觀的道長淋袖。 經(jīng)常有香客問我,道長锯梁,這世上最難降的妖魔是什么即碗? 我笑而不...
    開封第一講書人閱讀 58,976評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮陌凳,結(jié)果婚禮上剥懒,老公的妹妹穿的比我還像新娘。我一直安慰自己合敦,他們只是感情好初橘,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著充岛,像睡著了一般保檐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上崔梗,一...
    開封第一講書人閱讀 51,775評論 1 307
  • 那天夜只,我揣著相機(jī)與錄音,去河邊找鬼蒜魄。 笑死扔亥,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的谈为。 我是一名探鬼主播旅挤,決...
    沈念sama閱讀 40,474評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼伞鲫!你這毒婦竟也來了粘茄?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,359評論 0 276
  • 序言:老撾萬榮一對情侶失蹤榔昔,失蹤者是張志新(化名)和其女友劉穎驹闰,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體撒会,經(jīng)...
    沈念sama閱讀 45,854評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評論 3 338
  • 正文 我和宋清朗相戀三年师妙,在試婚紗的時候發(fā)現(xiàn)自己被綠了诵肛。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,146評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖怔檩,靈堂內(nèi)的尸體忽然破棺而出褪秀,到底是詐尸還是另有隱情,我是刑警寧澤薛训,帶...
    沈念sama閱讀 35,826評論 5 346
  • 正文 年R本政府宣布媒吗,位于F島的核電站,受9級特大地震影響乙埃,放射性物質(zhì)發(fā)生泄漏闸英。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評論 3 331
  • 文/蒙蒙 一介袜、第九天 我趴在偏房一處隱蔽的房頂上張望甫何。 院中可真熱鬧,春花似錦遇伞、人聲如沸辙喂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽巍耗。三九已至,卻和暖如春渐排,著一層夾襖步出監(jiān)牢的瞬間炬太,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評論 1 272
  • 我被黑心中介騙來泰國打工飞盆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留娄琉,地道東北人。 一個月前我還...
    沈念sama閱讀 48,420評論 3 373
  • 正文 我出身青樓吓歇,卻偏偏與公主長得像孽水,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子城看,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評論 2 356

推薦閱讀更多精彩內(nèi)容