數(shù)據(jù)挖掘的十大算法

算法其實是一種哲學(xué)思想狈茉,對外界認(rèn)知的處理方法,都是生活中常用的方法足删,但在數(shù)據(jù)時代,加持了大數(shù)據(jù)這個buff匣距,就變得特別厲害了。

為了進(jìn)行數(shù)據(jù)挖掘任務(wù)哎壳,數(shù)據(jù)科學(xué)家們提出了各種模型毅待,在眾多的數(shù)據(jù)挖掘模型中,國際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評選出了十大經(jīng)典的算法归榕。

按照不同的目的尸红,我可以將這些算法分成四類,以便你更好的理解蹲坷。

l 分類算法:C4.5驶乾,樸素貝葉斯(Naive Bayes)邑飒,SVM循签,KNN,Adaboost疙咸,CART

l 聚類算法:K-Means县匠,EM

l 關(guān)聯(lián)分析:Apriori

l 連接分析:PageRank

  1. C4.5

C4.5 算法是得票最高的算法,可以說是十大算法之首。C4.5 是決策樹的算法乞旦,它創(chuàng)造性地在決策樹構(gòu)造過程中就進(jìn)行了剪枝贼穆,并且可以處理連續(xù)的屬性,也能對不完整的數(shù)據(jù)進(jìn)行處理兰粉。它可以說是決策樹分類中故痊,具有里程碑式意義的算法。

  1. 樸素貝葉斯(Naive Bayes)

樸素貝葉斯模型是基于概率論的原理玖姑,它的思想是這樣的:對于給出的未知物體想要進(jìn)行分類愕秫,就需要求解在這個未知物體出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大焰络,就認(rèn)為這個未知物體屬于哪個分類戴甩。

  1. SVM

SVM 的中文叫支持向量機(jī),英文是 Support Vector Machine闪彼,簡稱 SVM甜孤。SVM 在訓(xùn)練中建立了一個超平面的分類模型。如果你對超平面不理解畏腕,沒有關(guān)系缴川,我在后面的算法篇會給你進(jìn)行介紹。

  1. KNN

KNN 也叫 K 最近鄰算法描馅,英文是 K-Nearest Neighbor二跋。所謂 K 近鄰,就是每個樣本都可以用它最接近的 K 個鄰居來代表流昏。如果一個樣本扎即,它的 K 個最接近的鄰居都屬于分類 A,那么這個樣本也屬于分類 A况凉。

  1. AdaBoost

Adaboost 在訓(xùn)練中建立了一個聯(lián)合的分類模型谚鄙。boost 在英文中代表提升的意思,所以 Adaboost 是個構(gòu)建分類器的提升算法刁绒。它可以讓我們多個弱的分類器組成一個強(qiáng)的分類器闷营,所以 Adaboost 也是一個常用的分類算法。

  1. CART

CART 代表分類和回歸樹知市,英文是 Classification and Regression Trees傻盟。像英文一樣,它構(gòu)建了兩棵樹:一顆是分類樹嫂丙,另一個是回歸樹娘赴。和 C4.5 一樣,它是一個決策樹學(xué)習(xí)方法跟啤。

  1. Apriori

Apriori 是一種挖掘關(guān)聯(lián)規(guī)則(association rules)的算法诽表,它通過挖掘頻繁項集(frequent item sets)來揭示物品之間的關(guān)聯(lián)關(guān)系唉锌,被廣泛應(yīng)用到商業(yè)挖掘和網(wǎng)絡(luò)安全等領(lǐng)域中。頻繁項集是指經(jīng)常出現(xiàn)在一起的物品的集合竿奏,關(guān)聯(lián)規(guī)則暗示著兩種物品之間可能存在很強(qiáng)的關(guān)系袄简。

  1. K-Means

K-Means 算法是一個聚類算法。你可以這么理解泛啸,最終我想把物體劃分成 K 類绿语。假設(shè)每個類別里面,都有個“中心點”候址,即意見領(lǐng)袖汞舱,它是這個類別的核心。現(xiàn)在我有一個新點要歸類宗雇,這時候就只要計算這個新點與 K 個中心點的距離昂芜,距離哪個中心點近,就變成了哪個類別赔蒲。

  1. EM

EM 算法也叫最大期望算法泌神,是求參數(shù)的最大似然估計的一種方法。原理是這樣的:假設(shè)我們想要評估參數(shù) A 和參數(shù) B舞虱,在開始狀態(tài)下二者都是未知的欢际,并且知道了 A 的信息就可以得到 B 的信息,反過來知道了 B 也就得到了 A矾兜∷鹎鳎可以考慮首先賦予 A 某個初值,以此得到 B 的估值椅寺,然后從 B 的估值出發(fā)浑槽,重新估計 A 的取值,這個過程一直持續(xù)到收斂為止返帕。

EM 算法經(jīng)常用于聚類和機(jī)器學(xué)習(xí)領(lǐng)域中桐玻。

  1. PageRank

PageRank 起源于論文影響力的計算方式,如果一篇文論被引入的次數(shù)越多荆萤,就代表這篇論文的影響力越強(qiáng)镊靴。同樣 PageRank 被 Google 創(chuàng)造性地應(yīng)用到了網(wǎng)頁權(quán)重的計算中:當(dāng)一個頁面鏈出的頁面越多,說明這個頁面的“參考文獻(xiàn)”越多链韭,當(dāng)這個頁面被鏈入的頻率越高偏竟,說明這個頁面被引用的次數(shù)越高〕ㄇ停基于這個原理踊谋,我們可以得到網(wǎng)站的權(quán)重劃分。

算法可以說是數(shù)據(jù)挖掘的靈魂儡陨,也是最精華的部分褪子。這 10 個經(jīng)典算法在整個數(shù)據(jù)挖掘領(lǐng)域中的得票最高的,后面的一些其他算法也基本上都是在這個基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新骗村。


EM算法還不太懂嫌褪,之后繼續(xù)研究下。

參考文獻(xiàn)

陳旸.02丨學(xué)習(xí)數(shù)據(jù)挖掘的最佳路徑是什么胚股?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末笼痛,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子琅拌,更是在濱河造成了極大的恐慌缨伊,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件进宝,死亡現(xiàn)場離奇詭異刻坊,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)党晋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門谭胚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人未玻,你說我怎么就攤上這事灾而。” “怎么了扳剿?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵旁趟,是天一觀的道長。 經(jīng)常有香客問我庇绽,道長锡搜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任瞧掺,我火速辦了婚禮余爆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘夸盟。我一直安慰自己蛾方,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布上陕。 她就那樣靜靜地躺著桩砰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪释簿。 梳的紋絲不亂的頭發(fā)上亚隅,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天,我揣著相機(jī)與錄音庶溶,去河邊找鬼煮纵。 笑死懂鸵,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的行疏。 我是一名探鬼主播匆光,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼酿联!你這毒婦竟也來了终息?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤贞让,失蹤者是張志新(化名)和其女友劉穎周崭,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體喳张,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡续镇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了销部。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片磨取。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖柴墩,靈堂內(nèi)的尸體忽然破棺而出忙厌,到底是詐尸還是另有隱情,我是刑警寧澤江咳,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布逢净,位于F島的核電站,受9級特大地震影響歼指,放射性物質(zhì)發(fā)生泄漏爹土。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一踩身、第九天 我趴在偏房一處隱蔽的房頂上張望胀茵。 院中可真熱鬧,春花似錦挟阻、人聲如沸琼娘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽脱拼。三九已至,卻和暖如春坷备,著一層夾襖步出監(jiān)牢的瞬間熄浓,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工省撑, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留赌蔑,地道東北人俯在。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像娃惯,于是被迫代替她去往敵國和親跷乐。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容