算法其實是一種哲學(xué)思想狈茉,對外界認(rèn)知的處理方法,都是生活中常用的方法足删,但在數(shù)據(jù)時代,加持了大數(shù)據(jù)這個buff匣距,就變得特別厲害了。
為了進(jìn)行數(shù)據(jù)挖掘任務(wù)哎壳,數(shù)據(jù)科學(xué)家們提出了各種模型毅待,在眾多的數(shù)據(jù)挖掘模型中,國際權(quán)威的學(xué)術(shù)組織 ICDM (the IEEE International Conference on Data Mining)評選出了十大經(jīng)典的算法归榕。
按照不同的目的尸红,我可以將這些算法分成四類,以便你更好的理解蹲坷。
l 分類算法:C4.5驶乾,樸素貝葉斯(Naive Bayes)邑飒,SVM循签,KNN,Adaboost疙咸,CART
l 聚類算法:K-Means县匠,EM
l 關(guān)聯(lián)分析:Apriori
l 連接分析:PageRank
- C4.5
C4.5 算法是得票最高的算法,可以說是十大算法之首。C4.5 是決策樹的算法乞旦,它創(chuàng)造性地在決策樹構(gòu)造過程中就進(jìn)行了剪枝贼穆,并且可以處理連續(xù)的屬性,也能對不完整的數(shù)據(jù)進(jìn)行處理兰粉。它可以說是決策樹分類中故痊,具有里程碑式意義的算法。
- 樸素貝葉斯(Naive Bayes)
樸素貝葉斯模型是基于概率論的原理玖姑,它的思想是這樣的:對于給出的未知物體想要進(jìn)行分類愕秫,就需要求解在這個未知物體出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大焰络,就認(rèn)為這個未知物體屬于哪個分類戴甩。
- SVM
SVM 的中文叫支持向量機(jī),英文是 Support Vector Machine闪彼,簡稱 SVM甜孤。SVM 在訓(xùn)練中建立了一個超平面的分類模型。如果你對超平面不理解畏腕,沒有關(guān)系缴川,我在后面的算法篇會給你進(jìn)行介紹。
- KNN
KNN 也叫 K 最近鄰算法描馅,英文是 K-Nearest Neighbor二跋。所謂 K 近鄰,就是每個樣本都可以用它最接近的 K 個鄰居來代表流昏。如果一個樣本扎即,它的 K 個最接近的鄰居都屬于分類 A,那么這個樣本也屬于分類 A况凉。
- AdaBoost
Adaboost 在訓(xùn)練中建立了一個聯(lián)合的分類模型谚鄙。boost 在英文中代表提升的意思,所以 Adaboost 是個構(gòu)建分類器的提升算法刁绒。它可以讓我們多個弱的分類器組成一個強(qiáng)的分類器闷营,所以 Adaboost 也是一個常用的分類算法。
- CART
CART 代表分類和回歸樹知市,英文是 Classification and Regression Trees傻盟。像英文一樣,它構(gòu)建了兩棵樹:一顆是分類樹嫂丙,另一個是回歸樹娘赴。和 C4.5 一樣,它是一個決策樹學(xué)習(xí)方法跟啤。
- Apriori
Apriori 是一種挖掘關(guān)聯(lián)規(guī)則(association rules)的算法诽表,它通過挖掘頻繁項集(frequent item sets)來揭示物品之間的關(guān)聯(lián)關(guān)系唉锌,被廣泛應(yīng)用到商業(yè)挖掘和網(wǎng)絡(luò)安全等領(lǐng)域中。頻繁項集是指經(jīng)常出現(xiàn)在一起的物品的集合竿奏,關(guān)聯(lián)規(guī)則暗示著兩種物品之間可能存在很強(qiáng)的關(guān)系袄简。
- K-Means
K-Means 算法是一個聚類算法。你可以這么理解泛啸,最終我想把物體劃分成 K 類绿语。假設(shè)每個類別里面,都有個“中心點”候址,即意見領(lǐng)袖汞舱,它是這個類別的核心。現(xiàn)在我有一個新點要歸類宗雇,這時候就只要計算這個新點與 K 個中心點的距離昂芜,距離哪個中心點近,就變成了哪個類別赔蒲。
- EM
EM 算法也叫最大期望算法泌神,是求參數(shù)的最大似然估計的一種方法。原理是這樣的:假設(shè)我們想要評估參數(shù) A 和參數(shù) B舞虱,在開始狀態(tài)下二者都是未知的欢际,并且知道了 A 的信息就可以得到 B 的信息,反過來知道了 B 也就得到了 A矾兜∷鹎鳎可以考慮首先賦予 A 某個初值,以此得到 B 的估值椅寺,然后從 B 的估值出發(fā)浑槽,重新估計 A 的取值,這個過程一直持續(xù)到收斂為止返帕。
EM 算法經(jīng)常用于聚類和機(jī)器學(xué)習(xí)領(lǐng)域中桐玻。
- PageRank
PageRank 起源于論文影響力的計算方式,如果一篇文論被引入的次數(shù)越多荆萤,就代表這篇論文的影響力越強(qiáng)镊靴。同樣 PageRank 被 Google 創(chuàng)造性地應(yīng)用到了網(wǎng)頁權(quán)重的計算中:當(dāng)一個頁面鏈出的頁面越多,說明這個頁面的“參考文獻(xiàn)”越多链韭,當(dāng)這個頁面被鏈入的頻率越高偏竟,說明這個頁面被引用的次數(shù)越高〕ㄇ停基于這個原理踊谋,我們可以得到網(wǎng)站的權(quán)重劃分。
算法可以說是數(shù)據(jù)挖掘的靈魂儡陨,也是最精華的部分褪子。這 10 個經(jīng)典算法在整個數(shù)據(jù)挖掘領(lǐng)域中的得票最高的,后面的一些其他算法也基本上都是在這個基礎(chǔ)上進(jìn)行改進(jìn)和創(chuàng)新骗村。
EM算法還不太懂嫌褪,之后繼續(xù)研究下。
參考文獻(xiàn)
陳旸.02丨學(xué)習(xí)數(shù)據(jù)挖掘的最佳路徑是什么胚股?