對于數(shù)據(jù)分析和處理而言竣灌,最重要的莫過于數(shù)據(jù)特征分類聂沙。這是所有數(shù)據(jù)分析與處理的第一步,只有經(jīng)過分類的數(shù)據(jù)才有分析與處理的價值初嘹。所以如何對數(shù)據(jù)分類及汉,便是本文的重點。
本文主要介紹相似運算削樊、聚類運算和SVM三種數(shù)據(jù)特征分類算法豁生。在這三類中同樣也包含諸多運算方法,相似運算包括歐式距離漫贞、曼哈頓距離與皮爾遜相關(guān)系數(shù)甸箱;聚類運算包括K-均值聚類和Fisher聚類等;而SVM作為當今最熱門的運算方法迅脐,其分類更是多不勝數(shù)芍殖。
所以本文主要對于以上幾種方法的核心思想和算法做介紹,僅涉及少量的具體算法谴蔑。
相似運算
在各種分類算法中豌骏,最為容易實現(xiàn)的是相似運算龟梦,包括歐幾里得空間距離、皮爾遜相關(guān)系數(shù)和曼哈頓距離窃躲。
歐幾里得距離運算是指在二維空間里计贰,兩個點間直線的距離。在數(shù)據(jù)的特征分類計算中蒂窒,一般用于比較在同一維度下躁倒,兩樣本數(shù)據(jù)特征的相似程度。用歐式距離計算兩樣本的相似度時洒琢,一般采用樣本數(shù)據(jù)為維度秧秉,以樣本個體為主體,計算兩主體的相似程度衰抑。與其相關(guān)的便是曼哈頓距離象迎,其概念與歐式距離相似,但其運算并非采用兩點間的直線距離呛踊,而是將空間分為等距網(wǎng)孔后的網(wǎng)孔格邊界距離砾淌,這一做法可以有效的減少浮點運算,加快運算速度恋技,在早期計算機性能不發(fā)達的時候拇舀,這是計算機科學家們最常采用的算法逻族。如今隨著計算機性能的大幅上升蜻底,只有在極大量的數(shù)據(jù)運算中會看到其身影。
與歐式距離相似的另一相似運算概念是皮爾遜相關(guān)系數(shù)聘鳞,該算法一般用于在高維度中比較兩個樣本數(shù)據(jù)的相似程度薄辅。在計算時,一般以計算主體為維度抠璃,以樣本數(shù)據(jù)為相似度比較量站楚,用以比較樣本的相似程度。其于皮爾遜相關(guān)系數(shù)的相似計算的優(yōu)點在于搏嗡,允許存在“夸張分度”這一常量窿春。可以幫助我們在樣本數(shù)據(jù)特征的分類中采盒,發(fā)現(xiàn)具有相似偏好的數(shù)據(jù)特征旧乞。
總的來說,歐氏距離與皮爾遜相關(guān)系數(shù)這兩種方式在數(shù)據(jù)特征分類中各有應用磅氨。歐式距離計算兩樣本的相似度尺栖,諸如根據(jù)用戶對于不同電影的評價尋找具有相似喜好的用戶,再做出電影推薦烦租;皮爾遜相關(guān)系數(shù)的計算則是基于不同用戶對于多部電影的評分趨勢延赌,尋找具有相似興趣偏好的用戶除盏,并做出電影推薦。
聚類運算
聚類運算是我們十分常用的一類相似度計算方法挫以。常見的相似度計算方法包括K-均值計算方法者蠕、Fisher方法與貝葉斯方法。
K-均值計算方法掐松,又稱KNN算法蠢棱,即K最鄰近算法。其主要思想是對于分類數(shù)據(jù)集甩栈,隨機產(chǎn)生分類數(shù)據(jù)中點泻仙,再將周圍的數(shù)據(jù)點分于數(shù)據(jù)中點,計算這一類的數(shù)據(jù)點的平均位置量没,移動至平均位置玉转,再次計算與移動,直到數(shù)據(jù)移動不再產(chǎn)生變化殴蹄。
Fisher方法是指在分類運算中究抓,對于每一分類特征分別計算屬于某一分類的概率,再以各特征的分類概率計算樣本數(shù)據(jù)的分類
貝葉斯分類算法的使用與Fisher相似袭灯,詳細介紹見以前的文章刺下。
在以上三種算法中,F(xiàn)isher方法與貝葉斯算法常用于垃圾郵件稽荧、文字識別等分類橘茉,而KNN算法一般用于可視數(shù)據(jù)的分類。
SVM分類算法
在常見的數(shù)據(jù)特征分類算法中姨丈,SVM一直是最為著名和有效的畅卓。在確定合適的Hyper Plain之后,其可以完成以上任一種運算的功能蟋恬,甚至做的更好翁潘。
鑒于SVM的優(yōu)良作用于效果,SVM一直是機器學習算法中最為活躍的研究部分歼争,有關(guān)其的研究文章與論文層出不窮拜马。也因而使SVM 在不停的發(fā)展歷程中變得越來越復雜。
SVM沐绒,全稱為Support Vector Machine俩莽,中文名稱支持向量機。是一個監(jiān)督學習模型(但本文中幾乎全是監(jiān)督學習模型)洒沦,通常用于模式識別豹绪、分類與回歸。
在我們常見的數(shù)據(jù)分類算法中,復雜數(shù)據(jù)的分類總是令人頭疼的一件事瞒津,無論是聚類運算蝉衣,還是相似運算對于極為復雜的數(shù)據(jù)分離總是會心有余而力不足,于是乎SVM應時而生巷蚪。SVM的核心思想在使用核方法病毡,將復雜數(shù)據(jù)投影到高維空間,然后在高維空間尋找對分類點形成最大間隔平面的分類屁柏。因為其的分類空間為高維空間啦膜,所以可以將很多在低維空間無法分類的數(shù)據(jù)予以分類,分類效果極好