基于相似運算、聚類運算和SVM的數(shù)據(jù)特征分類算法

對于數(shù)據(jù)分析和處理而言竣灌,最重要的莫過于數(shù)據(jù)特征分類聂沙。這是所有數(shù)據(jù)分析與處理的第一步,只有經(jīng)過分類的數(shù)據(jù)才有分析與處理的價值初嘹。所以如何對數(shù)據(jù)分類及汉,便是本文的重點。

本文主要介紹相似運算削樊、聚類運算和SVM三種數(shù)據(jù)特征分類算法豁生。在這三類中同樣也包含諸多運算方法,相似運算包括歐式距離漫贞、曼哈頓距離與皮爾遜相關(guān)系數(shù)甸箱;聚類運算包括K-均值聚類和Fisher聚類等;而SVM作為當今最熱門的運算方法迅脐,其分類更是多不勝數(shù)芍殖。

所以本文主要對于以上幾種方法的核心思想和算法做介紹,僅涉及少量的具體算法谴蔑。

相似運算

在各種分類算法中豌骏,最為容易實現(xiàn)的是相似運算龟梦,包括歐幾里得空間距離、皮爾遜相關(guān)系數(shù)和曼哈頓距離窃躲。

歐幾里得距離運算是指在二維空間里计贰,兩個點間直線的距離。在數(shù)據(jù)的特征分類計算中蒂窒,一般用于比較在同一維度下躁倒,兩樣本數(shù)據(jù)特征的相似程度。用歐式距離計算兩樣本的相似度時洒琢,一般采用樣本數(shù)據(jù)為維度秧秉,以樣本個體為主體,計算兩主體的相似程度衰抑。與其相關(guān)的便是曼哈頓距離象迎,其概念與歐式距離相似,但其運算并非采用兩點間的直線距離呛踊,而是將空間分為等距網(wǎng)孔后的網(wǎng)孔格邊界距離砾淌,這一做法可以有效的減少浮點運算,加快運算速度恋技,在早期計算機性能不發(fā)達的時候拇舀,這是計算機科學家們最常采用的算法逻族。如今隨著計算機性能的大幅上升蜻底,只有在極大量的數(shù)據(jù)運算中會看到其身影。

與歐式距離相似的另一相似運算概念是皮爾遜相關(guān)系數(shù)聘鳞,該算法一般用于在高維度中比較兩個樣本數(shù)據(jù)的相似程度薄辅。在計算時,一般以計算主體為維度抠璃,以樣本數(shù)據(jù)為相似度比較量站楚,用以比較樣本的相似程度。其于皮爾遜相關(guān)系數(shù)的相似計算的優(yōu)點在于搏嗡,允許存在“夸張分度”這一常量窿春。可以幫助我們在樣本數(shù)據(jù)特征的分類中采盒,發(fā)現(xiàn)具有相似偏好的數(shù)據(jù)特征旧乞。

總的來說,歐氏距離與皮爾遜相關(guān)系數(shù)這兩種方式在數(shù)據(jù)特征分類中各有應用磅氨。歐式距離計算兩樣本的相似度尺栖,諸如根據(jù)用戶對于不同電影的評價尋找具有相似喜好的用戶,再做出電影推薦烦租;皮爾遜相關(guān)系數(shù)的計算則是基于不同用戶對于多部電影的評分趨勢延赌,尋找具有相似興趣偏好的用戶除盏,并做出電影推薦。

聚類運算

聚類運算是我們十分常用的一類相似度計算方法挫以。常見的相似度計算方法包括K-均值計算方法者蠕、Fisher方法與貝葉斯方法。

K-均值計算方法掐松,又稱KNN算法蠢棱,即K最鄰近算法。其主要思想是對于分類數(shù)據(jù)集甩栈,隨機產(chǎn)生分類數(shù)據(jù)中點泻仙,再將周圍的數(shù)據(jù)點分于數(shù)據(jù)中點,計算這一類的數(shù)據(jù)點的平均位置量没,移動至平均位置玉转,再次計算與移動,直到數(shù)據(jù)移動不再產(chǎn)生變化殴蹄。

Fisher方法是指在分類運算中究抓,對于每一分類特征分別計算屬于某一分類的概率,再以各特征的分類概率計算樣本數(shù)據(jù)的分類

貝葉斯分類算法的使用與Fisher相似袭灯,詳細介紹見以前的文章刺下。

在以上三種算法中,F(xiàn)isher方法與貝葉斯算法常用于垃圾郵件稽荧、文字識別等分類橘茉,而KNN算法一般用于可視數(shù)據(jù)的分類。

SVM分類算法

在常見的數(shù)據(jù)特征分類算法中姨丈,SVM一直是最為著名和有效的畅卓。在確定合適的Hyper Plain之后,其可以完成以上任一種運算的功能蟋恬,甚至做的更好翁潘。

鑒于SVM的優(yōu)良作用于效果,SVM一直是機器學習算法中最為活躍的研究部分歼争,有關(guān)其的研究文章與論文層出不窮拜马。也因而使SVM 在不停的發(fā)展歷程中變得越來越復雜。

SVM沐绒,全稱為Support Vector Machine俩莽,中文名稱支持向量機。是一個監(jiān)督學習模型(但本文中幾乎全是監(jiān)督學習模型)洒沦,通常用于模式識別豹绪、分類與回歸。

在我們常見的數(shù)據(jù)分類算法中,復雜數(shù)據(jù)的分類總是令人頭疼的一件事瞒津,無論是聚類運算蝉衣,還是相似運算對于極為復雜的數(shù)據(jù)分離總是會心有余而力不足,于是乎SVM應時而生巷蚪。SVM的核心思想在使用核方法病毡,將復雜數(shù)據(jù)投影到高維空間,然后在高維空間尋找對分類點形成最大間隔平面的分類屁柏。因為其的分類空間為高維空間啦膜,所以可以將很多在低維空間無法分類的數(shù)據(jù)予以分類,分類效果極好

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末淌喻,一起剝皮案震驚了整個濱河市僧家,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌裸删,老刑警劉巖八拱,帶你破解...
    沈念sama閱讀 222,946評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異涯塔,居然都是意外死亡肌稻,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評論 3 399
  • 文/潘曉璐 我一進店門匕荸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來爹谭,“玉大人,你說我怎么就攤上這事榛搔∨捣玻” “怎么了?”我有些...
    開封第一講書人閱讀 169,716評論 0 364
  • 文/不壞的土叔 我叫張陵药薯,是天一觀的道長绑洛。 經(jīng)常有香客問我,道長童本,這世上最難降的妖魔是什么炫狱? 我笑而不...
    開封第一講書人閱讀 60,222評論 1 300
  • 正文 為了忘掉前任秒拔,我火速辦了婚禮,結(jié)果婚禮上蛋哭,老公的妹妹穿的比我還像新娘运沦。我一直安慰自己泵额,他們只是感情好,可當我...
    茶點故事閱讀 69,223評論 6 398
  • 文/花漫 我一把揭開白布携添。 她就那樣靜靜地躺著嫁盲,像睡著了一般。 火紅的嫁衣襯著肌膚如雪烈掠。 梳的紋絲不亂的頭發(fā)上羞秤,一...
    開封第一講書人閱讀 52,807評論 1 314
  • 那天缸托,我揣著相機與錄音,去河邊找鬼瘾蛋。 笑死俐镐,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的哺哼。 我是一名探鬼主播佩抹,決...
    沈念sama閱讀 41,235評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼取董!你這毒婦竟也來了棍苹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,189評論 0 277
  • 序言:老撾萬榮一對情侶失蹤茵汰,失蹤者是張志新(化名)和其女友劉穎廊勃,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體经窖,經(jīng)...
    沈念sama閱讀 46,712評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡坡垫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,775評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了画侣。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冰悠。...
    茶點故事閱讀 40,926評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖配乱,靈堂內(nèi)的尸體忽然破棺而出溉卓,到底是詐尸還是另有隱情,我是刑警寧澤搬泥,帶...
    沈念sama閱讀 36,580評論 5 351
  • 正文 年R本政府宣布桑寨,位于F島的核電站,受9級特大地震影響忿檩,放射性物質(zhì)發(fā)生泄漏尉尾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,259評論 3 336
  • 文/蒙蒙 一燥透、第九天 我趴在偏房一處隱蔽的房頂上張望沙咏。 院中可真熱鬧,春花似錦班套、人聲如沸肢藐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,750評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽吆豹。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間痘煤,已是汗流浹背凑阶。 一陣腳步聲響...
    開封第一講書人閱讀 33,867評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留速勇,地道東北人晌砾。 一個月前我還...
    沈念sama閱讀 49,368評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像烦磁,于是被迫代替她去往敵國和親养匈。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,930評論 2 361

推薦閱讀更多精彩內(nèi)容