kNN算法

一儡湾、kNN算法概述

? ? ? ?kNN是k-Nearest Neighbour的縮寫该酗,這是一種非常簡單且易于理解的分類算法悠砚。回想我們從小到大在認知事物的過程當(dāng)中米奸,我們是如何判斷一種事物是屬于哪種類別的昼接?通常的一種思路就是,分析當(dāng)前這個事物與我們之前所知道的類別特征進行比對悴晰,找出最接近的一類慢睡,然后就可以把這個東西歸屬于這一個類別逐工。kNN算法大致就是這么一個思路,直接通過測量不同特征值之間的距離來達到分類的目的漂辐。

? ? ? ?kNN中的k是指在分類過程中泪喊,我們選擇樣本數(shù)據(jù)中前k個最相似的數(shù)據(jù),以出現(xiàn)次數(shù)最多的分類髓涯,作為新數(shù)據(jù)的分類袒啼。這里的k通常是不大于20的正整數(shù),k取3或者5的情況比較常見纬纪。

二瘤泪、kNN算法的原理

? ? ? 首先是訓(xùn)練模型。對kNN而言育八,在編碼過程中訓(xùn)練模型實際上就是記錄訓(xùn)練集的所有數(shù)據(jù)对途,所以我們常說kNN沒有訓(xùn)練模型這一過程。

? ? ? 接著是測試模型髓棋。測試過程有以下幾個步驟:

1. 依次計算測試集數(shù)據(jù)與訓(xùn)練集各個數(shù)據(jù)之間的距離实檀;

2. 對計算處理的距離進行遞增排序;

3. 選擇距離最小的k個數(shù)據(jù)按声;

4. 選擇這k個數(shù)據(jù)中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類膳犹。

? ? ? ?最后是評價模型。根據(jù)測試結(jié)果計算模型預(yù)測分類的準(zhǔn)確率签则。? ?

? ? ? ?整個過程看上去非常簡單须床、直觀、明了渐裂。需要說明的是豺旬,文中一直提到的距離這個概念,指的是閔可夫斯基距離(Minkowski distance)柒凉,對應(yīng)數(shù)學(xué)上的Lp范數(shù)族阅。

? ? ? 當(dāng)p=1時,為曼哈頓距離(Manhattan distance)膝捞,也稱L1距離坦刀;

? ? ? 當(dāng)p=2時,為歐式距離(Euclidean distance)蔬咬,也稱L2距離鲤遥;

? ? ? 當(dāng)p=∞時,為切比雪夫距離(distance)林艘。

? ? ??在我們使用kNN算法時盖奈,常用L1距離和L2距離,且以L2距離使用更多北启。

三卜朗、算法評價

? ? ? 優(yōu)點:kNN是最簡單、最有效的分類器咕村;精度高场钉;對異常值(邊緣值)不敏感。

? ? ? 缺點:需要記錄所有訓(xùn)練集的數(shù)據(jù)懈涛,空間復(fù)雜度高逛万;需要進行大量的計算,計算復(fù)雜度高批钠;無法提取出數(shù)據(jù)內(nèi)涵的結(jié)構(gòu)信息宇植。

? ? ? 注意點:由于計算距離時使用的是離散型數(shù)據(jù),所以kNN算法常用于特征值為數(shù)值型和標(biāo)稱型的數(shù)據(jù)埋心。如果數(shù)據(jù)特征值為連續(xù)值指郁,則需要根據(jù)實際情況,對特征值進行離散采樣或者采用其他算法模型拷呆。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末闲坎,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子茬斧,更是在濱河造成了極大的恐慌腰懂,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件项秉,死亡現(xiàn)場離奇詭異绣溜,居然都是意外死亡,警方通過查閱死者的電腦和手機娄蔼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門怖喻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人岁诉,你說我怎么就攤上這事罢防。” “怎么了唉侄?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵咒吐,是天一觀的道長。 經(jīng)常有香客問我属划,道長恬叹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任同眯,我火速辦了婚禮绽昼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘须蜗。我一直安慰自己硅确,他們只是感情好目溉,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著菱农,像睡著了一般缭付。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上循未,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天陷猫,我揣著相機與錄音,去河邊找鬼的妖。 笑死绣檬,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的嫂粟。 我是一名探鬼主播娇未,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼星虹!你這毒婦竟也來了忘蟹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤搁凸,失蹤者是張志新(化名)和其女友劉穎媚值,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體护糖,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡褥芒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了嫡良。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锰扶。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖寝受,靈堂內(nèi)的尸體忽然破棺而出坷牛,到底是詐尸還是另有隱情,我是刑警寧澤很澄,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布京闰,位于F島的核電站,受9級特大地震影響甩苛,放射性物質(zhì)發(fā)生泄漏蹂楣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一讯蒲、第九天 我趴在偏房一處隱蔽的房頂上張望痊土。 院中可真熱鬧,春花似錦墨林、人聲如沸赁酝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽酌呆。三九已至衡载,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間肪笋,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工度迂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留藤乙,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓惭墓,卻偏偏與公主長得像坛梁,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子腊凶,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容

  • KNN算法 用NumPy庫實現(xiàn)K-nearest neighbors回歸或分類划咐。 鄰近算法,或者說K最近鄰(kNN...
    心智萬花筒閱讀 16,054評論 1 24
  • 偶然之間看到钧萍,很多R包中都有knn算法的應(yīng)用褐缠,他們有什么不同之處嗎?到底應(yīng)該選擇哪個包來實現(xiàn)knn呢风瘦?為了解決這些...
    奔跑的蜈蚣閱讀 10,651評論 2 6
  • KNN算法是機器學(xué)習(xí)中最好理解的算法之一队魏,屬于惰性學(xué)習(xí)算法的典例。惰性指模型僅通過對訓(xùn)練數(shù)據(jù)集的記憶功能進行預(yù)測万搔,...
    Chuck_Hu閱讀 2,323評論 0 4
  • kNN算法原理 1胡桨、K最近鄰(k-NearestNeighbor,KNN)分類算法瞬雹,是一個理論上比較成熟的方法昧谊,也...
    雨一流閱讀 24,870評論 0 8
  • 最近這是怎么了? 最近我的心情一度下降酗捌,自從檢查完回來呢诬,自己在家在網(wǎng)上查,關(guān)于這病胖缤,越看有點越嚇人馅巷,真是還是不看呢...
    歲月蹉跎努力閱讀 86評論 0 0