最“懶惰”的kNN分類算法

1. K-近鄰算法####

k-近鄰算法(k Nearest Neighbor),是最基本的分類算法便瑟,其基本思想是采用測量不同特征值之間的距離方法進行分類。

2. 算法原理####

存在一個樣本數(shù)據(jù)集合(訓(xùn)練集)贰健,并且樣本集中每個數(shù)據(jù)都存在標簽(即每一數(shù)據(jù)與所屬分類的關(guān)系已知)贱勃。輸入沒有標簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個特征與樣本集中數(shù)據(jù)對應(yīng)的特征進行比較(計算距離)蜀细,然后提取樣本集中特征最相似數(shù)據(jù)(最近鄰)的分類標簽舟铜。一般會取前k個最相似的數(shù)據(jù),然后取k個最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的標簽(分類)最后新數(shù)據(jù)的分類奠衔。
因此谆刨,這是一個很“懶惰”的算法,所謂的訓(xùn)練數(shù)據(jù)并沒有形成一個“模型”归斤,而是一個新的數(shù)據(jù)需要分類了痊夭,去和所有訓(xùn)練數(shù)據(jù)逐一比較,最終給出分類脏里。這個特征導(dǎo)致在數(shù)據(jù)量較大時她我,性能很差勁。

3. 算法過程####

對未知類別屬性的數(shù)據(jù)集中的每個點依次執(zhí)行以下操作:
1)計算已知類別數(shù)據(jù)集中的點與當前點之間的距離(歐式距離膝宁、曼哈頓距離或者余弦夾角等各種距離算法鸦难,具體情況具體分析用哪種);
2)按照距離遞增次序排序员淫;
3)選取與當前點距離最小的k個點合蔽;
4)確定前k個點所在類別的出現(xiàn)頻率;
5)返回前k個點出現(xiàn)頻率最高的類別作為當前點的預(yù)測分類介返。

歐氏距離計算:

  1. 二維平面上兩點A(x1,y1)與B(x2,y2)間的歐氏距離:
      
  2. 三維空間兩點A(x1,y1,z1)與B(x2,y2,z2)間的歐氏距離:
      
  3. n維空間兩點的歐式距離以此類推

4. 計算案例####

我還是瞎編一個案例拴事,下表有11個同學(xué)的小學(xué)成績和12年后讀的大學(xué)的情況,現(xiàn)在已知“衛(wèi)”同學(xué)的小學(xué)成績了圣蝎,可以根據(jù)kNN來預(yù)測未來讀啥大學(xué)刃宵。



逐一計算各位同學(xué)與衛(wèi)同學(xué)的距離,然后我們選定3位(即這里的k=3)最為接近的同學(xué)徘公,推測衛(wèi)同學(xué)最終的大學(xué)


3位同學(xué)中2個清華牲证,1個北郵,所以衛(wèi)同學(xué)很有可能在12年后上清華关面。

5. 算法要點####

1) K的選擇坦袍,一般不超過訓(xùn)練集數(shù)量的平方根
2)距離更近的近鄰也許更應(yīng)該決定最終的分類十厢,所以可以對于K個近鄰根據(jù)距離的大小設(shè)置權(quán)重,結(jié)果會更有說服力
3)如果采用歐氏距離計算捂齐,不同變量間的值域差距較大時蛮放,需要進行標準化,否則值域較大的變量將成為最終分類的唯一決定因素

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末奠宜,一起剝皮案震驚了整個濱河市包颁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌压真,老刑警劉巖娩嚼,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異榴都,居然都是意外死亡待锈,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進店門嘴高,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人和屎,你說我怎么就攤上這事拴驮。” “怎么了柴信?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵套啤,是天一觀的道長。 經(jīng)常有香客問我随常,道長潜沦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任绪氛,我火速辦了婚禮唆鸡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘枣察。我一直安慰自己争占,他們只是感情好,可當我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布序目。 她就那樣靜靜地躺著臂痕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪猿涨。 梳的紋絲不亂的頭發(fā)上握童,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天,我揣著相機與錄音叛赚,去河邊找鬼澡绩。 笑死稽揭,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的英古。 我是一名探鬼主播淀衣,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼召调!你這毒婦竟也來了膨桥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤唠叛,失蹤者是張志新(化名)和其女友劉穎只嚣,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體艺沼,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡册舞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了障般。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片调鲸。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖挽荡,靈堂內(nèi)的尸體忽然破棺而出藐石,到底是詐尸還是另有隱情,我是刑警寧澤定拟,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布于微,位于F島的核電站,受9級特大地震影響青自,放射性物質(zhì)發(fā)生泄漏株依。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一延窜、第九天 我趴在偏房一處隱蔽的房頂上張望恋腕。 院中可真熱鬧,春花似錦需曾、人聲如沸吗坚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽商源。三九已至,卻和暖如春谋减,著一層夾襖步出監(jiān)牢的瞬間牡彻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留庄吼,地道東北人缎除。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像总寻,于是被迫代替她去往敵國和親器罐。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容