1. 綜述
1.1 Cover和Hart在1968年提出了最初的鄰近算法
1.2 分類(classification)算法
1.3 輸入基于實(shí)例的學(xué)習(xí)(instance-based learning), 懶惰學(xué)習(xí)(lazy learning)
基于實(shí)例(根據(jù)已有的例子學(xué)習(xí))苹支,懶惰學(xué)習(xí)(沒有模型)
根據(jù)距離進(jìn)行學(xué)習(xí)
2. 例子:
Paste_Image.png
未知電影屬于什么類型?
Paste_Image.png
前三個為一組愈犹,后三個為一組莺匠,k為3
Paste_Image.png
3. 算法詳述
3.1 步驟:
為了判斷未知實(shí)例的類別,以所有已知類別的實(shí)例作為參照
選擇參數(shù)K(距離最近的個數(shù)的考慮范圍)
計(jì)算未知實(shí)例與所有已知實(shí)例的距離
選擇最近K個已知實(shí)例
根據(jù)少數(shù)服從多數(shù)的投票法則(majority-voting)懒构,讓未知實(shí)例歸類為K個最鄰近樣本中最多數(shù)的類別
Paste_Image.png
3.2 細(xì)節(jié):
關(guān)于K(K很重要餐济,決定了參考類別的數(shù)量),通常為奇數(shù)
關(guān)于距離的衡量方法:
3.2.1 Euclidean Distance 定義
Paste_Image.png
Paste_Image.png
其他距離衡量:余弦值(cos), 相關(guān)度 (correlation), 曼哈頓距離 (Manhattan distance)
3.3 舉例
Paste_Image.png
4. 算法優(yōu)缺點(diǎn):
4.1 算法優(yōu)點(diǎn)
簡單
易于理解
容易實(shí)現(xiàn)
通過對K的選擇可具備丟噪音數(shù)據(jù)的健壯性
4.2 算法缺點(diǎn)
Paste_Image.png
(1)需要大量空間儲存所有已知實(shí)例(需要存儲所有點(diǎn)計(jì)算距離)
(2)算法復(fù)雜度高(需要比較所有已知實(shí)例與要分類的實(shí)例)
(3)當(dāng)其樣本分布不平衡時胆剧,比如其中一類樣本過大(實(shí)例數(shù)量過多)占主導(dǎo)的時候絮姆,新的未知實(shí)例容易被歸類為這個主導(dǎo)樣本,因?yàn)檫@類樣本實(shí)例的數(shù)量過大秩霍,但這個新的未知實(shí)例實(shí)際并木接近目標(biāo)樣本
5. 改進(jìn)版本
考慮距離篙悯,根據(jù)距離加上權(quán)重
比如: 1/d (d: 距離)