K近鄰算法
標(biāo)簽: 統(tǒng)計學(xué)習(xí)
目錄
[TOC]
算法
對于新樣本畔裕,找到最鄰近的k個樣本谊惭,然后根據(jù)該k個樣本決定新樣本的類別
??k近鄰法沒有顯式的學(xué)習(xí)過程
模型
三個基本要素:距離度量话肖,k值選擇,分類決策規(guī)則
-
距離度量
??Lp距離(Minkowski距離)
??當(dāng)p=2時荠列,為歐式距離刽酱;當(dāng)p=1時,為曼哈頓距離邮偎;當(dāng)p趨于無窮時罗洗,為切比雪夫距離(各個坐標(biāo)距離的最大值) - k值選擇
- 較小的k值,相當(dāng)于使用較小的鄰域(k值的減少意味著模型的復(fù)雜性增加钢猛,容易過擬合):
- 學(xué)習(xí)的近似誤差(approximation error)小伙菜,只有與輸入較近的訓(xùn)練樣本起作用
- 學(xué)習(xí)的估計誤差(estimation error)大,結(jié)果對近鄰的樣本非常敏感命迈。若鄰近的樣本點恰好為噪聲贩绕,結(jié)果就會出錯。
- 較大的k值壶愤,相當(dāng)于使用較大的鄰域(k值的增加意味著模型會變得簡單):
- 學(xué)習(xí)的近似誤差會增大與輸入較遠(yuǎn)的訓(xùn)練樣本也會起作用
- 學(xué)習(xí)的估計誤差會減少
應(yīng)用中通常選擇一個小的k值淑倾,然后采用交叉驗證法選取最優(yōu)k值
- 分類決策規(guī)則
??一般為多數(shù)表決(多數(shù)表決規(guī)則等價于經(jīng)驗風(fēng)險最小化)