k-近鄰算法原理
k-近鄰算法采用測(cè)量不同特征值之間的距離方法進(jìn)行分類
- 優(yōu)點(diǎn):精度高孵延,對(duì)異常值不敏感文黎、無數(shù)據(jù)輸入假定。
- 缺點(diǎn):時(shí)間復(fù)雜度高锨用、空間復(fù)雜度高。
- 使用數(shù)據(jù)范圍:數(shù)值型和標(biāo)稱型隘谣。
1.工作原理
存在一個(gè)樣本數(shù)據(jù)集合增拥,也稱作訓(xùn)練樣本集,并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽寻歧,即我們知道樣本集中每一數(shù)據(jù) 與所屬分類的對(duì)應(yīng)關(guān)系跪者。輸人沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的 特征進(jìn)行比較熄求,然后算法提取樣本集中特征最相似數(shù)據(jù)(最近鄰)的分類標(biāo)簽。一般來說逗概,我們 只選擇樣本數(shù)據(jù)集中前K個(gè)最相似的數(shù)據(jù)弟晚,這就是K-近鄰算法中K的出處,通常K是不大于20的整數(shù)。 最后 逾苫,選擇K個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類卿城,作為新數(shù)據(jù)的分類。
2.在scikit-learn庫中使用k-近鄰算法
- 分類問題:from sklearn.neighbors import KNeighborsClassifier
- 回歸問題:from sklearn.neighbors import KNeighborsRegressor
實(shí)例
-
用于分類
使用knn算法铅搓,對(duì)鳶尾花數(shù)據(jù)進(jìn)行分類
1.導(dǎo)包鳶尾花數(shù)據(jù):
from sklearn.datasets import load_iris
2.獲取訓(xùn)練樣本
iris = load_iris()
data = iris.data
target = iris.target
3.繪制出其中兩個(gè)特征的散點(diǎn)圖
plt.scatter(data[:,0], data[:,1], c=target, cmap='rainbow')
3.定義KNN分類器
knn = KNeighborsClassifier()-
第一步訓(xùn)練數(shù)據(jù)
knn.fit(data[:,0:1], target)
從訓(xùn)練數(shù)據(jù)中分割出預(yù)測(cè)數(shù)據(jù)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data[:,0:1],target, test_size=50)
y_ = knn.predict(X_test)
y_test
plt.plot(np.arange(50),y_, np.arange(50), y_test)
-
第二步預(yù)測(cè)數(shù)據(jù):瑟押,所預(yù)測(cè)的數(shù)據(jù),自己創(chuàng)造星掰,就是上面所顯示圖片的背景點(diǎn)
生成預(yù)測(cè)數(shù)據(jù)
取范圍
xmin, xmax = data[:,0].min(), data[:,0].max()
ymin, ymax = data[:,1].min(), data[:,1].max()
生成面
x = np.linspace(xmin, xmax, 1000)
y = np.linspace(ymin, ymax, 1000)
X,Y = np.meshgrid(x,y)
X_test = np.c_[X.ravel(), Y.ravel()]data = data[:, 0:2]
knn = KNeighborsClassifier()
knn.fit(data, target)y_ = knn.predict(X_test)
pcolormesh快速畫圖
plt.pcolormesh(X,Y, y_.reshape((1000,1000)))
plt.scatter(data[:,0], data[:,1], c=target, cmap='rainbow')
-