1.K-近鄰(KNearestNeighbor,KNN)算法簡介:對于一個未知的樣本庶溶,我們可以根據(jù)離它最近的k個樣本的類別來判斷它的類別伊者。
以下圖為例略荡,對于一個未知樣本綠色小圓延届,我們可以選取離它最近的3的樣本,其中包含了2個紅色三角形荔燎,1個藍(lán)色正方形耻姥,那么我們可以判斷綠色小圓屬于紅色三角形這一類销钝。
我們也可以選取離它最近的5個樣本有咨,其中包含了3個藍(lán)色正方形,2個紅色三角形蒸健,那么我們可以判斷綠色小圓屬于藍(lán)色正方形這一類座享。
2.原理簡介:對于給定一個未知樣本Xu,我們首先計算它距離數(shù)據(jù)集中每個樣本的距離d1似忧、d2......dn渣叛。然后對距離按照從小到大的順序排序碉碉,選取前k個樣本奏纪。觀察這k個樣本的分布留荔。
兩種距離計算方法:
曼哈頓距離:d = |X1-X2|
歐式距離:d = √ (x1 - x2)^2
3.API文檔
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’,
algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None, n_jobs=None, **kwargs)
下面我們來對KNN算法中的參數(shù)項做一個解釋說明:
'n_neighbors':選取的參考對象的個數(shù)(鄰居個數(shù))捺信,默認(rèn)值為5元潘,也可以自己指定數(shù)值,但不是n_neighbors的值越大分類效果越好抑月,最佳值需要我們做一個驗(yàn)證违崇。
'weights': 距離的權(quán)重參數(shù),默認(rèn)uniform靴跛。
'uniform': 均勻的權(quán)重缀雳,所有的點(diǎn)在每一個類別中的權(quán)重是一樣的。簡單的說梢睛,就是每個點(diǎn)的重要性都是一樣的肥印。
'distance':權(quán)重與距離的倒數(shù)成正比,距離近的點(diǎn)重要性更高绝葡,對于結(jié)果的影響也更大深碱。
'algorithm':運(yùn)算方法,默認(rèn)auto挤牛。
'auto':根絕模型fit的數(shù)據(jù)自動選擇最合適的運(yùn)算方法莹痢。
'ball_tree':樹模型算法BallTree
'kd_tree':樹模型算法KDTree
'brute':暴力算法
'leaf_size':葉子的尺寸,默認(rèn)30墓赴。只有當(dāng)algorithm = 'ball_tree' or 'kd_tree'竞膳,這個參數(shù)需要設(shè)定。
'p':閔可斯基距離诫硕,當(dāng)p = 1時坦辟,選擇曼哈頓距離;當(dāng)p = 2時章办,選擇歐式距離锉走。
n_jobs:使用計算機(jī)處理器數(shù)目,默認(rèn)為1藕届。當(dāng)n=-1時挪蹭,使用所有的處理器進(jìn)行運(yùn)算。
4.應(yīng)用案例演示
下面以Sklearn庫中自帶的數(shù)據(jù)集--手寫數(shù)字識別數(shù)據(jù)集為例休偶,來測試下kNN算法梁厉。上一章,我們簡單的介紹了機(jī)器學(xué)習(xí)的一般步驟:加載數(shù)據(jù)集 - 訓(xùn)練模型 - 結(jié)果預(yù)測 - 保存模型踏兜。這一章我們還是按照這個步驟來執(zhí)行词顾。
[手寫數(shù)字識別數(shù)據(jù)集]https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits
#導(dǎo)入我們要使用的庫
import numpy as np
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
#train_test_split可以將我們的數(shù)據(jù)集切分為訓(xùn)練集和測試集
from sklearn.model_selection import train_test_split
#加載我們要使用的數(shù)據(jù)集
digits = datasets.load_digits()
X = digits.data #獲取特征值
y = digits.target #獲取標(biāo)簽值
#切分?jǐn)?shù)據(jù)集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state = 0)
#test_size=0.3是將我們的數(shù)據(jù)集分為70%的訓(xùn)練集和30%的測試集。
#random_state = 0指定一個隨機(jī)種子碱妆,使得每次切分的訓(xùn)練集和測試集都是一致的肉盹。
#指定我們要使用的模型
knn = KNeighborsClassifier()#在此我們使用默認(rèn)值就可以。
#模型訓(xùn)練
knn.fit(X_train,y_train)
#模型預(yù)測
knn.predict(X_test[:10,:]) #預(yù)測下測試集中前10個結(jié)果
[2 8 2 6 6 7 1 9 8 5 2 8 6 6 6 6 1 0 5 8]
#模型精度評估
knn.score(X_test,y_test)
0.9814814814814815
5.模型的方法
每一種模型都有一些它獨(dú)有的屬性方法(模型的技能疹尾,能做些什么事)上忍,下面我們來了解下knn算法常用的的屬性方法骤肛。
knn.fit(X,y)#訓(xùn)練數(shù)據(jù)集
knn.get_params()#獲取當(dāng)前模型中的參數(shù)
{'algorithm': 'auto',
'leaf_size': 30,
'metric': 'minkowski',
'metric_params': None,
'n_jobs': None,
'n_neighbors': 5,
'p': 2,
'weights': 'uniform'}
knn.predict(X)#預(yù)測X的結(jié)果
knn.score(X,y)#評估模型的精度
6.knn算法的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
簡單,效果還不錯窍蓝,適合多分類問題
缺點(diǎn):
效率低(因?yàn)橐嬎泐A(yù)測樣本距離每個樣本點(diǎn)的距離萌衬,然后排序),效率會隨著樣本量的增加而降低它抱。