01 KNN可以做點(diǎn)什么呢拇泣?
在李航的《統(tǒng)計(jì)學(xué)習(xí)方法》中,詳細(xì)講解了一中分類算法:K近鄰(K Nearest Neighbor)渐裂,具體的算法過(guò)程和關(guān)鍵點(diǎn)可以參考這篇文章:
算法的理論基礎(chǔ)有了豺旬,下一步就是自己動(dòng)手去實(shí)現(xiàn)了。
今天我們的文章就是利用python去實(shí)現(xiàn)KNN算法芯义,利用這套算法可以做什么呢哈垢?
比如,我們已經(jīng)知道一組鳶尾花的花瓣扛拨、花萼長(zhǎng)寬以及對(duì)應(yīng)的鳶尾花品種耘分,那么利用KNN算法,我們就可以判斷一朵擁有一定長(zhǎng)寬的花瓣花萼屬于鳶尾花的哪個(gè)品種
同樣地,利用KNN算法求泰,可以根據(jù)經(jīng)驗(yàn)數(shù)據(jù)(訓(xùn)練集)央渣,判斷貸款客戶的風(fēng)險(xiǎn)高低,決定是否貸款給客戶等等渴频。
本文利用以下兩種方式在python中實(shí)現(xiàn)KNN算法:
- 直接調(diào)用python的sklearn包中的knn算法
- 自定義函數(shù)實(shí)現(xiàn)KNN算法
02 sklearn包實(shí)現(xiàn)
python自帶的sklearn包是一個(gè)非常強(qiáng)大的機(jī)器學(xué)習(xí)包芽丹,其中包含了knn算法,主要包含以下幾個(gè)函數(shù)卜朗。
1. 引入sklearn包中的knn類
from sklearn.neighbors import KNeighborsClassifier
2. 取得knn分類器拔第,并使用內(nèi)置參數(shù)調(diào)整KNN三要素
knn=KNeighborsClassifier(weights="distance",n_neighbors=10)
這里說(shuō)明一下此分類器各參數(shù)的意義(先了解KNN算法原理,再看參數(shù)更容易理解)3. 使用knn.fit()對(duì)訓(xùn)練集進(jìn)行訓(xùn)練
knn.fit()场钉,訓(xùn)練函數(shù)蚊俺,它是最主要的函數(shù)。接收參數(shù)只有1個(gè)逛万,就是訓(xùn)練數(shù)據(jù)集泳猬,每一行是一個(gè)樣本,每一列是一個(gè)屬性宇植。它返回對(duì)象本身得封,即只是修改對(duì)象內(nèi)部屬性,因此直接調(diào)用就可以了指郁,后面用該對(duì)象的預(yù)測(cè)函數(shù)取預(yù)測(cè)自然及用到了這個(gè)訓(xùn)練的結(jié)果忙上。
knn.fit(iris_x_train,iris_y_train)
4. 調(diào)用knn.predict()預(yù)測(cè)新輸入的類別
knn.predict(),預(yù)測(cè)函數(shù) 接收輸入的數(shù)組類型測(cè)試樣本坡氯,一般是二維數(shù)組晨横,每一行是一個(gè)樣本,每一列是一個(gè)屬性箫柳。返回?cái)?shù)組類型的預(yù)測(cè)結(jié)果手形。
iris_y_predict=knn.predict(iris_x_test)
5. 調(diào)用knn.predict_proba(),顯示每個(gè)測(cè)試集樣本對(duì)應(yīng)各個(gè)分類結(jié)果的概率
knn.predict_proba()悯恍,基于概率的軟判決库糠,也是預(yù)測(cè)函數(shù),只是并不是給出某一個(gè)樣本的輸出是哪一個(gè)值涮毫,而是給出該輸出是各種可能值的概率各是多少瞬欧。
knn.predict_proba(iris_x_test)
6. 調(diào)用knn.score()計(jì)算預(yù)測(cè)的準(zhǔn)確率
knn.score(),計(jì)算準(zhǔn)確率的函數(shù),接受參數(shù)有3個(gè)罢防。輸出為一個(gè)float型數(shù)艘虎,表示準(zhǔn)確率。內(nèi)部計(jì)算是按照predict()函數(shù)計(jì)算的結(jié)果記性計(jì)算的咒吐。
接收的3個(gè)參數(shù):
- X: 接收輸入的數(shù)組類型測(cè)試樣本野建,一般是二維數(shù)組属划,每一行是一個(gè)樣本,每一列是一個(gè)屬性候生。
- y: X這些預(yù)測(cè)樣本的真實(shí)標(biāo)簽,一維數(shù)組或者二維數(shù)組唯鸭。
- sample_weight=None:是一個(gè)和X一樣長(zhǎng)的數(shù)組须蜗,表示各樣本對(duì)準(zhǔn)確率影響的權(quán)重,一般默認(rèn)為None.
score=knn.score(iris_x_test,iris_y_test,sample_weight=None)
完成目溉!
利用sklearn實(shí)現(xiàn)KNN算法明肮,訓(xùn)練集為130個(gè)鳶尾花的訓(xùn)練集,包含了鳶尾花的花瓣花萼長(zhǎng)寬以及對(duì)應(yīng)的品種停做,輸入為20個(gè)鳶尾花的花瓣花萼長(zhǎng)寬晤愧,輸出為這20個(gè)鳶尾花的品種預(yù)測(cè)大莫,運(yùn)行結(jié)果如下
iris_y_predict=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']
iris_y_test=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica'
'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']
accuracy is= 95.0 %
預(yù)測(cè)結(jié)果準(zhǔn)確率為95%
完整代碼我放在了github上蛉腌,歡迎交流
KNN的sklearn實(shí)現(xiàn)
03 自定義函數(shù)實(shí)現(xiàn)
下面我們升級(jí)難度,甩開別人喂到你面前的飯菜只厘,自己動(dòng)手寫一個(gè)KNN分類器烙丛。
在此之前,你需要非常了解KNN算法原理羔味。
本KNN分類器原理如下:
計(jì)算輸入x與訓(xùn)練集各點(diǎn)的距離distance(這里numpy數(shù)組的元素級(jí)計(jì)算高效率凸顯:友省)
按distance排序,取distance最近的k個(gè)點(diǎn)(k為分類器參數(shù))
對(duì)k個(gè)點(diǎn)的類別歸類計(jì)數(shù)赋元,x歸為多數(shù)類(多數(shù)表決)
或者對(duì)k個(gè)點(diǎn)的類別按1/distance權(quán)重歸類計(jì)數(shù)忘蟹,x歸為計(jì)數(shù)大的類(加權(quán)表決)
基于上面的算法原理,下面直接給出我寫的KNN分類器代碼搁凸,此分類器特征如下:
- 可以選擇分類決策規(guī)則(多數(shù)表決/距離加權(quán)表決)
- 可以選擇近鄰數(shù)k
- 使用歐氏距離度量
- 一次只能對(duì)一個(gè)新輸入分類媚值,這是此分類器的弊病,后續(xù)改進(jìn)算法提升點(diǎn)(加入for循環(huán)即可)
- 沒(méi)有設(shè)定訓(xùn)練集數(shù)據(jù)存儲(chǔ)方式選擇的參數(shù)护糖,只能線性掃描(即褥芒,沒(méi)有設(shè)置kd樹存儲(chǔ)),因此難以處理大數(shù)據(jù)量的訓(xùn)練集
自定義KNN分類器
# newInput: 新輸入的待分類數(shù)據(jù)(x_test)嫡良,本分類器一次只能對(duì)一個(gè)新輸入分類
# dataset:輸入的訓(xùn)練數(shù)據(jù)集(x_train),array類型锰扶,每一行為一個(gè)輸入訓(xùn)練集
# labels:輸入訓(xùn)練集對(duì)應(yīng)的類別標(biāo)簽(y_train),格式為['A','B']而不是[['A'],['B']]
# k:近鄰數(shù)
# weight:決策規(guī)則寝受,"uniform" 多數(shù)表決法坷牛,"distance" 距離加權(quán)表決法
def KNNClassify(newInput, dataset, labels, k, weight):
numSamples=dataset.shape[0]
"""step1: 計(jì)算待分類數(shù)據(jù)與訓(xùn)練集各數(shù)據(jù)點(diǎn)的距離(歐氏距離:距離差值平方和開根號(hào))"""
diff=np.tile(newInput,(numSamples,1)) - dataset # 凸顯numpy數(shù)組的高效性——元素級(jí)的運(yùn)算
squaredist=diff**2
distance = (squaredist.sum(axis=1))**0.5 # axis=1,按行累加
"""step2:將距離按升序排序,并取距離最近的k個(gè)近鄰點(diǎn)"""
# 對(duì)數(shù)組distance按升序排序很澄,返回?cái)?shù)組排序后的值對(duì)應(yīng)的索引值
sortedDistance=distance.argsort()
# 定義一個(gè)空字典京闰,存放k個(gè)近鄰點(diǎn)的分類計(jì)數(shù)
classCount={}
# 對(duì)k個(gè)近鄰點(diǎn)分類計(jì)數(shù)锨亏,多數(shù)表決法
for i in range(k):
# 第i個(gè)近鄰點(diǎn)在distance數(shù)組中的索引,對(duì)應(yīng)的分類
votelabel=labels[sortedDistance[i]]
if weight=="uniform":
# votelabel作為字典的key,對(duì)相同的key值累加(多數(shù)表決法)
classCount[votelabel]=classCount.get(votelabel,0)+1
elif weight=="distance":
# 對(duì)相同的key值按距離加權(quán)累加(加權(quán)表決法)
classCount[votelabel]=classCount.get(votelabel,0)+(1/distance[sortedDistance[i]])
else:
print ("分類決策規(guī)則錯(cuò)誤忙干!")
print ("\"uniform\"多數(shù)表決法\"distance\"距離加權(quán)表決法")
break
# 對(duì)k個(gè)近鄰點(diǎn)的分類計(jì)數(shù)按降序排序器予,返回得票數(shù)最多的分類結(jié)果
sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
if weight=="uniform":
print ("新輸入到訓(xùn)練集的最近%d個(gè)點(diǎn)的計(jì)數(shù)為:"%k,"\n",classCount)
print ("新輸入的類別是:", sortedClassCount[0][0])
elif weight=="distance":
print ("新輸入到訓(xùn)練集的最近%d個(gè)點(diǎn)的距離加權(quán)計(jì)數(shù)為:"%k,"\n",classCount)
print ("新輸入的類別是:", sortedClassCount[0][0])
return sortedClassCount[0][0]
下面對(duì)自定義的KNN分類器進(jìn)行測(cè)試,還是使用鳶尾花數(shù)據(jù)集.
1. 建立訓(xùn)練集捐迫、測(cè)試集
iris=pd.read_csv("E:\python\practice\iris.txt")
iris.head()
iris_x=iris.iloc[:,[0,1,2,3]]
iris_y=iris.iloc[:,[4]]
np.random.seed(7)
indices=np.random.permutation(len(iris_x))
iris_x_train=iris_x.iloc[indices[0:130]]
iris_y_train=iris_y.iloc[indices[0:130]]
iris_x_test=iris_x.iloc[indices[130:150]]
iris_y_test=iris_y.iloc[indices[130:150]]
# 將dataframe格式的數(shù)據(jù)轉(zhuǎn)換為numpy array格式乾翔,便于 調(diào)用函數(shù)計(jì)算
iris_x_train=np.array(iris_x_train)
iris_y_train=np.array(iris_y_train)
iris_x_test=np.array(iris_x_test)
iris_y_test=np.array(iris_y_test)
# 將labels的形狀設(shè)置為(130,)
iris_y_train.shape=(130,)
2. 將訓(xùn)練集、測(cè)試集帶入自定義KNN分類器進(jìn)行分類
test_index=12
predict=KNNClassify(iris_x_test[test_index],iris_x_train,iris_y_train,20,"distance")
print (predict)
print ("新輸入的實(shí)際類別是:", iris_y_test[test_index])
print ("\n")
if predict==iris_y_test[test_index]:
print ("預(yù)測(cè)準(zhǔn)確!")
else:
print ("預(yù)測(cè)錯(cuò)誤施戴!")
隨意選擇一個(gè)測(cè)試數(shù)據(jù)反浓,預(yù)測(cè)結(jié)果如下
新輸入到訓(xùn)練集的最近20個(gè)點(diǎn)的距離加權(quán)計(jì)數(shù)為:
{'Iris-versicolor': 45.596003202769246}
新輸入的類別是: Iris-versicolor
Iris-versicolor
新輸入的實(shí)際類別是: ['Iris-versicolor']
預(yù)測(cè)準(zhǔn)確!
完整代碼我放在了github上,歡迎交流
KNN的自定義函數(shù)實(shí)現(xiàn)
04 預(yù)告
本文結(jié)合KNN算法原理赞哗,利用python實(shí)現(xiàn)了KNN雷则,使用了兩種方式:
- sklearn包實(shí)現(xiàn)
- 自定義KNN分類器
下期將利用python實(shí)現(xiàn)樸素貝葉斯算法,敬請(qǐng)期待~