K近鄰 | python實(shí)現(xiàn)

01 KNN可以做點(diǎn)什么呢拇泣？

在李航的《統(tǒng)計(jì)學(xué)習(xí)方法》中，詳細(xì)講解了一中分類算法：K近鄰(K Nearest Neighbor)渐裂，具體的算法過(guò)程和關(guān)鍵點(diǎn)可以參考這篇文章：

統(tǒng)計(jì)學(xué)習(xí)方法 | k近鄰法

算法的理論基礎(chǔ)有了豺旬，下一步就是自己動(dòng)手去實(shí)現(xiàn)了。

今天我們的文章就是利用python去實(shí)現(xiàn)KNN算法芯义，利用這套算法可以做什么呢哈垢？

比如，我們已經(jīng)知道一組鳶尾花的花瓣扛拨、花萼長(zhǎng)寬以及對(duì)應(yīng)的鳶尾花品種耘分，那么利用KNN算法，我們就可以判斷一朵擁有一定長(zhǎng)寬的花瓣花萼屬于鳶尾花的哪個(gè)品種

同樣地，利用KNN算法求泰，可以根據(jù)經(jīng)驗(yàn)數(shù)據(jù)（訓(xùn)練集）央渣，判斷貸款客戶的風(fēng)險(xiǎn)高低，決定是否貸款給客戶等等渴频。

本文利用以下兩種方式在python中實(shí)現(xiàn)KNN算法：

直接調(diào)用python的sklearn包中的knn算法
自定義函數(shù)實(shí)現(xiàn)KNN算法

02 sklearn包實(shí)現(xiàn)

python自帶的sklearn包是一個(gè)非常強(qiáng)大的機(jī)器學(xué)習(xí)包芽丹，其中包含了knn算法，主要包含以下幾個(gè)函數(shù)卜朗。

1. 引入sklearn包中的knn類

from sklearn.neighbors import KNeighborsClassifier

2. 取得knn分類器拔第，并使用內(nèi)置參數(shù)調(diào)整KNN三要素

knn=KNeighborsClassifier(weights="distance",n_neighbors=10)

這里說(shuō)明一下此分類器各參數(shù)的意義(先了解KNN算法原理，再看參數(shù)更容易理解)

3. 使用knn.fit()對(duì)訓(xùn)練集進(jìn)行訓(xùn)練

knn.fit()场钉，訓(xùn)練函數(shù)蚊俺，它是最主要的函數(shù)。接收參數(shù)只有1個(gè)逛万，就是訓(xùn)練數(shù)據(jù)集泳猬，每一行是一個(gè)樣本，每一列是一個(gè)屬性宇植。它返回對(duì)象本身得封，即只是修改對(duì)象內(nèi)部屬性，因此直接調(diào)用就可以了指郁，后面用該對(duì)象的預(yù)測(cè)函數(shù)取預(yù)測(cè)自然及用到了這個(gè)訓(xùn)練的結(jié)果忙上。

knn.fit(iris_x_train,iris_y_train)

4. 調(diào)用knn.predict()預(yù)測(cè)新輸入的類別

knn.predict()，預(yù)測(cè)函數(shù) 接收輸入的數(shù)組類型測(cè)試樣本坡氯，一般是二維數(shù)組晨横，每一行是一個(gè)樣本，每一列是一個(gè)屬性箫柳。返回?cái)?shù)組類型的預(yù)測(cè)結(jié)果手形。

iris_y_predict=knn.predict(iris_x_test)

5. 調(diào)用knn.predict_proba()，顯示每個(gè)測(cè)試集樣本對(duì)應(yīng)各個(gè)分類結(jié)果的概率

knn.predict_proba()悯恍，基于概率的軟判決库糠，也是預(yù)測(cè)函數(shù)，只是并不是給出某一個(gè)樣本的輸出是哪一個(gè)值涮毫，而是給出該輸出是各種可能值的概率各是多少瞬欧。

knn.predict_proba(iris_x_test)

6. 調(diào)用knn.score()計(jì)算預(yù)測(cè)的準(zhǔn)確率

knn.score(),計(jì)算準(zhǔn)確率的函數(shù)，接受參數(shù)有3個(gè)罢防。輸出為一個(gè)float型數(shù)艘虎，表示準(zhǔn)確率。內(nèi)部計(jì)算是按照predict()函數(shù)計(jì)算的結(jié)果記性計(jì)算的咒吐。

接收的3個(gè)參數(shù)：

X: 接收輸入的數(shù)組類型測(cè)試樣本野建，一般是二維數(shù)組属划，每一行是一個(gè)樣本，每一列是一個(gè)屬性候生。
y: X這些預(yù)測(cè)樣本的真實(shí)標(biāo)簽，一維數(shù)組或者二維數(shù)組唯鸭。
sample_weight=None：是一個(gè)和X一樣長(zhǎng)的數(shù)組须蜗，表示各樣本對(duì)準(zhǔn)確率影響的權(quán)重，一般默認(rèn)為None.

score=knn.score(iris_x_test,iris_y_test,sample_weight=None)

完成目溉！

利用sklearn實(shí)現(xiàn)KNN算法明肮，訓(xùn)練集為130個(gè)鳶尾花的訓(xùn)練集，包含了鳶尾花的花瓣花萼長(zhǎng)寬以及對(duì)應(yīng)的品種停做，輸入為20個(gè)鳶尾花的花瓣花萼長(zhǎng)寬晤愧，輸出為這20個(gè)鳶尾花的品種預(yù)測(cè)大莫，運(yùn)行結(jié)果如下

iris_y_predict=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']
    
iris_y_test=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']

accuracy is= 95.0 %

預(yù)測(cè)結(jié)果準(zhǔn)確率為95%

完整代碼我放在了github上蛉腌，歡迎交流
KNN的sklearn實(shí)現(xiàn)

03 自定義函數(shù)實(shí)現(xiàn)

下面我們升級(jí)難度，甩開別人喂到你面前的飯菜只厘，自己動(dòng)手寫一個(gè)KNN分類器烙丛。

在此之前，你需要非常了解KNN算法原理羔味。

本KNN分類器原理如下：

計(jì)算輸入x與訓(xùn)練集各點(diǎn)的距離distance（這里numpy數(shù)組的元素級(jí)計(jì)算高效率凸顯：友省）
按distance排序，取distance最近的k個(gè)點(diǎn)（k為分類器參數(shù)）
對(duì)k個(gè)點(diǎn)的類別歸類計(jì)數(shù)赋元，x歸為多數(shù)類（多數(shù)表決）
或者對(duì)k個(gè)點(diǎn)的類別按1/distance權(quán)重歸類計(jì)數(shù)忘蟹，x歸為計(jì)數(shù)大的類（加權(quán)表決）

基于上面的算法原理，下面直接給出我寫的KNN分類器代碼搁凸，此分類器特征如下：

可以選擇分類決策規(guī)則（多數(shù)表決/距離加權(quán)表決）
可以選擇近鄰數(shù)k
使用歐氏距離度量
一次只能對(duì)一個(gè)新輸入分類媚值，這是此分類器的弊病，后續(xù)改進(jìn)算法提升點(diǎn)（加入for循環(huán)即可）
沒(méi)有設(shè)定訓(xùn)練集數(shù)據(jù)存儲(chǔ)方式選擇的參數(shù)护糖，只能線性掃描（即褥芒，沒(méi)有設(shè)置kd樹存儲(chǔ)），因此難以處理大數(shù)據(jù)量的訓(xùn)練集

自定義KNN分類器

# newInput: 新輸入的待分類數(shù)據(jù)(x_test)嫡良，本分類器一次只能對(duì)一個(gè)新輸入分類
# dataset：輸入的訓(xùn)練數(shù)據(jù)集(x_train),array類型锰扶，每一行為一個(gè)輸入訓(xùn)練集
# labels：輸入訓(xùn)練集對(duì)應(yīng)的類別標(biāo)簽(y_train)，格式為['A','B']而不是[['A'],['B']]
# k：近鄰數(shù)
# weight：決策規(guī)則寝受，"uniform" 多數(shù)表決法坷牛，"distance" 距離加權(quán)表決法

def KNNClassify(newInput, dataset, labels, k, weight):
    numSamples=dataset.shape[0]
    
    """step1: 計(jì)算待分類數(shù)據(jù)與訓(xùn)練集各數(shù)據(jù)點(diǎn)的距離（歐氏距離：距離差值平方和開根號(hào)）"""
    diff=np.tile(newInput,(numSamples,1)) - dataset # 凸顯numpy數(shù)組的高效性——元素級(jí)的運(yùn)算
    squaredist=diff**2
    distance = (squaredist.sum(axis=1))**0.5 # axis=1,按行累加
    
    """step2：將距離按升序排序，并取距離最近的k個(gè)近鄰點(diǎn)"""
    # 對(duì)數(shù)組distance按升序排序很澄，返回?cái)?shù)組排序后的值對(duì)應(yīng)的索引值
    sortedDistance=distance.argsort() 
    
    # 定義一個(gè)空字典京闰，存放k個(gè)近鄰點(diǎn)的分類計(jì)數(shù)
    classCount={}
    
    # 對(duì)k個(gè)近鄰點(diǎn)分類計(jì)數(shù)锨亏，多數(shù)表決法
    for i in range(k):
        # 第i個(gè)近鄰點(diǎn)在distance數(shù)組中的索引,對(duì)應(yīng)的分類
        votelabel=labels[sortedDistance[i]]
        if weight=="uniform":
            # votelabel作為字典的key，對(duì)相同的key值累加（多數(shù)表決法）
            classCount[votelabel]=classCount.get(votelabel,0)+1 
        elif weight=="distance":
            # 對(duì)相同的key值按距離加權(quán)累加（加權(quán)表決法）
            classCount[votelabel]=classCount.get(votelabel,0)+(1/distance[sortedDistance[i]])
        else:
            print ("分類決策規(guī)則錯(cuò)誤忙干！")
            print ("\"uniform\"多數(shù)表決法\"distance\"距離加權(quán)表決法")
            break 
            
    # 對(duì)k個(gè)近鄰點(diǎn)的分類計(jì)數(shù)按降序排序器予，返回得票數(shù)最多的分類結(jié)果
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    if weight=="uniform":
        print ("新輸入到訓(xùn)練集的最近%d個(gè)點(diǎn)的計(jì)數(shù)為："%k,"\n",classCount)
        print ("新輸入的類別是:", sortedClassCount[0][0])
    
    elif weight=="distance":
        print ("新輸入到訓(xùn)練集的最近%d個(gè)點(diǎn)的距離加權(quán)計(jì)數(shù)為："%k,"\n",classCount)
        print ("新輸入的類別是:", sortedClassCount[0][0])
    
    return sortedClassCount[0][0]

下面對(duì)自定義的KNN分類器進(jìn)行測(cè)試，還是使用鳶尾花數(shù)據(jù)集.

1. 建立訓(xùn)練集捐迫、測(cè)試集

iris=pd.read_csv("E:\python\practice\iris.txt")
iris.head()

iris_x=iris.iloc[:,[0,1,2,3]]
iris_y=iris.iloc[:,[4]]

np.random.seed(7)
indices=np.random.permutation(len(iris_x))

iris_x_train=iris_x.iloc[indices[0:130]]
iris_y_train=iris_y.iloc[indices[0:130]]

iris_x_test=iris_x.iloc[indices[130:150]]
iris_y_test=iris_y.iloc[indices[130:150]]

# 將dataframe格式的數(shù)據(jù)轉(zhuǎn)換為numpy array格式乾翔，便于 調(diào)用函數(shù)計(jì)算
iris_x_train=np.array(iris_x_train)
iris_y_train=np.array(iris_y_train)

iris_x_test=np.array(iris_x_test)
iris_y_test=np.array(iris_y_test) 

# 將labels的形狀設(shè)置為(130,)
iris_y_train.shape=(130,)

2. 將訓(xùn)練集、測(cè)試集帶入自定義KNN分類器進(jìn)行分類

test_index=12
predict=KNNClassify(iris_x_test[test_index],iris_x_train,iris_y_train,20,"distance")
print (predict)
print ("新輸入的實(shí)際類別是：", iris_y_test[test_index])
print ("\n")

if predict==iris_y_test[test_index]:
    print ("預(yù)測(cè)準(zhǔn)確!")
else:
    print ("預(yù)測(cè)錯(cuò)誤施戴！")

隨意選擇一個(gè)測(cè)試數(shù)據(jù)反浓，預(yù)測(cè)結(jié)果如下

新輸入到訓(xùn)練集的最近20個(gè)點(diǎn)的距離加權(quán)計(jì)數(shù)為： 
 {'Iris-versicolor': 45.596003202769246}
新輸入的類別是: Iris-versicolor
Iris-versicolor
新輸入的實(shí)際類別是： ['Iris-versicolor']

預(yù)測(cè)準(zhǔn)確!

完整代碼我放在了github上，歡迎交流
KNN的自定義函數(shù)實(shí)現(xiàn)

04 預(yù)告

本文結(jié)合KNN算法原理赞哗，利用python實(shí)現(xiàn)了KNN雷则，使用了兩種方式：

sklearn包實(shí)現(xiàn)
自定義KNN分類器

下期將利用python實(shí)現(xiàn)樸素貝葉斯算法，敬請(qǐng)期待~

最后編輯于：2018.08.07 11:24:34

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末肪笋，一起剝皮案震驚了整個(gè)濱河市月劈，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌藤乙，老刑警劉巖猜揪，帶你破解...
沈念sama閱讀 218,036評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異坛梁，居然都是意外死亡而姐，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門划咐，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拴念，“玉大人，你說(shuō)我怎么就攤上這事褐缠≌螅” “怎么了？”我有些...
開封第一講書人閱讀 164,411評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵送丰，是天一觀的道長(zhǎng)缔俄。經(jīng)常有香客問(wèn)我，道長(zhǎng)器躏，這世上最難降的妖魔是什么俐载？我笑而不...
開封第一講書人閱讀 58,622評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮登失，結(jié)果婚禮上遏佣，老公的妹妹穿的比我還像新娘。我一直安慰自己揽浙，他們只是感情好状婶，可當(dāng)我...
茶點(diǎn)故事閱讀 67,661評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布意敛。她就那樣靜靜地躺著，像睡著了一般膛虫。火紅的嫁衣襯著肌膚如雪草姻。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,521評(píng)論 1贊 304
城市分裂傳說(shuō)
那天稍刀，我揣著相機(jī)與錄音撩独，去河邊找鬼。笑死账月，一個(gè)胖子當(dāng)著我的面吹牛综膀，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播局齿，決...
沈念sama閱讀 40,288評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼剧劝，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了抓歼？” 一聲冷哼從身側(cè)響起讥此，我...
開封第一講書人閱讀 39,200評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎锭部，沒(méi)想到半個(gè)月后暂论，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,644評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡拌禾，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,837評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了展哭。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片湃窍。...
茶點(diǎn)故事閱讀 39,953評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖匪傍，靈堂內(nèi)的尸體忽然破棺而出您市，到底是詐尸還是另有隱情，我是刑警寧澤役衡，帶...
沈念sama閱讀 35,673評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布茵休，位于F島的核電站，受9級(jí)特大地震影響手蝎，放射性物質(zhì)發(fā)生泄漏榕莺。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,281評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一棵介、第九天我趴在偏房一處隱蔽的房頂上張望钉鸯。院中可真熱鬧，春花似錦邮辽、人聲如沸唠雕。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,889評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)岩睁。三九已至钞脂，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間捕儒，已是汗流浹背芳肌。一陣腳步聲響...
開封第一講書人閱讀 33,011評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留肋层，地道東北人亿笤。一個(gè)月前我還...
沈念sama閱讀 48,119評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像栋猖，于是被迫代替她去往敵國(guó)和親净薛。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,901評(píng)論 2贊 355

K近鄰 | python實(shí)現(xiàn)

01 KNN可以做點(diǎn)什么呢拇泣？

02 sklearn包實(shí)現(xiàn)

03 自定義函數(shù)實(shí)現(xiàn)

04 預(yù)告

推薦閱讀更多精彩內(nèi)容