K近鄰 | python實(shí)現(xiàn)

01 KNN可以做點(diǎn)什么呢拇泣?

在李航的《統(tǒng)計(jì)學(xué)習(xí)方法》中,詳細(xì)講解了一中分類算法:K近鄰(K Nearest Neighbor)渐裂,具體的算法過(guò)程和關(guān)鍵點(diǎn)可以參考這篇文章:

統(tǒng)計(jì)學(xué)習(xí)方法 | k近鄰法

算法的理論基礎(chǔ)有了豺旬,下一步就是自己動(dòng)手去實(shí)現(xiàn)了。

今天我們的文章就是利用python去實(shí)現(xiàn)KNN算法芯义,利用這套算法可以做什么呢哈垢?

比如,我們已經(jīng)知道一組鳶尾花的花瓣扛拨、花萼長(zhǎng)寬以及對(duì)應(yīng)的鳶尾花品種耘分,那么利用KNN算法,我們就可以判斷一朵擁有一定長(zhǎng)寬的花瓣花萼屬于鳶尾花的哪個(gè)品種

同樣地,利用KNN算法求泰,可以根據(jù)經(jīng)驗(yàn)數(shù)據(jù)(訓(xùn)練集)央渣,判斷貸款客戶的風(fēng)險(xiǎn)高低,決定是否貸款給客戶等等渴频。

本文利用以下兩種方式在python中實(shí)現(xiàn)KNN算法:

  1. 直接調(diào)用python的sklearn包中的knn算法
  2. 自定義函數(shù)實(shí)現(xiàn)KNN算法

02 sklearn包實(shí)現(xiàn)

python自帶的sklearn包是一個(gè)非常強(qiáng)大的機(jī)器學(xué)習(xí)包芽丹,其中包含了knn算法,主要包含以下幾個(gè)函數(shù)卜朗。

1. 引入sklearn包中的knn類

from sklearn.neighbors import KNeighborsClassifier

2. 取得knn分類器拔第,并使用內(nèi)置參數(shù)調(diào)整KNN三要素

knn=KNeighborsClassifier(weights="distance",n_neighbors=10)

這里說(shuō)明一下此分類器各參數(shù)的意義(先了解KNN算法原理,再看參數(shù)更容易理解)

3. 使用knn.fit()對(duì)訓(xùn)練集進(jìn)行訓(xùn)練

knn.fit()场钉,訓(xùn)練函數(shù)蚊俺,它是最主要的函數(shù)。接收參數(shù)只有1個(gè)逛万,就是訓(xùn)練數(shù)據(jù)集泳猬,每一行是一個(gè)樣本,每一列是一個(gè)屬性宇植。它返回對(duì)象本身得封,即只是修改對(duì)象內(nèi)部屬性,因此直接調(diào)用就可以了指郁,后面用該對(duì)象的預(yù)測(cè)函數(shù)取預(yù)測(cè)自然及用到了這個(gè)訓(xùn)練的結(jié)果忙上。

knn.fit(iris_x_train,iris_y_train)

4. 調(diào)用knn.predict()預(yù)測(cè)新輸入的類別

knn.predict(),預(yù)測(cè)函數(shù) 接收輸入的數(shù)組類型測(cè)試樣本坡氯,一般是二維數(shù)組晨横,每一行是一個(gè)樣本,每一列是一個(gè)屬性箫柳。返回?cái)?shù)組類型的預(yù)測(cè)結(jié)果手形。

iris_y_predict=knn.predict(iris_x_test)

5. 調(diào)用knn.predict_proba(),顯示每個(gè)測(cè)試集樣本對(duì)應(yīng)各個(gè)分類結(jié)果的概率

knn.predict_proba()悯恍,基于概率的軟判決库糠,也是預(yù)測(cè)函數(shù),只是并不是給出某一個(gè)樣本的輸出是哪一個(gè)值涮毫,而是給出該輸出是各種可能值的概率各是多少瞬欧。

knn.predict_proba(iris_x_test)

6. 調(diào)用knn.score()計(jì)算預(yù)測(cè)的準(zhǔn)確率

knn.score(),計(jì)算準(zhǔn)確率的函數(shù),接受參數(shù)有3個(gè)罢防。輸出為一個(gè)float型數(shù)艘虎,表示準(zhǔn)確率。內(nèi)部計(jì)算是按照predict()函數(shù)計(jì)算的結(jié)果記性計(jì)算的咒吐。

接收的3個(gè)參數(shù):

  • X: 接收輸入的數(shù)組類型測(cè)試樣本野建,一般是二維數(shù)組属划,每一行是一個(gè)樣本,每一列是一個(gè)屬性候生。
  • y: X這些預(yù)測(cè)樣本的真實(shí)標(biāo)簽,一維數(shù)組或者二維數(shù)組唯鸭。
  • sample_weight=None:是一個(gè)和X一樣長(zhǎng)的數(shù)組须蜗,表示各樣本對(duì)準(zhǔn)確率影響的權(quán)重,一般默認(rèn)為None.
score=knn.score(iris_x_test,iris_y_test,sample_weight=None)

完成目溉!

利用sklearn實(shí)現(xiàn)KNN算法明肮,訓(xùn)練集為130個(gè)鳶尾花的訓(xùn)練集,包含了鳶尾花的花瓣花萼長(zhǎng)寬以及對(duì)應(yīng)的品種停做,輸入為20個(gè)鳶尾花的花瓣花萼長(zhǎng)寬晤愧,輸出為這20個(gè)鳶尾花的品種預(yù)測(cè)大莫,運(yùn)行結(jié)果如下

iris_y_predict=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']
    
iris_y_test=
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica'
 'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa']

accuracy is= 95.0 %

預(yù)測(cè)結(jié)果準(zhǔn)確率為95%

完整代碼我放在了github上蛉腌,歡迎交流
KNN的sklearn實(shí)現(xiàn)

03 自定義函數(shù)實(shí)現(xiàn)

下面我們升級(jí)難度,甩開別人喂到你面前的飯菜只厘,自己動(dòng)手寫一個(gè)KNN分類器烙丛。

在此之前,你需要非常了解KNN算法原理羔味。

本KNN分類器原理如下:

  1. 計(jì)算輸入x與訓(xùn)練集各點(diǎn)的距離distance(這里numpy數(shù)組的元素級(jí)計(jì)算高效率凸顯:友省)

  2. 按distance排序,取distance最近的k個(gè)點(diǎn)(k為分類器參數(shù))

  3. 對(duì)k個(gè)點(diǎn)的類別歸類計(jì)數(shù)赋元,x歸為多數(shù)類(多數(shù)表決)

  4. 或者對(duì)k個(gè)點(diǎn)的類別按1/distance權(quán)重歸類計(jì)數(shù)忘蟹,x歸為計(jì)數(shù)大的類(加權(quán)表決)

基于上面的算法原理,下面直接給出我寫的KNN分類器代碼搁凸,此分類器特征如下:

  • 可以選擇分類決策規(guī)則(多數(shù)表決/距離加權(quán)表決)
  • 可以選擇近鄰數(shù)k
  • 使用歐氏距離度量
  • 一次只能對(duì)一個(gè)新輸入分類媚值,這是此分類器的弊病,后續(xù)改進(jìn)算法提升點(diǎn)(加入for循環(huán)即可)
  • 沒(méi)有設(shè)定訓(xùn)練集數(shù)據(jù)存儲(chǔ)方式選擇的參數(shù)护糖,只能線性掃描(即褥芒,沒(méi)有設(shè)置kd樹存儲(chǔ)),因此難以處理大數(shù)據(jù)量的訓(xùn)練集

自定義KNN分類器

# newInput: 新輸入的待分類數(shù)據(jù)(x_test)嫡良,本分類器一次只能對(duì)一個(gè)新輸入分類
# dataset:輸入的訓(xùn)練數(shù)據(jù)集(x_train),array類型锰扶,每一行為一個(gè)輸入訓(xùn)練集
# labels:輸入訓(xùn)練集對(duì)應(yīng)的類別標(biāo)簽(y_train),格式為['A','B']而不是[['A'],['B']]
# k:近鄰數(shù)
# weight:決策規(guī)則寝受,"uniform" 多數(shù)表決法坷牛,"distance" 距離加權(quán)表決法

def KNNClassify(newInput, dataset, labels, k, weight):
    numSamples=dataset.shape[0]
    
    """step1: 計(jì)算待分類數(shù)據(jù)與訓(xùn)練集各數(shù)據(jù)點(diǎn)的距離(歐氏距離:距離差值平方和開根號(hào))"""
    diff=np.tile(newInput,(numSamples,1)) - dataset # 凸顯numpy數(shù)組的高效性——元素級(jí)的運(yùn)算
    squaredist=diff**2
    distance = (squaredist.sum(axis=1))**0.5 # axis=1,按行累加
    
    """step2:將距離按升序排序,并取距離最近的k個(gè)近鄰點(diǎn)"""
    # 對(duì)數(shù)組distance按升序排序很澄,返回?cái)?shù)組排序后的值對(duì)應(yīng)的索引值
    sortedDistance=distance.argsort() 
    
    # 定義一個(gè)空字典京闰,存放k個(gè)近鄰點(diǎn)的分類計(jì)數(shù)
    classCount={}
    
    # 對(duì)k個(gè)近鄰點(diǎn)分類計(jì)數(shù)锨亏,多數(shù)表決法
    for i in range(k):
        # 第i個(gè)近鄰點(diǎn)在distance數(shù)組中的索引,對(duì)應(yīng)的分類
        votelabel=labels[sortedDistance[i]]
        if weight=="uniform":
            # votelabel作為字典的key,對(duì)相同的key值累加(多數(shù)表決法)
            classCount[votelabel]=classCount.get(votelabel,0)+1 
        elif weight=="distance":
            # 對(duì)相同的key值按距離加權(quán)累加(加權(quán)表決法)
            classCount[votelabel]=classCount.get(votelabel,0)+(1/distance[sortedDistance[i]])
        else:
            print ("分類決策規(guī)則錯(cuò)誤忙干!")
            print ("\"uniform\"多數(shù)表決法\"distance\"距離加權(quán)表決法")
            break 
            
    # 對(duì)k個(gè)近鄰點(diǎn)的分類計(jì)數(shù)按降序排序器予,返回得票數(shù)最多的分類結(jié)果
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    if weight=="uniform":
        print ("新輸入到訓(xùn)練集的最近%d個(gè)點(diǎn)的計(jì)數(shù)為:"%k,"\n",classCount)
        print ("新輸入的類別是:", sortedClassCount[0][0])
    
    elif weight=="distance":
        print ("新輸入到訓(xùn)練集的最近%d個(gè)點(diǎn)的距離加權(quán)計(jì)數(shù)為:"%k,"\n",classCount)
        print ("新輸入的類別是:", sortedClassCount[0][0])
    
    return sortedClassCount[0][0]

下面對(duì)自定義的KNN分類器進(jìn)行測(cè)試,還是使用鳶尾花數(shù)據(jù)集.

1. 建立訓(xùn)練集捐迫、測(cè)試集

iris=pd.read_csv("E:\python\practice\iris.txt")
iris.head()

iris_x=iris.iloc[:,[0,1,2,3]]
iris_y=iris.iloc[:,[4]]

np.random.seed(7)
indices=np.random.permutation(len(iris_x))

iris_x_train=iris_x.iloc[indices[0:130]]
iris_y_train=iris_y.iloc[indices[0:130]]

iris_x_test=iris_x.iloc[indices[130:150]]
iris_y_test=iris_y.iloc[indices[130:150]]

# 將dataframe格式的數(shù)據(jù)轉(zhuǎn)換為numpy array格式乾翔,便于 調(diào)用函數(shù)計(jì)算
iris_x_train=np.array(iris_x_train)
iris_y_train=np.array(iris_y_train)

iris_x_test=np.array(iris_x_test)
iris_y_test=np.array(iris_y_test) 

# 將labels的形狀設(shè)置為(130,)
iris_y_train.shape=(130,)

2. 將訓(xùn)練集、測(cè)試集帶入自定義KNN分類器進(jìn)行分類

test_index=12
predict=KNNClassify(iris_x_test[test_index],iris_x_train,iris_y_train,20,"distance")
print (predict)
print ("新輸入的實(shí)際類別是:", iris_y_test[test_index])
print ("\n")

if predict==iris_y_test[test_index]:
    print ("預(yù)測(cè)準(zhǔn)確!")
else:
    print ("預(yù)測(cè)錯(cuò)誤施戴!")

隨意選擇一個(gè)測(cè)試數(shù)據(jù)反浓,預(yù)測(cè)結(jié)果如下

新輸入到訓(xùn)練集的最近20個(gè)點(diǎn)的距離加權(quán)計(jì)數(shù)為: 
 {'Iris-versicolor': 45.596003202769246}
新輸入的類別是: Iris-versicolor
Iris-versicolor
新輸入的實(shí)際類別是: ['Iris-versicolor']

預(yù)測(cè)準(zhǔn)確!

完整代碼我放在了github上,歡迎交流
KNN的自定義函數(shù)實(shí)現(xiàn)

04 預(yù)告

本文結(jié)合KNN算法原理赞哗,利用python實(shí)現(xiàn)了KNN雷则,使用了兩種方式:

  1. sklearn包實(shí)現(xiàn)
  2. 自定義KNN分類器

下期將利用python實(shí)現(xiàn)樸素貝葉斯算法,敬請(qǐng)期待~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末肪笋,一起剝皮案震驚了整個(gè)濱河市月劈,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌藤乙,老刑警劉巖猜揪,帶你破解...
    沈念sama閱讀 218,036評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異坛梁,居然都是意外死亡而姐,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門划咐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拴念,“玉大人,你說(shuō)我怎么就攤上這事褐缠≌螅” “怎么了?”我有些...
    開封第一講書人閱讀 164,411評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵送丰,是天一觀的道長(zhǎng)缔俄。 經(jīng)常有香客問(wèn)我,道長(zhǎng)器躏,這世上最難降的妖魔是什么俐载? 我笑而不...
    開封第一講書人閱讀 58,622評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮登失,結(jié)果婚禮上遏佣,老公的妹妹穿的比我還像新娘。我一直安慰自己揽浙,他們只是感情好状婶,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評(píng)論 6 392
  • 文/花漫 我一把揭開白布意敛。 她就那樣靜靜地躺著,像睡著了一般膛虫。 火紅的嫁衣襯著肌膚如雪草姻。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,521評(píng)論 1 304
  • 那天稍刀,我揣著相機(jī)與錄音撩独,去河邊找鬼。 笑死账月,一個(gè)胖子當(dāng)著我的面吹牛综膀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播局齿,決...
    沈念sama閱讀 40,288評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼剧劝,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了抓歼?” 一聲冷哼從身側(cè)響起讥此,我...
    開封第一講書人閱讀 39,200評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎锭部,沒(méi)想到半個(gè)月后暂论,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,644評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡拌禾,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了展哭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片湃窍。...
    茶點(diǎn)故事閱讀 39,953評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖匪傍,靈堂內(nèi)的尸體忽然破棺而出您市,到底是詐尸還是另有隱情,我是刑警寧澤役衡,帶...
    沈念sama閱讀 35,673評(píng)論 5 346
  • 正文 年R本政府宣布茵休,位于F島的核電站,受9級(jí)特大地震影響手蝎,放射性物質(zhì)發(fā)生泄漏榕莺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評(píng)論 3 329
  • 文/蒙蒙 一棵介、第九天 我趴在偏房一處隱蔽的房頂上張望钉鸯。 院中可真熱鬧,春花似錦邮辽、人聲如沸唠雕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)岩睁。三九已至钞脂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間捕儒,已是汗流浹背芳肌。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留肋层,地道東北人亿笤。 一個(gè)月前我還...
    沈念sama閱讀 48,119評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像栋猖,于是被迫代替她去往敵國(guó)和親净薛。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 注:題中所指的『機(jī)器學(xué)習(xí)』不包括『深度學(xué)習(xí)』蒲拉。本篇文章以理論推導(dǎo)為主肃拜,不涉及代碼實(shí)現(xiàn)。 前些日子定下了未來(lái)三年左右...
    我偏笑_NSNirvana閱讀 39,980評(píng)論 12 145
  • 1雌团、模型原理 (一)原理1燃领、原理:是一種常用的監(jiān)督學(xué)習(xí)方法,給定測(cè)試樣本锦援,基于某種距離度量找出訓(xùn)練集中與其最靠近的...
    Python_Franklin閱讀 7,118評(píng)論 0 6
  • 排名按內(nèi)容特點(diǎn)及個(gè)人評(píng)價(jià)猛蔽,帶※的曾在個(gè)人微博或@推遍天下 即時(shí)寫過(guò)評(píng)價(jià),可搜索灵寺。 【非虛構(gòu)類】over 11本曼库;i...
    風(fēng)華布衣閱讀 493評(píng)論 0 2
  • 無(wú)意中看到這個(gè)軟件 剛開始也只是出于青春的好奇 便決定下下來(lái)勘察一番 看看合不合自己的口味 又是偶然 我發(fā)現(xiàn)居然可...
    Zev_zhongwei閱讀 120評(píng)論 0 1
  • 對(duì)我來(lái)說(shuō)毁枯,這世界上最惡心的事就是假裝努力,這比痛快地混吃等死惡心一萬(wàn)倍叮称。 批評(píng)之前种玛,先得表?yè)P(yáng)一番,這叫“欲揚(yáng)先抑”...
    我的小宇宙閱讀 207評(píng)論 0 0