K-近鄰算法簡介

1.K-近鄰(KNearestNeighbor,KNN)算法簡介:對于一個未知的樣本庶溶,我們可以根據(jù)離它最近的k個樣本的類別來判斷它的類別伊者。

以下圖為例略荡,對于一個未知樣本綠色小圓延届,我們可以選取離它最近的3的樣本,其中包含了2個紅色三角形荔燎,1個藍(lán)色正方形耻姥,那么我們可以判斷綠色小圓屬于紅色三角形這一類销钝。
我們也可以選取離它最近的5個樣本有咨,其中包含了3個藍(lán)色正方形,2個紅色三角形蒸健,那么我們可以判斷綠色小圓屬于藍(lán)色正方形這一類座享。

Knearestneighbors-1.jpg

2.原理簡介:對于給定一個未知樣本Xu,我們首先計算它距離數(shù)據(jù)集中每個樣本的距離d1似忧、d2......dn渣叛。然后對距離按照從小到大的順序排序碉碉,選取前k個樣本奏纪。觀察這k個樣本的分布留荔。
兩種距離計算方法:
曼哈頓距離:d = |X1-X2|
歐式距離:d = √ (x1 - x2)^2

Knearestneighbors.jpg

3.API文檔

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’, 
algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None, n_jobs=None, **kwargs)

下面我們來對KNN算法中的參數(shù)項做一個解釋說明:


'n_neighbors':選取的參考對象的個數(shù)(鄰居個數(shù))捺信,默認(rèn)值為5元潘,也可以自己指定數(shù)值,但不是n_neighbors的值越大分類效果越好抑月,最佳值需要我們做一個驗(yàn)證违崇。
'weights': 距離的權(quán)重參數(shù),默認(rèn)uniform靴跛。
'uniform': 均勻的權(quán)重缀雳,所有的點(diǎn)在每一個類別中的權(quán)重是一樣的。簡單的說梢睛,就是每個點(diǎn)的重要性都是一樣的肥印。
'distance':權(quán)重與距離的倒數(shù)成正比,距離近的點(diǎn)重要性更高绝葡,對于結(jié)果的影響也更大深碱。
'algorithm':運(yùn)算方法,默認(rèn)auto挤牛。
'auto':根絕模型fit的數(shù)據(jù)自動選擇最合適的運(yùn)算方法莹痢。
'ball_tree':樹模型算法BallTree
'kd_tree':樹模型算法KDTree
'brute':暴力算法
'leaf_size':葉子的尺寸,默認(rèn)30墓赴。只有當(dāng)algorithm = 'ball_tree' or 'kd_tree'竞膳,這個參數(shù)需要設(shè)定。
'p':閔可斯基距離诫硕,當(dāng)p = 1時坦辟,選擇曼哈頓距離;當(dāng)p = 2時章办,選擇歐式距離锉走。
n_jobs:使用計算機(jī)處理器數(shù)目,默認(rèn)為1藕届。當(dāng)n=-1時挪蹭,使用所有的處理器進(jìn)行運(yùn)算。


4.應(yīng)用案例演示
下面以Sklearn庫中自帶的數(shù)據(jù)集--手寫數(shù)字識別數(shù)據(jù)集為例休偶,來測試下kNN算法梁厉。上一章,我們簡單的介紹了機(jī)器學(xué)習(xí)的一般步驟:加載數(shù)據(jù)集 - 訓(xùn)練模型 - 結(jié)果預(yù)測 - 保存模型踏兜。這一章我們還是按照這個步驟來執(zhí)行词顾。
[手寫數(shù)字識別數(shù)據(jù)集]https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits

#導(dǎo)入我們要使用的庫
import numpy as np
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
#train_test_split可以將我們的數(shù)據(jù)集切分為訓(xùn)練集和測試集
from sklearn.model_selection import train_test_split

#加載我們要使用的數(shù)據(jù)集
digits = datasets.load_digits()
X = digits.data #獲取特征值
y = digits.target #獲取標(biāo)簽值

#切分?jǐn)?shù)據(jù)集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state = 0)
#test_size=0.3是將我們的數(shù)據(jù)集分為70%的訓(xùn)練集和30%的測試集。
#random_state = 0指定一個隨機(jī)種子碱妆,使得每次切分的訓(xùn)練集和測試集都是一致的肉盹。

#指定我們要使用的模型
knn = KNeighborsClassifier()#在此我們使用默認(rèn)值就可以。

#模型訓(xùn)練
knn.fit(X_train,y_train)
#模型預(yù)測
knn.predict(X_test[:10,:]) #預(yù)測下測試集中前10個結(jié)果
[2 8 2 6 6 7 1 9 8 5 2 8 6 6 6 6 1 0 5 8]

#模型精度評估
knn.score(X_test,y_test)
0.9814814814814815

5.模型的方法
每一種模型都有一些它獨(dú)有的屬性方法(模型的技能疹尾,能做些什么事)上忍,下面我們來了解下knn算法常用的的屬性方法骤肛。

knn.fit(X,y)#訓(xùn)練數(shù)據(jù)集
knn.get_params()#獲取當(dāng)前模型中的參數(shù)
{'algorithm': 'auto',
 'leaf_size': 30,
 'metric': 'minkowski',
 'metric_params': None,
 'n_jobs': None,
 'n_neighbors': 5,
 'p': 2,
 'weights': 'uniform'}
knn.predict(X)#預(yù)測X的結(jié)果
knn.score(X,y)#評估模型的精度

6.knn算法的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
簡單,效果還不錯窍蓝,適合多分類問題
缺點(diǎn):
效率低(因?yàn)橐嬎泐A(yù)測樣本距離每個樣本點(diǎn)的距離萌衬,然后排序),效率會隨著樣本量的增加而降低它抱。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末秕豫,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子观蓄,更是在濱河造成了極大的恐慌混移,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件侮穿,死亡現(xiàn)場離奇詭異歌径,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)亲茅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評論 3 385
  • 文/潘曉璐 我一進(jìn)店門回铛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人克锣,你說我怎么就攤上這事茵肃。” “怎么了袭祟?”我有些...
    開封第一講書人閱讀 157,435評論 0 348
  • 文/不壞的土叔 我叫張陵验残,是天一觀的道長。 經(jīng)常有香客問我巾乳,道長您没,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,509評論 1 284
  • 正文 為了忘掉前任胆绊,我火速辦了婚禮氨鹏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘压状。我一直安慰自己仆抵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,611評論 6 386
  • 文/花漫 我一把揭開白布何缓。 她就那樣靜靜地躺著肢础,像睡著了一般还栓。 火紅的嫁衣襯著肌膚如雪碌廓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,837評論 1 290
  • 那天剩盒,我揣著相機(jī)與錄音谷婆,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛纪挎,可吹牛的內(nèi)容都是我干的期贫。 我是一名探鬼主播,決...
    沈念sama閱讀 38,987評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼异袄,長吁一口氣:“原來是場噩夢啊……” “哼通砍!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起烤蜕,我...
    開封第一講書人閱讀 37,730評論 0 267
  • 序言:老撾萬榮一對情侶失蹤封孙,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后讽营,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體虎忌,經(jīng)...
    沈念sama閱讀 44,194評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,525評論 2 327
  • 正文 我和宋清朗相戀三年橱鹏,在試婚紗的時候發(fā)現(xiàn)自己被綠了膜蠢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,664評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡莉兰,死狀恐怖挑围,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情糖荒,我是刑警寧澤贪惹,帶...
    沈念sama閱讀 34,334評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站寂嘉,受9級特大地震影響奏瞬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜泉孩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,944評論 3 313
  • 文/蒙蒙 一硼端、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧寓搬,春花似錦珍昨、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,764評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至唾琼,卻和暖如春兄春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背锡溯。 一陣腳步聲響...
    開封第一講書人閱讀 31,997評論 1 266
  • 我被黑心中介騙來泰國打工赶舆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留哑姚,地道東北人。 一個月前我還...
    沈念sama閱讀 46,389評論 2 360
  • 正文 我出身青樓芜茵,卻偏偏與公主長得像叙量,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子九串,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,554評論 2 349