1.KNN(K-NearestNeighbor)介紹
(1)K最近鄰算法,本質(zhì)上基于一種數(shù)據(jù)統(tǒng)計的方法搁进。
(2)KNN是一種基于記憶、基于實例的學(xué)習(xí)影兽,屬于“慵懶”學(xué)習(xí)莱革,沒有明顯的前期訓(xùn)練過程,而是程序開始運行時捐名,把數(shù)據(jù)集加載到內(nèi)存后闹击,不需要進行訓(xùn)練,就可以開始分類赏半。每次來一個未知樣本點,就在附近找K個最近的點進行投票
2.KNN優(yōu)缺點
(1)優(yōu)點:
(2)缺點:
3.其他相關(guān)問題
(1)大規(guī)模稀疏的數(shù)據(jù)分析中拂酣,KNN的k個最近鄰該如何選擇仲义?
????答:
(2)KNN與LWR很像
準(zhǔn)備的數(shù)據(jù)集都事先打好了標(biāo)簽,一類藍色赵颅,一類紅色《⒘恚現(xiàn)在來了一個綠色待分類數(shù)據(jù)。
若K=3鸳惯,則選取離它最近三個數(shù)據(jù),顯然是兩個紅色绪商,一個藍色,這3個點進行投票腹殿,于是綠色待分類點被歸為紅色類
若K=5例书,選最近5個,這時藍色三個决采,紅色兩個树瞭,故而被分為藍色類
下圖無法用任意一條直線來模擬這個數(shù)據(jù)集,但是每個局部范圍內(nèi)的數(shù)據(jù)點卻是可以認(rèn)為在一條直線上孝偎,每次來一個未知樣本“x”凉敲,我們在X軸上以該數(shù)據(jù)樣本為中心,左右各找?guī)讉€點雨效,將這幾個點進行線性回歸废赞,算出一條局部直線叮姑,然后將未知樣本x代入這條直線,就算出了對應(yīng)的y传透,完成了一次線性回歸。
也就是群嗤,每次來一個數(shù)據(jù)點兵琳,都要訓(xùn)練一條局部直線骇径,也即訓(xùn)練一次者春,并且就使用一次。
因此晰筛,KNN與LWR(locally weighted regression “局部加權(quán)回歸”)兩者很像拴袭,都是“量身定制”為未知數(shù)據(jù),在局部進行訓(xùn)練拥刻。