K-近鄰算法
優(yōu)點(diǎn): 精度高扔傅、對(duì)異常值不敏感铅鲤、無(wú)數(shù)據(jù)輸入假定枫弟。
缺點(diǎn):計(jì)算復(fù)雜度高鹏往、空間復(fù)雜度高。
適用數(shù)據(jù)范圍:數(shù)值型和標(biāo)稱型伊履。
工作原理:
存在一個(gè)樣本數(shù)據(jù)集合,也稱之為訓(xùn)練樣本集群凶,并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽哄辣,即我們知道樣本集中每一個(gè)數(shù)據(jù)與所分類的對(duì)應(yīng)關(guān)系。
輸入沒(méi)有標(biāo)簽的新數(shù)據(jù)后毅弧,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較当窗,然后算法提取樣本集中特征最相似數(shù)據(jù)的分類標(biāo)簽。
一般來(lái)說(shuō)我們只選擇樣本數(shù)據(jù)中前k個(gè)最相似的數(shù)據(jù)元咙,這就是k-近鄰算法中k的出處,通常k是不大于20的整數(shù)庶香。最后選擇k個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類脉课,作為新數(shù)據(jù)的分類
** 一般流程:**
(1)收集數(shù)據(jù):可以使用任何方法
(2)準(zhǔn)備數(shù)據(jù):