k近鄰算法采用測量不同特征值之間的距離方法進(jìn)行分類买置。
優(yōu)點(diǎn):精度高、對異常值不敏感叹誉、無數(shù)據(jù)輸入假定鸯两。
缺點(diǎn):計(jì)算復(fù)雜度高、空間復(fù)雜度高长豁。適用數(shù)據(jù)范圍:數(shù)值型和標(biāo)稱行钧唐。
工作原理:存在一個(gè)樣本數(shù)據(jù)集合,也成訓(xùn)練樣本集匠襟,并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽钝侠,即我們知道樣本集中每一數(shù)據(jù)與所屬分類的對應(yīng)關(guān)系。輸入沒有標(biāo)簽的新數(shù)據(jù)后宅此,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較机错,然后算法提取樣本集中特征最相似的數(shù)據(jù)(最近鄰)的分類標(biāo)簽。一般來說父腕,我們只選擇樣本數(shù)據(jù)集中前k個(gè)最相似的數(shù)據(jù)弱匪,這就是k-近鄰算法中k的出處,通常k是不大于20的整數(shù)璧亮。最后萧诫,選擇k個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類枝嘶。
上面就是歸一化帘饶,不歸一化,值大的相當(dāng)于權(quán)重就大群扶,而權(quán)重的大小是應(yīng)該我們?nèi)ヌ砑拥募翱蹋皇怯芍档拇笮?/p>
對于歸一化镀裤,我們一般有三種處理方法。
1缴饭、[(原值-最小值)/(最大值-最小值)]*(新的最大值-新的最小值)+新的最小值暑劝。
2、(原值-均值)/標(biāo)準(zhǔn)差
3颗搂、小數(shù)的規(guī)范化担猛,就是移動(dòng)小數(shù)點(diǎn)位,歸化到0-1之間