k近鄰算法(kNN)


1. 前言

k-鄰近算法(kNN)是機(jī)器學(xué)習(xí)中非常簡(jiǎn)潔并且易于掌握的算法技扼,是一種用于分類和回歸的非參數(shù)統(tǒng)計(jì)算法茧彤。
   本文首先介紹k-鄰近算法思想及過(guò)程邀桑,隨后介紹了kNN的Python實(shí)現(xiàn)弟断。全文基于機(jī)器學(xué)習(xí)實(shí)戰(zhàn)官硝,著重闡述作者自己的理解。此外拿愧,還參考了Scipy Lecture Notes杠河、維基百科以及許多博客。

2. 描述

2.1 工作原理

存在一個(gè)訓(xùn)練樣本集 (x,y)赶掖,每個(gè)樣本 x^(i)都有對(duì)應(yīng)的標(biāo)簽 y^(i)感猛,也就是說(shuō)七扰,對(duì)于每個(gè)訓(xùn)練樣本奢赂,我們都知道該樣本的所屬分類。此后颈走,輸入一個(gè)不帶標(biāo)簽的測(cè)試樣本數(shù)據(jù) x_new膳灶,選取訓(xùn)練樣本集中與 x_new 歐氏距離(*)最近的 $k$ 個(gè)點(diǎn),獲取這k個(gè)樣本的標(biāo)簽立由,其中出現(xiàn)次數(shù)最多的標(biāo)簽即作為 x_new的標(biāo)簽 y_new 轧钓,即:將 x_new 歸為 y_new 類。其中锐膜,k <=20毕箍,y_new屬于y。

  • 歐氏距離:即幾何距離道盏。如:$(0, 0, 0)$ 與 $(1, 2, 3)$ 的歐氏距離為$d = \sqrt{(1-0)^2 + (2-0)^2 + (3-0)^2}$

2.2 算法描述

  1. 計(jì)算分類未知數(shù)據(jù) x_new 與訓(xùn)練樣本集數(shù)據(jù) x 的歐氏距離 distance
  2. 將 distance 遞增排序
  3. 選取 distance 的前 k 個(gè)點(diǎn)
  4. 選取前 k 個(gè)點(diǎn)中而柑,出現(xiàn)頻率最高的類別 y 作為 x_new的分類

3. Python實(shí)現(xiàn)

import numpy as np
import os
from collections import Counter

3.1 數(shù)據(jù)導(dǎo)入

3.1.1 使用NumPy導(dǎo)入數(shù)據(jù)

使用np.loadtxt()可以讀取被空格隔開(kāi)的數(shù)據(jù)。

def read_file(file_path):
    file = np.loadtxt(file_path) # 讀取txt文件
    feature = file[:, :-1]  # 前n-1列構(gòu)成特征矩陣
    label = file[:, -1]     # 最后一列構(gòu)成標(biāo)簽向量
    return feature, label

3.1.2 將32*32的文本格式照片轉(zhuǎn)換為向量

def img_to_vector(file_path):
    lines = 32 # 像素大小
    with open(file_path) as f: # 用這種形式荷逞,將自動(dòng)執(zhí)行f.close()
        data = list() # 生成一個(gè)空的list
        # 使用f.readline()逐行遍歷文本媒咳,添加到data后
        for i in range(lines):
            data.append(list(f.readline())[:lines])
        # 循環(huán)結(jié)束后,生成一個(gè)32*32矩陣
        return_vector = np.array(data).ravel() # 將矩陣扁平化為一個(gè)向量
    return return_vector

3.1.3 讀取文件夾种远,生成訓(xùn)練樣本矩陣

def read_digits(file_path):
    file_lists = os.listdir(file_path) # 讀取文件夾下所有文件名涩澡,生成list
    file_num = file_lists.__len__() # 文件數(shù)m
    matrix = np.zeros((file_num, 1024), dtype=np.int) # 生成矩陣(m*2014)
    for i in range(file_lists.__len__()):
        abs_file_path = file_path + file_lists[i] # 文件絕對(duì)路徑
        vector = img_to_vector(abs_file_path) # 獲取文件生成的向量
        matrix[i] = vector # 為矩陣(m*2014)賦值
    return matrix

3.2 歸一化數(shù)據(jù)

樣本歸一化的作用,是將任意取值范圍的特征值轉(zhuǎn)換為0到1區(qū)間內(nèi)的值坠敷。
  new_value = (old_value - min) / (max - min)

def auto_norm(data_mat):
    min_column = np.min(data_mat, axis=0) # 獲取每一列的最小值
    max_column = np.max(data_mat, axis=0) # 獲取每一列的最大值
    range_column = max_column - min_column # 獲取每一列的取值范圍(max - min)
    data_mat = data_mat - min_column # (old_value - min)
    norm_feature_mat = np.true_divide(data_mat, range_column)
    return norm_feature_mat

3.3 計(jì)算距離

# x為待測(cè)試點(diǎn)妙同,point為訓(xùn)練樣本集中的點(diǎn)
# NumPy數(shù)組可以進(jìn)行許多便捷的操作
def cal_distance(x, point):
    temp = (point - x)**2
    return temp.sum(axis=1)

3.4 分類

# in_x 測(cè)試數(shù)據(jù)射富,可以不止一組
# data_set, labels 分別為訓(xùn)練集和訓(xùn)練集標(biāo)簽
# k 不必贅述
def classify(in_x, data_set, labels , k):
    result_labels = np.zeros((in_x.shape[0], ), dtype=np.int) # 分類結(jié)果向量
    for i in range(in_x.shape[0]):
        distance = cal_distance(in_x[i], data_set) # 計(jì)算距離
        mask = distance.argsort()[:k] # 選取前k個(gè)點(diǎn)
        k_array = labels[mask] # 利用掩碼獲取k個(gè)點(diǎn)的標(biāo)簽
        result_labels[i] = Counter(k_array).most_common(1)[0][0] # 獲取出現(xiàn)頻率最高的標(biāo)簽
    return result_labels

作者郵箱: mr.yxj@foxmail.com
轉(zhuǎn)載請(qǐng)告知作者,感謝粥帚!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末辉浦,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子茎辐,更是在濱河造成了極大的恐慌宪郊,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拖陆,死亡現(xiàn)場(chǎng)離奇詭異弛槐,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)依啰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)乎串,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人速警,你說(shuō)我怎么就攤上這事叹誉。” “怎么了闷旧?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵长豁,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我忙灼,道長(zhǎng)匠襟,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任该园,我火速辦了婚禮酸舍,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘里初。我一直安慰自己啃勉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布双妨。 她就那樣靜靜地躺著淮阐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪斥难。 梳的紋絲不亂的頭發(fā)上枝嘶,一...
    開(kāi)封第一講書(shū)人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音哑诊,去河邊找鬼群扶。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的竞阐。 我是一名探鬼主播缴饭,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼骆莹!你這毒婦竟也來(lái)了颗搂?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤幕垦,失蹤者是張志新(化名)和其女友劉穎丢氢,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體先改,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡疚察,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了仇奶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片貌嫡。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖该溯,靈堂內(nèi)的尸體忽然破棺而出岛抄,到底是詐尸還是另有隱情,我是刑警寧澤狈茉,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布夫椭,位于F島的核電站,受9級(jí)特大地震影響论皆,放射性物質(zhì)發(fā)生泄漏益楼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一点晴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧悯周,春花似錦粒督、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至闰挡,卻和暖如春锐墙,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背长酗。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工溪北, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓之拨,卻偏偏與公主長(zhǎng)得像茉继,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蚀乔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 一烁竭、實(shí)驗(yàn)?zāi)康?學(xué)習(xí)使用 weka 中的常用分類器,完成數(shù)據(jù)分類任務(wù)吉挣。 二派撕、實(shí)驗(yàn)內(nèi)容 了解 weka 中 explo...
    yigoh閱讀 8,528評(píng)論 5 4
  • 機(jī)器學(xué)習(xí)是做NLP和計(jì)算機(jī)視覺(jué)這類應(yīng)用算法的基礎(chǔ),雖然現(xiàn)在深度學(xué)習(xí)模型大行其道睬魂,但是懂一些傳統(tǒng)算法的原理和它們之間...
    在河之簡(jiǎn)閱讀 20,505評(píng)論 4 65
  • 路過(guò)腥刹,其實(shí)并不遺憾,遺憾的是相識(shí)以后汉买,發(fā)現(xiàn)你很適合衔峰,我們卻花開(kāi)兩朵,天各一方蛙粘。 豬頭在燕子離去時(shí)垫卤,奮力追趕的身影,...
    鄒靖閱讀 369評(píng)論 2 3