機(jī)器學(xué)習(xí)算法之KNN(k-近鄰算法)

工作原理:(近朱者赤,近墨者黑)
存在一個(gè)樣本數(shù)據(jù)集合,也稱作訓(xùn)練樣本集,并且樣本集中每個(gè)數(shù)據(jù)都存在標(biāo)簽途戒,即我們知道樣本集中每一數(shù)據(jù)與所屬分類的對(duì)應(yīng)關(guān)系。輸入沒有標(biāo)簽的新數(shù)據(jù)后僵驰,將新數(shù)據(jù)的每個(gè)特征與樣本集中數(shù)據(jù)對(duì)應(yīng)的特征進(jìn)行比較然后算法提取樣本集中特征最相近數(shù)據(jù)(最近鄰)的分類標(biāo)簽。我們只選擇樣本數(shù)據(jù)集中前k個(gè)最相似的數(shù)據(jù),這也是為什么叫k-近鄰算法的出處蒜茴。最后星爪,選擇k個(gè)最相似的數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類粉私。簡化說就是在樣本空間當(dāng)中找到與樣本A最接近的k個(gè)樣本顽腾,假設(shè)在這個(gè)k個(gè)樣本絕大多數(shù)屬于C分類,則樣本A也屬于分類C

算法偽代碼描述:

  1. 計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)的距離诺核;
  2. 按照距離遞增的次序排序抄肖;
  3. 選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn);
  4. 確定前k個(gè)點(diǎn)所在類別出現(xiàn)的頻率窖杀;
  5. 返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測分類漓摩。

計(jì)算兩個(gè)向量點(diǎn)之間的距離采用歐氏距離公式:
sqrt((xa - xb)2 + (ya - yb)2)

python代碼實(shí)現(xiàn):

def classify0(inX, dataSet, labels, k):
    # shape 返回一個(gè)整型數(shù)字的元組,元組中的每個(gè)元素表示相應(yīng)的數(shù)組每一維的長度
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2

    # axis=1是將一個(gè)矩陣的每一行向量相加
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.5
    # 返回從小到大排序的索引
    sortedDistIndicies = distances.argsort() 

    # 創(chuàng)建一個(gè)字典入客,用于存儲(chǔ)前K個(gè)點(diǎn)所出現(xiàn)的頻率
    classCount = {}
    for i in range(k):
        voteLabel = labels[sortedDistIndicies[i]]
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1

    # 排序后返回的是一個(gè)List管毙,而原字典中的鍵值對(duì)被轉(zhuǎn)換為了list中的元組。
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

但由于計(jì)算距離的時(shí)桌硫,數(shù)字差值最大的屬性對(duì)計(jì)算的結(jié)果影響最大夭咬,但每個(gè)特征是同等重要的,在處理這種不同取值范圍的特征值時(shí)铆隘,我們通常采用的方法是將數(shù)值歸一化卓舵,如將取值范圍處理為0到1或者-1到1之間。下面的公式可以將任意取值范圍的特征值轉(zhuǎn)化為0到1區(qū)間內(nèi)的值:

newValue = (oldValue - minValue) / (maxValue - minValue)

python代碼實(shí)現(xiàn):

# 數(shù)據(jù)歸一化:newValue = (oldValue - minValue) / (maxValue - minValue)
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals  # (maxValue - minValue)
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]  # return number of line
    normDataSet = dataSet - tile(minVals, (m, 1))  # (oldValue - minValue)
    normDataSet = normDataSet / tile(ranges, (m, 1))  # (oldValue - minValue) / (maxValue - minValue)
    return normDataSet, ranges, minVals

k-近鄰算法是分類數(shù)據(jù)最簡單最有效的算法膀钠,k-近鄰算法是基于實(shí)例的學(xué)習(xí)掏湾,使用算法時(shí)我們必須有接近實(shí)際數(shù)據(jù)的訓(xùn)練樣本數(shù)據(jù)。k-近鄰算法必須保存全部數(shù)據(jù)集托修,如果訓(xùn)練數(shù)據(jù)集很大忘巧,必須使用大量的存儲(chǔ)空間。此外睦刃,由于必須對(duì)數(shù)據(jù)集中每個(gè)數(shù)據(jù)計(jì)算距離值砚嘴,實(shí)際使用時(shí)可能非常耗時(shí)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末涩拙,一起剝皮案震驚了整個(gè)濱河市际长,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌兴泥,老刑警劉巖工育,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異搓彻,居然都是意外死亡如绸,警方通過查閱死者的電腦和手機(jī)嘱朽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來怔接,“玉大人搪泳,你說我怎么就攤上這事《笃辏” “怎么了岸军?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長瓦侮。 經(jīng)常有香客問我艰赞,道長,這世上最難降的妖魔是什么肚吏? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任方妖,我火速辦了婚禮,結(jié)果婚禮上须喂,老公的妹妹穿的比我還像新娘吁断。我一直安慰自己,他們只是感情好坞生,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布仔役。 她就那樣靜靜地躺著,像睡著了一般是己。 火紅的嫁衣襯著肌膚如雪又兵。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天卒废,我揣著相機(jī)與錄音沛厨,去河邊找鬼。 笑死摔认,一個(gè)胖子當(dāng)著我的面吹牛逆皮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播参袱,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼电谣,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了抹蚀?” 一聲冷哼從身側(cè)響起剿牺,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎环壤,沒想到半個(gè)月后晒来,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡郑现,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年湃崩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荧降。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡竹习,死狀恐怖誊抛,靈堂內(nèi)的尸體忽然破棺而出列牺,到底是詐尸還是另有隱情整陌,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布瞎领,位于F島的核電站泌辫,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏九默。R本人自食惡果不足惜震放,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望驼修。 院中可真熱鬧殿遂,春花似錦、人聲如沸乙各。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽耳峦。三九已至恩静,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蹲坷,已是汗流浹背驶乾。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留循签,地道東北人级乐。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像县匠,于是被迫代替她去往敵國和親风科。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容