機器學(xué)習(xí):K近鄰算法

本文來自同步博客刘莹。

P.S. 不知道簡書怎么顯示數(shù)學(xué)公式以及更好的排版內(nèi)容阎毅。所以如果覺得文章下面格式亂的話請自行跳轉(zhuǎn)到上述鏈接。后續(xù)我將不再對數(shù)學(xué)公式進行截圖点弯,畢竟行內(nèi)公式截圖的話排版會很亂扇调。看原博客地址會有更好的體驗抢肛。

本文內(nèi)容介紹機器學(xué)習(xí)的K近鄰算法狼钮,用它處理分類問題。分類問題的目標(biāo)是利用采集到的已經(jīng)經(jīng)過分類處理的數(shù)據(jù)來預(yù)測新數(shù)據(jù)屬于何種類別捡絮。

K近鄰算法

K近鄰算法對給定的某個新數(shù)據(jù)熬芜,讓它與采集到的樣本數(shù)據(jù)點分別進行比較福稳,從中選擇最相似的K個點,然后統(tǒng)計這K個點中出現(xiàn)的各個類別的頻數(shù)鼓拧,并判定頻數(shù)最高的類別作為新數(shù)據(jù)所屬的類別季俩。

這里有個問題是如何判定樣本數(shù)據(jù)與新數(shù)據(jù)是否相似。常用的一種計算方法叫歐幾里得距離店归。

歐幾里得距離(Euclidean Distance)

假設(shè)有兩個數(shù)據(jù)分別是:- X = (x\_1,x\_2,...,x\_n) -- Y = (y\_1,y\_2,...,y\_n) -赂韵。則-X--Y-的距離為:

D = \sqrt{\sum\_{i=1}^{n}(x\_i-y\_i)^2}

Python實現(xiàn)這個式子代碼如下:

def euclidean_distance(x, y):
    if len(x) != len(y):
        warnings.warn('Input error')
    return sqrt( sum( [(x[i] - y[i])**2 for i in range(0, len(x))] ) )

print(euclidean_distance([1,2,3], [2,4,5]))

NumPy提供則可以用下面方法計算兩個ndarray的距離:

np.linalg.norm(np.array([1,2,3]) - np.array([2,4,5]))

實現(xiàn)K近鄰算法

接下來依照上面描述的算法原理實現(xiàn)K近鄰算法祭示。先定義一下輸入數(shù)據(jù)的格式:

#二維測試數(shù)據(jù)的格式
dataset = {'k': [[1,2],[2,3],[3,1]], 'r':[[6,5],[7,7],[8,6]]}
new_features = [5,7]

我們假定樣本數(shù)據(jù)的結(jié)構(gòu)如dataset為一個字典類型的數(shù)據(jù)质涛,字典的元素的關(guān)鍵字為類型名稱汇陆,元素值為一個包含該類型所有樣本點的列表。新數(shù)據(jù)為一個數(shù)據(jù)點阅羹。

所以K近鄰算法的實現(xiàn)如下:

# KNN實現(xiàn)
def k_nearest_neighbors(data, predict, k=3):
    if len(data) >= k:
        warnings.warn('K less than total voting groups')
    # 計算距離
    distances = []
    for group in data:
        for features in data[group]:
            #distance = euclidean_distance(features, predict)
            distance = np.linalg.norm(np.array(features)-np.array(predict))
            distances.append([distance, group])
    # 排序后取前k項數(shù)據(jù)類別構(gòu)成新數(shù)組
    votes = [i[1] for i in sorted(distances)[:k]]
    # 統(tǒng)計數(shù)組中頻數(shù)最高的類別
    vote_result = Counter(votes).most_common(1)[0][0]
    return vote_result

# 調(diào)用KNN
result = k_nearest_neighbors(dataset, new_features, k=3)
print(result)

使用真實數(shù)據(jù)測試

UCI網(wǎng)站的機器學(xué)習(xí)數(shù)據(jù)庫中可以找到Breast Cancer Wisconsin(Original)的真實統(tǒng)計數(shù)據(jù)教寂。數(shù)據(jù)可以從這個鏈接下載,數(shù)據(jù)的描述可以看這個鏈接导梆。

看到數(shù)據(jù)描述中提到了數(shù)據(jù)每一列的定義如下:


乳癌數(shù)據(jù)描述

這份數(shù)據(jù)的預(yù)測目標(biāo)是判斷給定特征數(shù)據(jù)對應(yīng)的乳癌情況迂烁,2表示良性、4表示惡性藏斩。

根據(jù)描述我們先處理一下下載到的數(shù)據(jù)却盘,給它的每一列加上個列名窜觉。這樣在Python里面就可以把它當(dāng)成一個CSV文件處理。我這里把它保存到了一個名為breast-cancer-wisconsin.data的文件里旬陡。形狀如下:

數(shù)據(jù)格式

數(shù)據(jù)里面還有一些統(tǒng)計不到的數(shù)據(jù)驶睦,用英文問號?表示匿醒。還有一個很奇怪的現(xiàn)象是數(shù)據(jù)讀取進來后有些數(shù)字會被處理成字符串類型廉羔,如'1'這樣的數(shù)據(jù)。這些都需要我們提前處理一下孩饼。

df = pd.read_csv('./dataset/breast-cancer-wisconsin.data')
# 處理問號
df.replace('?', -99999, inplace=True)
# id字段不應(yīng)該當(dāng)成一個統(tǒng)計特征字段镀娶,因此去除該列的內(nèi)容
df.drop(['id'], 1, inplace=True)
# 源數(shù)據(jù)有部分?jǐn)?shù)據(jù)是字符串揪罕,如'1',這對我們的模型有影響轩娶,所以整理一下類型
# 用列表存放數(shù)據(jù)
full_data = df.astype(float).values.tolist()
random.shuffle(full_data) # 洗亂數(shù)據(jù)

接下來生成訓(xùn)練數(shù)據(jù)集和統(tǒng)計數(shù)據(jù)集坎怪,代碼如下:

# 生成訓(xùn)練數(shù)據(jù)集和統(tǒng)計數(shù)據(jù)集
test_size = 0.2
train_set = {2:[], 4:[]} # 訓(xùn)練集搅窿,占80%
test_set = {2:[], 4:[]} # 統(tǒng)計集嘁酿,占20%
train_data = full_data[:-int(test_size*len(full_data))]
test_data = full_data[-int(test_size*len(full_data)):]
for i in train_data:
    train_set[i[-1]].append(i[:-1])
for i in test_data:
    test_set[i[-1]].append(i[:-1])

最后男应,利用上述KNN函數(shù)統(tǒng)計測試數(shù)據(jù)的準(zhǔn)確性闹司。

correct = 0
total = 0
for group in test_set:
    for data in test_set[group]:
        vote = k_nearest_neighbors(train_set, data, k=5)
        if group == vote:
            correct += 1
        total += 1
# 打印結(jié)果
print('correct: ', correct)
print('total: ', total)
print('Accuracy: ', correct/total)

完整代碼請查看github鏈接

sklearn的K近鄰算法

同樣需要先處理一下數(shù)據(jù)并生成符合sklearn的輸入格式的數(shù)據(jù)集游桩。

from sklearn import model_selection
# 讀取乳癌統(tǒng)計數(shù)據(jù)
df = pd.read_csv('./dataset/breast-cancer-wisconsin.data')
# 處理問號
df.replace('?', -99999, inplace=True)
# 因為ID字段與分類無關(guān)牲迫,所以去除他先,稍后我們看一下它的影響
df.drop(['id'], 1, inplace=True)
df = df.astype(float)

# 生成數(shù)據(jù)集
X = np.array(df.drop(['class'], 1))
y = np.array(df['class'])
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.2)

然后生成KNN模型對象借卧,用數(shù)據(jù)訓(xùn)練模型,評估模型準(zhǔn)確性铐刘。

from sklearn import neighbors
# 構(gòu)建模型與訓(xùn)練
clf = neighbors.KNeighborsClassifier()
clf.fit(X_train, y_train)

# 計算精確度
accuracy = clf.score(X_test, y_test)
print('Accuracy: ', accuracy)

# 預(yù)測我們自己構(gòu)造的數(shù)據(jù)屬于哪個類型
example_measures = np.array([[4,2,1,1,1,2,3,2,1],[2,3,4,4,1,2,3,4,1]])
prediction = clf.predict(example_measures)
print('Predict resuct: ', prediction)

完整代碼請查看github鏈接陪每。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市镰吵,隨后出現(xiàn)的幾起案子檩禾,更是在濱河造成了極大的恐慌疤祭,老刑警劉巖盼产,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件戏售,死亡現(xiàn)場離奇詭異草穆,居然都是意外死亡续挟,警方通過查閱死者的電腦和手機紧卒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來直颅,“玉大人博个,你說我怎么就攤上這事」Τィ” “怎么了盆佣?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長械荷。 經(jīng)常有香客問我共耍,道長,這世上最難降的妖魔是什么吨瞎? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任痹兜,我火速辦了婚禮,結(jié)果婚禮上颤诀,老公的妹妹穿的比我還像新娘字旭。我一直安慰自己对湃,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布遗淳。 她就那樣靜靜地躺著拍柒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪屈暗。 梳的紋絲不亂的頭發(fā)上斤儿,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天,我揣著相機與錄音恐锦,去河邊找鬼。 笑死疆液,一個胖子當(dāng)著我的面吹牛一铅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播堕油,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼潘飘,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掉缺?” 一聲冷哼從身側(cè)響起卜录,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎眶明,沒想到半個月后艰毒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡搜囱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年丑瞧,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜀肘。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡绊汹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扮宠,到底是詐尸還是另有隱情西乖,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布坛增,位于F島的核電站获雕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏收捣。R本人自食惡果不足惜典鸡,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望坏晦。 院中可真熱鬧萝玷,春花似錦嫁乘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至睁冬,卻和暖如春挎春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背豆拨。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工直奋, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人施禾。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓脚线,卻偏偏與公主長得像,于是被迫代替她去往敵國和親弥搞。 傳聞我的和親對象是個殘疾皇子邮绿,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容