KNN

1. 常規(guī)流程

導(dǎo)包 --> 實(shí)例化模型對象(有參:k) --> 拆分訓(xùn)練與測試集 --> 擬合(訓(xùn)練)模型 --> 評估 --> 參數(shù)調(diào)優(yōu)

1.1 必導(dǎo)包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"  #全部輸出

1.2 實(shí)例化對象

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)

1.3 引入數(shù)據(jù),以乳腺癌數(shù)據(jù)為例

from sklearn.datasets import load_breast_cance
cancer = load_breast_cancer()
X = pd.DataFrame(cancer.data,columns=name) #模型輸入為二維齿穗,ndarray和DF都可以傲隶,DF方便觀察
y = cancer.target

1.4 切分?jǐn)?shù)據(jù)、擬合窃页、預(yù)測跺株、評估

# 切分?jǐn)?shù)據(jù)
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split (X,y,random_state = 0)


# 擬合
knn.fit(X_train,y_train)

# 預(yù)測
knn.predict(預(yù)測數(shù)據(jù))

# 評估
knn.score(X_test,y_test)
print("knn.score(): \n{:.2f}".format(knn.score(X_test,y_test)))

2. K的參數(shù)調(diào)節(jié)

train_acc = []
test_acc = []

# n_neighbors取值從1到10 
neighbors_settings = range(2, 31)

for k in neighbors_settings:
    clf = KNeighborsClassifier(n_neighbors=k)
    clf.fit(X_train,y_train)
    train_acc.append(clf.score(X_train,y_train))
    test_acc.append(clf.score(X_test,y_test))
    
plt.plot(neighbors_settings,train_acc,label="training accuracy")
plt.plot(neighbors_settings, test_acc, label="test accuracy") 
plt.ylabel("Accuracy")
plt.xlabel("K") 
plt.legend()
#注意,切分的隨機(jī)數(shù)種子會(huì)影響學(xué)習(xí)參數(shù)曲線脖卖,
np.argmax(test_acc) #返回最大值對應(yīng)索引乒省,K從2開始,所以15對應(yīng)K=17

3. 交叉驗(yàn)證: 為了解決knn.score評估結(jié)果不穩(wěn)定畦木,K也就不穩(wěn)定

3.1 實(shí)現(xiàn)流程

from sklearn.model_selection import cross_val_score

scores = cross_val_score(knn, cancer.data, cancer.target,cv=5) #默認(rèn)5折 作儿,參數(shù):模型,X馋劈,y攻锰,幾折
print("scores: {}".format(scores))

mean_score = scores.mean()
print("mean_scores: {:.2f}".format(mean_score))

3.2 在學(xué)習(xí)曲線中用交叉驗(yàn)證


train_acc = []
test_acc = []
cross_acc = []

# n_neighbors取值從2到30 
neighbors_settings = range(2, 31)

for k in neighbors_settings:
    clf = KNeighborsClassifier(n_neighbors=k)
    clf.fit(X_train,y_train)
    train_acc.append(clf.score(X_train,y_train))
    test_acc.append(clf.score(X_test,y_test))
    cross_acc.append(cross_val_score(clf, cancer.data, cancer.target,cv=5).mean())
#交叉驗(yàn)證用的數(shù)據(jù)集最好用切分后的訓(xùn)練集械姻,因?yàn)槭潜浑S機(jī)打亂過的
    
plt.plot(neighbors_settings,train_acc,label="training accuracy")
plt.plot(neighbors_settings, test_acc, label="test accuracy") 
plt.plot(neighbors_settings, cross_acc, label="cross accuracy") 
plt.ylabel("Accuracy")
plt.xlabel("K")
plt.legend()

np.argmax(cross_acc) #返回最大值對應(yīng)索引吏奸,K從2開始,所以11對應(yīng)K=13

4. 歸一化(0-1標(biāo)準(zhǔn)化)

  • 公式:(x-min)/(max-min)
  • 為了解決單個(gè)數(shù)據(jù)維度過大影響結(jié)果的問題,譬如身高與身價(jià)分別作x,y求距離時(shí),身高影響非常小
  • 結(jié)果相當(dāng)于比例關(guān)系
  • 語法:

fit(self, X[, y]): 生成標(biāo)準(zhǔn)化的規(guī)則

transform(self, X): 根據(jù)上面生成的規(guī)則,對數(shù)據(jù)進(jìn)行轉(zhuǎn)換

fit_transform(self, X[, y]): 把上面兩步合并成一步

4.1 流程

# 導(dǎo)包 --> 實(shí)例化 --> fit(被拆分過的訓(xùn)練集) --> 分別對訓(xùn)練集和測試集標(biāo)準(zhǔn)化
from sklearn.preprocessing import MinMaxScaler
minmax = MinMaxScaler()

# 先fit學(xué)習(xí)訓(xùn)練集的數(shù)據(jù)信息(最大最小值等)砚作,然后以此去標(biāo)準(zhǔn)化,測試集永遠(yuǎn)沒有fit
minmax.fit(X_train)  #fit只能對訓(xùn)練集,即使是對測試集轉(zhuǎn)化也是用這個(gè)
X_train_minmax =  minmax.transform(X_train) #ndarray
X_test_minmax = minmax.transform(X_test) 

# 或者  minmax.fit_transform(X_train, X_train) 一步完成

4.2 用標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行訓(xùn)練調(diào)參

# 用標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行訓(xùn)練評估
# 在學(xué)習(xí)曲線中用交叉驗(yàn)證
train_acc = []
test_acc = []
cross_acc = []

# n_neighbors取值從2到30 
neighbors_settings = range(2, 31)

for k in neighbors_settings:
    clf = KNeighborsClassifier(n_neighbors=k)
    clf.fit(X_train_minmax,y_train)
    train_acc.append(clf.score(X_train_minmax,y_train))
    test_acc.append(clf.score(X_test_minmax,y_test))
    cross_acc.append(cross_val_score(clf, X_train_minmax, y_train,cv=5).mean())
    
plt.plot(neighbors_settings,train_acc,label="training accuracy")
plt.plot(neighbors_settings, test_acc, label="test accuracy") 
plt.plot(neighbors_settings, cross_acc, label="cross accuracy") 
plt.ylabel("Accuracy")
plt.xlabel("K")
plt.legend()

取最優(yōu)結(jié)果及其索引

max_score = np.max(cross_acc)
max_index = np.argmax(cross_acc) # 然后輸出值+2 重新建模得到最優(yōu)模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌冗恨,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谱轨,死亡現(xiàn)場離奇詭異工坊,居然都是意外死亡王污,警方通過查閱死者的電腦和手機(jī)阱驾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來隧甚,“玉大人咖城,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵退子,是天一觀的道長丸凭。 經(jīng)常有香客問我向拆,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任都毒,我火速辦了婚禮腌且,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘喘鸟。我一直安慰自己,他們只是感情好什黑,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布愕把。 她就那樣靜靜地躺著嚣镜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪佩厚。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天,我揣著相機(jī)與錄音嵌巷,去河邊找鬼萄凤。 笑死,一個(gè)胖子當(dāng)著我的面吹牛搪哪,可吹牛的內(nèi)容都是我干的靡努。 我是一名探鬼主播,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼晓折,長吁一口氣:“原來是場噩夢啊……” “哼惑朦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起漓概,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤漾月,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后胃珍,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梁肿,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年堂鲜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了栈雳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,716評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡缔莲,死狀恐怖哥纫,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤蛀骇,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布厌秒,位于F島的核電站,受9級(jí)特大地震影響擅憔,放射性物質(zhì)發(fā)生泄漏鸵闪。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一暑诸、第九天 我趴在偏房一處隱蔽的房頂上張望蚌讼。 院中可真熱鬧,春花似錦个榕、人聲如沸篡石。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽凰萨。三九已至,卻和暖如春械馆,著一層夾襖步出監(jiān)牢的瞬間胖眷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工霹崎, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留珊搀,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓仿畸,卻偏偏與公主長得像食棕,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子错沽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內(nèi)容