KNN+交叉驗(yàn)證

復(fù)習(xí)

機(jī)器學(xué)習(xí)概述
- 概念
- 樣本
特征工程
- 概念
- 作用
- 特征抽取
  - 特征值化
  - one-hot
  - jieba分詞
- 特征的預(yù)處理
  - 歸一化
  - 標(biāo)準(zhǔn)化
- 特征選擇
  - PCA
  - 方差過(guò)濾
機(jī)器學(xué)習(xí)基礎(chǔ)
- 數(shù)據(jù)集的獲取
  - sklearn
- 數(shù)據(jù)集的切分
  - 訓(xùn)練集
  - 測(cè)試集
- 數(shù)據(jù)類型
  - 離散型
  - 連續(xù)性
- 回歸問(wèn)題
  - 回歸模型
- 分類問(wèn)題
  - 分類模型

KNN分類模型

分類：將一個(gè)未知?dú)w類的樣本歸屬到某一個(gè)已知的類群中
預(yù)測(cè)：可以根據(jù)數(shù)據(jù)的規(guī)律計(jì)算出一個(gè)未知的數(shù)據(jù)
概念：
- K-近鄰算法采用測(cè)量不同特征值之間的距離方法進(jìn)行分類（k-Nearest Neighbor，KNN）
k值的作用及取值

k值:模型的超參數(shù)
模型的超參數(shù):如果模型類中的相關(guān)參數(shù)的不同，會(huì)導(dǎo)致分類或者回歸效果的不同
- K值較小瞳遍，則模型復(fù)雜度較高似扔，容易發(fā)生過(guò)擬合，學(xué)習(xí)的估計(jì)誤差會(huì)增大辆毡，預(yù)測(cè)結(jié)果對(duì)近鄰的實(shí)例點(diǎn)非常敏感赞赖。
- K值較大可以減少學(xué)習(xí)的估計(jì)誤差，但是學(xué)習(xí)的近似誤差會(huì)增大通砍，與輸入實(shí)例較遠(yuǎn)的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用贾铝，使預(yù)測(cè)發(fā)生錯(cuò)誤，k值增大模型的復(fù)雜度會(huì)下降埠帕。
- 在應(yīng)用中垢揩，k值一般取一個(gè)比較小的值，通常采用交叉驗(yàn)證法來(lái)來(lái)選取最優(yōu)的K值敛瓷。

適用場(chǎng)景
- 小數(shù)據(jù)場(chǎng)景叁巨，樣本為幾千，幾萬(wàn)的

歐幾里得距離(Euclidean Distance)
常見(jiàn)距離量度呐籽，衡量多維空間中各個(gè)點(diǎn)之間的絕對(duì)距離

歐幾里得距離.png

#案例：電影分類
import pandas as pd
df=pd.read_excel('./datasets/my_films.xlsx')  #讀數(shù)據(jù)
df.head()
feature=df[['Action Lens','Love Lens']] #特征
target=df['target'] #標(biāo)簽

from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=3) #k=3
knn.fit(feature,target) #訓(xùn)練
#使用模型做分類
knn.predict([[60,55]])#測(cè)試電影類型 ['Action Lens','Love Lens'] 二維數(shù)組
#輸出結(jié)果：
array(['Action'], dtype=object)

算法描述：

1）計(jì)算測(cè)試數(shù)據(jù)與各個(gè)訓(xùn)練數(shù)據(jù)之間的距離锋勺；

2）按照距離的遞增關(guān)系進(jìn)行排序；

3）選取距離最小的K個(gè)點(diǎn)狡蝶；

4）確定前K個(gè)點(diǎn)所在類別的出現(xiàn)頻率庶橱；

5）返回前K個(gè)點(diǎn)中出現(xiàn)頻率最高的類別作為測(cè)試數(shù)據(jù)的預(yù)測(cè)分類。

在scikit-learn庫(kù)中使用k-近鄰算法

分類問(wèn)題：from sklearn.neighbors import KNeighborsClassifier
鳶尾花分類的實(shí)現(xiàn)

from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
import sklearn.datasets as datasets
from sklearn.model_selection import train_test_split

#1.捕獲鳶尾花數(shù)據(jù)
iris = datasets.load_iris()
#2.提取樣本數(shù)據(jù)
feature = iris.data
target = iris.target
feature.shape #(150,4)
target.shape #(150,)
#3.數(shù)據(jù)集進(jìn)行拆分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)'
x_train.shape #(120,4)
y_train.shape'#(120,)
#4.觀察數(shù)據(jù)集：看是否需要進(jìn)行特征工程的處理
x_train
#5.實(shí)例化模型對(duì)象
knn = KNeighborsClassifier(n_neighbors=5)
#6.使用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型
#X:特征（特征數(shù)據(jù)的維度必須是二維（表格型數(shù)據(jù)）） #x_train.shape  (120,4)
#y:標(biāo)簽
knn.fit(x_train,y_train) #訓(xùn)練集
#7.測(cè)試模型：使用測(cè)試數(shù)據(jù)
knn.score(x_test,y_test) #0.9  受k影響
#8.使用模型進(jìn)行分類
print('真實(shí)的分類結(jié)果:',y_test)
print('模型的分類結(jié)果:',knn.predict(x_test))
#輸出結(jié)果：
真實(shí)的分類結(jié)果: [2 0 1 1 1 2 2 1 0 0 2 2 0 2 2 0 1 1 2 0 0 2 1 0 2 1 1 1 0 0]
模型的分類結(jié)果: [2 0 1 1 1 1 2 1 0 0 2 1 0 2 2 0 1 1 2 0 0 2 2 0 2 1 1 1 0 0]

預(yù)測(cè)年收入是否大于50K美元

from sklearn.preprocessing import StandardScaler,MinMaxScaler
df = pd.read_csv('./datasets/adults.txt')
df.head()

#使用one-hot的形式
#1.提取樣本數(shù)據(jù)
feature = df[['age','education_num','occupation','hours_per_week']]
target = df['salary']
#2.特征工程-特征值化
one_hot_feature = pd.concat((feature[['age','education_num','hours_per_week']],pd.get_dummies(feature['occupation'])),axis=1)
#特征的預(yù)處理
s = StandardScaler()
s_feature = s.fit_transform(one_hot_feature)
#3.切分?jǐn)?shù)據(jù)集
x_train,x_test,y_train,y_test = train_test_split(s_feature,target,test_size=0.2,random_state=20)
#4.實(shí)例化模型對(duì)象
knn = KNeighborsClassifier(30)
knn.fit(x_train,y_train) #訓(xùn)練集
knn.score(x_test,y_test) #測(cè)試數(shù)據(jù)

#
#1.提取樣本數(shù)據(jù)
feature = df[['age','education_num','occupation','hours_per_week']]
target = df['salary']

count = 1
dic = {}
for occ in feature['occupation'].unique().tolist():
    dic[occ] = count
    count += 1
feature['occupation'] = feature['occupation'].map(dic)
#數(shù)據(jù)集切分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=20)
knn = KNeighborsClassifier(n_neighbors=30) #實(shí)例化對(duì)象
knn.fit(x_train,y_train) #訓(xùn)練集
knn.score(x_test,y_test) #測(cè)試數(shù)據(jù)
#使用模型對(duì)未知數(shù)據(jù)分類
print('真實(shí)分類結(jié)果:',y_test[0:10])
print('模型分類結(jié)果:',knn.predict(x_test)[0:10])

k-近鄰算法之約會(huì)網(wǎng)站配對(duì)效果判定（datingTestSet.txt）

#讀數(shù)據(jù)
df = pd.read_csv('./datasets/datingTestSet.txt',header=None,sep='\t')
df.head()
#樣本數(shù)據(jù)提取
feature_col = [col for col in df.columns if col != 3]
feature = df[feature_col]
target = df[3]
#特征工程
mm = MinMaxScaler() #歸一化
m_feature = mm.fit_transform(feature)
#數(shù)據(jù)集切分
x_train,x_test,y_train,y_test = train_test_split(m_feature,target,test_size=0.2,random_state=2020)
#實(shí)例化
knn = KNeighborsClassifier(n_neighbors=10)
#訓(xùn)練集
knn.fit(x_train,y_train)
#測(cè)試數(shù)據(jù)
knn.score(x_test,y_test)

學(xué)習(xí)曲線尋找最優(yōu)的k值

窮舉不同的k值

ks = [5,7,9,12,15,20,25,30,35,40,45,50,60,70,80,90,100]
for k in ks:
    knn = KNeighborsClassifier(n_neighbors=k).fit(x_train,y_train)
    score=knn.score(x_test,y_test)
    scores.append(score)

#畫(huà)圖
import matplotlib.pyplot as plt
plt.plot(ks,scores)
plt.xlabel('k')
plt.ylabel('score')

#找到分值最大的元素下標(biāo)
import numpy as np
arr_scores = np.array(scores)
np.argmax(arr_scores) #5

arr_scores
#輸出結(jié)果：
array([0.77537233, 0.77951789, 0.78335636, 0.78995854, 0.79180101,
       0.79425764, 0.79072624, 0.79149394, 0.79302933, 0.79210809,
       0.79180101, 0.79149394, 0.79164747, 0.79287579, 0.79318287,
       0.79272225, 0.79318287])
ks[5] #最高分值對(duì)應(yīng)的k為20

#基于最優(yōu)的k值建模
knn = KNeighborsClassifier(n_neighbors=20)
knn.fit(x_train,y_train)
knn.score(x_test,y_test) #0.7942576385690158

在knn中樣本的標(biāo)簽數(shù)據(jù)是不需要參與運(yùn)算 贪惹，可以為非數(shù)值型數(shù)據(jù)

K折交叉驗(yàn)證

目的：
- 選出最為適合的模型超參數(shù)的取值苏章，然后將超參數(shù)的值作用到模型的創(chuàng)建中。
思想：
- 將樣本的訓(xùn)練數(shù)據(jù)交叉的拆分出不同的訓(xùn)練集和驗(yàn)證集奏瞬，使用交叉拆分出不同的訓(xùn)練集和驗(yàn)證集測(cè)分別試模型的精準(zhǔn)度枫绅，然就求出的精準(zhǔn)度的均值就是此次交叉驗(yàn)證的結(jié)果。將交叉驗(yàn)證作用到不同的超參數(shù)中硼端，選取出精準(zhǔn)度最高的超參數(shù)作為模型創(chuàng)建的超參數(shù)即可
實(shí)現(xiàn)思路：
- 將數(shù)據(jù)集平均分割成K個(gè)等份
- 使用1份數(shù)據(jù)作為測(cè)試數(shù)據(jù)并淋，其余作為訓(xùn)練數(shù)據(jù)
- 計(jì)算驗(yàn)證準(zhǔn)確率
- 使用不同的測(cè)試集，重復(fù)2珍昨、3步驟
- 對(duì)準(zhǔn)確率做平均县耽，作為對(duì)未知數(shù)據(jù)預(yù)測(cè)準(zhǔn)確率的估計(jì)

k交叉驗(yàn)證.png

API
- from sklearn.model_selection import cross_val_score
- cross_val_score(estimator,X,y,cv):
- estimator:模型對(duì)象
- X,y:訓(xùn)練集數(shù)據(jù)
- cv：折數(shù)
交叉驗(yàn)證在KNN中的基本使用

from sklearn.model_selection import cross_val_score
knn=KNeighborsClassifier(n_neighbors=10)
cross_val_score(knn,x_train,y_train,cv=5).mean() #拆分成5等分 #0.798372178061742

使用交叉驗(yàn)證&學(xué)習(xí)曲線找尋最優(yōu)的超參數(shù)

ks = [5,7,9,12,15,20,25,30,35,40,45,50,60,70,80,90,100]
scores = []
for k in ks:
    knn=KNeighborsClassifier(n_neighbors=k)
    score=cross_val_score(knn,x_train,y_train,cv=5).mean() #均值
    scores.append(score)

plt.plot(ks,scores)
ks[np.argmax(np.array(scores))] #20

交叉驗(yàn)證也可以幫助我們進(jìn)行模型選擇

from sklearn.linear_model import LogisticRegression
knn = KNeighborsClassifier(n_neighbors=5)
print (cross_val_score(knn, x_train, y_train, cv=10).mean())
lr = LogisticRegression()
print(cross_val_score(lr,x_train,y_train,cv=10).mean())

(了解）K-Fold&cross_val_score

Scikit中指供了K-Fold的API
- n-split就是折數(shù)
- shuffle指是否對(duì)數(shù)據(jù)洗牌
- random_state為隨機(jī)種子,固定隨機(jī)性

from numpy import array
from sklearn.model_selection import KFold
# data sample
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])
kfold = KFold(n_splits=3, shuffle = True, random_state= 1)
for train, test in kfold.split(data):
    print('train: %s, test: %s' % (data[train], data[test]))

Scikit中提取帶K-Fold接口的交叉驗(yàn)證接口sklearn.model_selection.cross_validate，但是該接口沒(méi)有數(shù)據(jù)shuffle功能镣典，所以一般結(jié)合Kfold一起使用兔毙。如果Train數(shù)據(jù)在分組前已經(jīng)經(jīng)過(guò)了shuffle處理，比如使用train_test_split分組骆撇，那就可以直接使用cross_val_score接口

from sklearn.model_selection import cross_val_score

iris = datasets.load_iris()
X, y = iris.data, iris.target

knn = KNeighborsClassifier(n_neighbors=5)

n_folds = 5
kf = KFold(n_folds, shuffle=True, random_state=42).get_n_splits(X)
scores = cross_val_score(knn, X, y, cv = kf)

scores.mean() #0.9733333333333334

手寫(xiě)數(shù)字識(shí)別實(shí)現(xiàn)

from sklearn.model_selection import cross_val_score
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

#加載一張圖片數(shù)據(jù)
img_arr = plt.imread('./digist/3/3_100.bmp')
img_arr.shape #(28, 28)
plt.imshow(img_arr)

對(duì)所有數(shù)據(jù)的讀取和加載瞒御，將其封裝成樣本數(shù)據(jù)

feature_list = []
target_list = []
#1.加載數(shù)據(jù)父叙，封裝成樣本數(shù)據(jù)
for i in range(10):
    for j in range(1,501):
        img_path = './digist/'+str(i)+'/'+str(i)+'_'+str(j)+'.bmp'
        img_arr = plt.imread(img_path)
        feature_list.append(img_arr)
        target_list.append(i)

len(feature_list) #5000
len(target_list) #5000

#每一個(gè)列表元素為2維神郊，則當(dāng)前列表一定是一個(gè)三維數(shù)據(jù)結(jié)構(gòu)
#訓(xùn)練模型需要的特征數(shù)據(jù)必須是二維
feature_list[0].shape #(28, 28)

#對(duì)feature_list進(jìn)行扁平化處理：三維的列表變成二維(每一個(gè)列表元素由二維變成1維肴裙，則整體列表就變形成了2維)
feature = []
for img_arr in feature_list:
    feature.append(img_arr.reshape((28*28,)))
feature = np.array(feature) #將列表轉(zhuǎn)換成數(shù)組
target = np.array(target_list) #將列表轉(zhuǎn)換成數(shù)組

#拆分?jǐn)?shù)據(jù)集
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.1,random_state=2020)

#找尋模型最優(yōu)的超參數(shù)
scores = []
ks = []
for k in range(3,100):
    knn = KNeighborsClassifier(n_neighbors=k)
    score = cross_val_score(knn,x_train,y_train,cv=5).mean()
    ks.append(k)
    scores.append(score)
best_k = ks[np.argmax(np.array(scores))]
best_k
#3

#實(shí)例化
knn = KNeighborsClassifier(n_neighbors=best_k)
knn.fit(x_train,y_train) #訓(xùn)練集
knn.score(x_test,y_test) #0.938

#使用模型進(jìn)行圖像識(shí)別
print('真實(shí)的圖像識(shí)別結(jié)果:',y_test[0:10])
print('模型分類的結(jié)果:',knn.predict(x_test)[0:10])
#輸出結(jié)果：
真實(shí)的圖像識(shí)別結(jié)果: [4 4 6 0 2 4 7 7 8 4]
模型分類的結(jié)果: [4 4 6 0 2 4 7 7 8 4]

讓模型識(shí)別外部圖片

img_arr = plt.imread('./123.jpg')
plt.imshow(img_arr)
#將5切出來(lái)
five_img_arr = img_arr[300:430,185:290]
plt.imshow(five_img_arr)
five_img_arr.shape #(130, 105)

訓(xùn)練好的模型識(shí)別的圖片數(shù)據(jù)只能是對(duì)28*28像素圖片進(jìn)行扁平化處理后的數(shù)據(jù)

#將five_img_arr進(jìn)行像素的等比例壓縮（28*28），在對(duì)其進(jìn)行扁平化處理即可
import scipy.ndimage as ndimage
five_img_arr_zoom = ndimage.zoom(five_img_arr,zoom=(28/130,28/105))
plt.imshow(five_img_arr_zoom)
#扁平化處理
# five_img_arr_zoom.reshape((28*28,)) #1維結(jié)構(gòu)
#在進(jìn)行predict的時(shí)候需要傳入的X涌乳，必須是二維
knn.predict(five_img_arr_zoom.reshape((1,784))) #array([5])

最后編輯于：2020.07.21 22:57:23

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末蜻懦，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子夕晓，更是在濱河造成了極大的恐慌宛乃，老刑警劉巖，帶你破解...
沈念sama閱讀 219,270評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蒸辆，死亡現(xiàn)場(chǎng)離奇詭異征炼，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)躬贡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門谆奥，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人拂玻，你說(shuō)我怎么就攤上這事酸些。” “怎么了檐蚜？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵魄懂，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我闯第，道長(zhǎng)市栗，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任咳短，我火速辦了婚禮肃廓，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘诲泌。我一直安慰自己盲赊，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,928評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布敷扫。她就那樣靜靜地躺著哀蘑，像睡著了一般。火紅的嫁衣襯著肌膚如雪葵第。梳的紋絲不亂的頭發(fā)上绘迁，一...
開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音卒密，去河邊找鬼缀台。笑死，一個(gè)胖子當(dāng)著我的面吹牛哮奇，可吹牛的內(nèi)容都是我干的膛腐。我是一名探鬼主播睛约，決...
沈念sama閱讀 40,442評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼哲身！你這毒婦竟也來(lái)了辩涝？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤勘天，失蹤者是張志新（化名）和其女友劉穎怔揩，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體脯丝，經(jīng)...
沈念sama閱讀 45,802評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡商膊，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,984評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了宠进。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片翘狱。...
茶點(diǎn)故事閱讀 40,117評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖砰苍，靈堂內(nèi)的尸體忽然破棺而出潦匈，到底是詐尸還是另有隱情，我是刑警寧澤赚导，帶...
沈念sama閱讀 35,810評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布茬缩，位于F島的核電站，受9級(jí)特大地震影響吼旧，放射性物質(zhì)發(fā)生泄漏凰锡。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,462評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一圈暗、第九天我趴在偏房一處隱蔽的房頂上張望掂为。院中可真熱鬧，春花似錦员串、人聲如沸勇哗。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0贊 22
一樁弒父案寸齐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)欲诺。三九已至，卻和暖如春渺鹦，著一層夾襖步出監(jiān)牢的瞬間箫爷，已是汗流浹背痊夭。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工颜启，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留过咬，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,377評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像祠锣，于是被迫代替她去往敵國(guó)和親酷窥。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,060評(píng)論 2贊 355