本文主要使用scikit-learn中的KNN算法進(jìn)行Iris數(shù)據(jù)集的分類越妈。Iris也稱鳶尾花卉數(shù)據(jù)集泪勒,是一類多重變量分析的數(shù)據(jù)集跌前。通過(guò)花萼長(zhǎng)度棕兼,花萼寬度,花瓣長(zhǎng)度抵乓,花瓣寬度4個(gè)屬性預(yù)測(cè)鳶尾花卉屬于(Setosa伴挚,Versicolour,Virginica)三個(gè)種類中的哪一類灾炭。
Demo
import numpy as np
from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier
# 加載iris數(shù)據(jù)集
iris = datasets.load_iris()
# 讀取特征
iris_X = iris.data
# 讀取分類標(biāo)簽
iris_y = iris.target
# 將數(shù)據(jù)分為訓(xùn)練茎芋、測(cè)試兩部分
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size = 0.2)
# 定義分類器
knn = KNeighborsClassifier()
# 進(jìn)行分類
knn.fit(X_train, y_train)
# 計(jì)算預(yù)測(cè)值
y_predict = knn.predict(X_test)
# 計(jì)算準(zhǔn)確率, 由于每次數(shù)據(jù)集劃分不同, 可能不一樣
print np.sum(np.fabs(y_predict - y_test)) / float(len(y_test))
結(jié)果
0.0666666666667
作者:SnailTyan
鏈接:http://www.reibang.com/p/5b02bdc2794a
來(lái)源:簡(jiǎn)書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)蜈出,非商業(yè)轉(zhuǎn)載請(qǐng)注明出處田弥。