1 什么是機(jī)器學(xué)習(xí)
什么是機(jī)器學(xué)習(xí)?
這個問題不同的人員會有不同的理解管呵。我個人覺得袭蝗,用大白話來描述機(jī)器學(xué)習(xí)唤殴,就是讓計(jì)算機(jī)能夠通過一定方式的學(xué)習(xí)和訓(xùn)練,選擇合適的模型到腥,在遇到新輸入的數(shù)據(jù)時(shí)朵逝,可以找出有用的信息,并預(yù)測潛在的需求乡范。最終反映的結(jié)果就是配名,好像計(jì)算機(jī)或者其他設(shè)備跟人類一樣具有智能化的特征啤咽,能夠快速識別和選擇有用的信息。
機(jī)器學(xué)習(xí)通城觯可以分為三個大的步驟宇整,即 輸入、整合芋膘、輸出没陡,可以用下圖來表示大致的意思:
2 機(jī)器學(xué)習(xí)示例(scikit-learn)
在python語言中,scikit-learn是一個開源的機(jī)器學(xué)習(xí)庫索赏。下面以sklearn為例,來簡單描述機(jī)器學(xué)習(xí)的過程贴彼。
2.1 加載數(shù)據(jù)
通常第一步是獲取相關(guān)數(shù)據(jù)潜腻,并進(jìn)行相應(yīng)的處理,使之可以在后續(xù)過程中使用器仗。
from sklearn import datasets
- 加載iris數(shù)據(jù)集并查看相關(guān)信息
# 加載數(shù)據(jù)集
iris = datasets.load_iris()
# print(iris)
print(type(iris))
print(iris.keys())
# 查看部分?jǐn)?shù)據(jù)
print(iris.data[ :5, :])
# print(iris.data)
<class 'sklearn.datasets.base.Bunch'>
dict_keys(['DESCR', 'data', 'feature_names', 'target', 'target_names'])
[[ 5.1 3.5 1.4 0.2]
[ 4.9 3. 1.4 0.2]
[ 4.7 3.2 1.3 0.2]
[ 4.6 3.1 1.5 0.2]
[ 5. 3.6 1.4 0.2]]
# 查看數(shù)據(jù)維度大小
print(iris.data.shape)
# 數(shù)據(jù)屬性
print(iris.feature_names)
# 特征名稱
print(iris.target_names)
# 標(biāo)簽
print(iris.target)
(150, 4)
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]
2.2 選擇機(jī)器學(xué)習(xí)模型or算法
在獲取數(shù)據(jù)融涣,并將數(shù)據(jù)整理好后,需要選擇合適的模型or算法來進(jìn)行訓(xùn)練精钮。
機(jī)器學(xué)習(xí)的模型有很多種威鹿,這里不作討論,且每種模型的參數(shù)選擇也是很大的一門學(xué)問轨香。
from sklearn import svm
svm_classifier = svm.SVC(gamma=0.1, C=100)
# 預(yù)測結(jié)果得分很低
# svm_classifier = svm.SVC(gamma=10000, C=0.001)
# 定義測試集的數(shù)據(jù)量大小
N = 10
# 訓(xùn)練集
train_x = iris.data[:-N, :]
train_y = iris.target[ :-N]
# 測試集
test_x = iris.data[ :N, :]
y_true = iris.target[:N]
# 訓(xùn)練數(shù)據(jù)模型
svm_classifier.fit(train_x, train_y)
SVC(C=100, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape=None, degree=3, gamma=0.1, kernel='rbf',
max_iter=-1, probability=False, random_state=None, shrinking=True,
tol=0.001, verbose=False)
- 將訓(xùn)練好的模式進(jìn)行測試
y_pred = svm_classifier.predict(test_x)
- 查看測試結(jié)果
from sklearn.metrics import accuracy_score
print(accuracy_score(y_true, y_pred))
1.0
2.3 將訓(xùn)練好的模型進(jìn)行應(yīng)用忽你,即預(yù)測
- 保存模型
import pickle
with open('svm_model_iris.pkl', 'wb') as f:
pickle.dump(svm_classifier, f)
- 加載模型進(jìn)行應(yīng)用
import numpy as np
# np.random.seed(9)
with open('svm_model_iris.pkl', 'rb') as f:
model = pickle.load(f)
random_samples_index = np.random.randint(0,150,6)
random_samples = iris.data[random_samples_index, :]
random_targets = iris.target[random_samples_index]
random_predict = model.predict(random_samples)
print('真實(shí)值:', random_targets)
print('預(yù)測值:', random_predict)
真實(shí)值: [1 1 1 0 2 2]
預(yù)測值: [1 1 1 0 2 2]
閑談
預(yù)測的結(jié)果好不好,直接體現(xiàn)出機(jī)器學(xué)習(xí)模型選擇的優(yōu)劣臂容。對于機(jī)器學(xué)習(xí)這門高深的學(xué)問科雳,我還有許多需要進(jìn)一步學(xué)習(xí)的地方,歡迎一起交流脓杉,共同進(jìn)步糟秘。
最后分享網(wǎng)上的一張圖,來看看如何理解Machine Learning球散。
如果您喜歡我的文章尿赚,歡迎關(guān)注微信公眾號:Python數(shù)據(jù)之道(ID:PyDataRoad)