1.認(rèn)識(shí)監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí):的任務(wù)是學(xué)習(xí)一個(gè)模型寝并,使模型能夠?qū)θ我饨o定的輸入申尼,對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè)胶惰。即:利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個(gè)模型,再用模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè)挑格。線性回歸算法咙冗、BP神經(jīng)網(wǎng)絡(luò)算法、決策樹漂彤、支持向量機(jī)雾消、KNN等
無監(jiān)督學(xué)習(xí):自動(dòng)對(duì)輸入的資料進(jìn)行分類或分群,以尋找數(shù)據(jù)的模型和規(guī)律挫望。 (KMeans,DL)
2.模型搭建
2.1切割訓(xùn)練集和測(cè)試集
方法有:留出法立润,交叉驗(yàn)證法,自助法
sklearn中切割數(shù)據(jù)集的方法為train_test_split
X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)
?train_data:所要?jiǎng)澐值臉颖咎卣骷?/i>
train_target:所要?jiǎng)澐值臉颖窘Y(jié)果
test_size:樣本占比媳板,如果是整數(shù)的話就是樣本的數(shù)量
random_state:是隨機(jī)數(shù)的種子桑腮。其實(shí)就是該組隨機(jī)數(shù)的編號(hào),在需要重復(fù)試驗(yàn)的時(shí)候蛉幸,保證得到一組一樣的隨機(jī)數(shù)破讨。比如你每次都填1,其他參數(shù)一樣的情況下你得到的隨機(jī)數(shù)組是一樣的奕纫。但填0或不填提陶,每次都會(huì)不一樣。
stratify:是為了保持split前類的分布匹层。用了stratify參數(shù)隙笆,training集和testing集的類的比例是 A:B= 4:1,等同于split前的比例升筏。通常在這種類分布不平衡的情況下會(huì)用到stratify撑柔。
將stratify=X就是按照X中的比例分配 ,將stratify=y就是按照y中的比例分配?
2.2模型創(chuàng)建
2.2.1邏輯回歸:LogisticRegression您访,分類模型
邏輯回歸模型默認(rèn)參數(shù):
(1)調(diào)用邏輯回歸模型
(2)計(jì)算訓(xùn)練集和測(cè)試集的得分
(3)調(diào)參
2.2.2隨機(jī)森林:RandomForestClassifier乏冀,是決策樹集成為了降低決策樹過擬合的情況
隨機(jī)森林模型默認(rèn)參數(shù):
(1)調(diào)用隨機(jī)森林模型
(2)計(jì)算訓(xùn)練集和測(cè)試集的得分
(3)調(diào)參
2.3輸出預(yù)測(cè)結(jié)果
一般監(jiān)督模型在sklearn里面有個(gè)predict能輸出預(yù)測(cè)標(biāo)簽,predict_proba則可以輸出標(biāo)簽概率
2.4模型評(píng)估
回歸模型的評(píng)估:平均絕對(duì)誤差(Mean Absolute Error洋只,MAE)、均方誤差(Mean Squared Error昼捍,MSE)识虚、R-square(決定系數(shù))、Adjusted R-Square (校正決定系數(shù))妒茬、交叉驗(yàn)證(Cross-Validation)
分類模型的評(píng)估:準(zhǔn)確率担锤、精確率、召回率乍钻、f1_score肛循,混淆矩陣铭腕,ks,ks曲線多糠,ROC曲線累舷,psi等
(1)交叉驗(yàn)證是 k 折交叉驗(yàn)證(k-fold cross-validation),其中 k 是由用戶指定的數(shù)字夹孔,通常取 5 或 10被盈。
(2)混淆矩陣
準(zhǔn)確率(precision)度量的是被預(yù)測(cè)為正例的樣本中有多少是真正的正例
召回率(recall)度量的是正類樣本中有多少被預(yù)測(cè)為正類
(3)ROC曲線
ROC曲線能很容易的查出任意閾值對(duì)學(xué)習(xí)器的泛化性能影響,有助于選擇最佳的閾值搭伤。ROC曲線越靠近左上角只怎,模型的查全率就越高。最靠近左上角的ROC曲線上的點(diǎn)是分類錯(cuò)誤最少的最好閾值怜俐,其假正例和假反例總數(shù)最少身堡。ROC曲線下面所包圍的面積越大越好