通過(guò)一個(gè)kaggle實(shí)例學(xué)習(xí)解決機(jī)器學(xué)習(xí)問(wèn)題

之前寫(xiě)過(guò)一篇 一個(gè)框架解決幾乎所有機(jī)器學(xué)習(xí)問(wèn)題 但是沒(méi)有具體的例子和代碼,今天看到一個(gè)不錯(cuò)的 kaggle 上的 code Exploratory Tutorial - Titanic 來(lái)解析一下,源碼可以直接點(diǎn)這個(gè)鏈接兔辅。

在這篇文章中可以學(xué)到一個(gè)完整的運(yùn)用機(jī)器學(xué)習(xí)解決分析問(wèn)題的過(guò)程抑进,它包括了解決問(wèn)題的一般流程鬓催,描述性統(tǒng)計(jì)的常用方法酝蜒,數(shù)據(jù)清洗的常用方法咙俩,如何由給定的普通變量啟發(fā)式思考其他影響因素弦悉,sklearn 建立模型的一般流程窒典,以及很火的 ensemble learning 怎么用

下面進(jìn)入正題:

Titanic: Machine Learning from Disaster 這個(gè)問(wèn)題中稽莉,要解決的是根據(jù)所提供的 age瀑志,sex 等因素的數(shù)據(jù),判斷哪些乘客更有可能生存下來(lái),所以這是一個(gè)分類(lèi)問(wèn)題劈猪。

在解決機(jī)器學(xué)習(xí)問(wèn)題時(shí)昧甘,一般包括以下流程:

  1. Data Exploration
  2. Data Cleaning
  3. Feature Engineering
  4. Model Building
  5. Ensemble Learning
  6. Predict

<h4 id="explore">1. Data Exploration</h4>

這部分先導(dǎo)入常用的 Numpy,Pandas战得,Matplotlib 等包充边,導(dǎo)入訓(xùn)練集和測(cè)試集:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')

之后,可以用下面的命令先觀察一下數(shù)據(jù)表的結(jié)構(gòu):

train.tail()
test.head()
train.describe()

接下來(lái)常侦,可以觀察各個(gè)變量的分布情況:

各個(gè)變量在測(cè)試集和訓(xùn)練集的分布差不多一致痛黎。


然后看一下各個(gè)變量對(duì)分類(lèi)標(biāo)簽的影響:

例如,性別的影響刮吧,通過(guò)可視化可以發(fā)現(xiàn)湖饱,生還的乘客中女性多于男性.

或者 Pclass 的影響。


<h4 id="clean">2. Data Cleaning</h4>

這個(gè)部分杀捻,可以統(tǒng)計(jì)一下各個(gè)變量的缺失值情況:

train.isnull().sum()
#test.isnull().sum()


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

然后對(duì)缺失部分進(jìn)行處理井厌,如果是連續(xù)變量,可以采用預(yù)測(cè)模型致讥,例如 Age仅仆,如果是離散的變量,可以找到類(lèi)似的數(shù)據(jù)群體垢袱,然后取最多的墓拜,或者最多群體的平均值。
eg请契,Embarked 這兩個(gè)缺失值咳榜,可以看 Pclass 1 and Fare 80 時(shí),最多的情況是 Embarked=C爽锥。

<h4 id="feature">3. Feature Engineering</h4>

之前有過(guò)一篇 特征工程怎么做 只是介紹了一些概念涌韩,這個(gè)例子就是比較具有啟發(fā)性,看看怎么通過(guò)給定的幾個(gè)變量氯夷,去拓展成更有影響力的 feature臣樱,如何結(jié)合實(shí)際情況聯(lián)想新的因素,并轉(zhuǎn)化成數(shù)字的形式表達(dá)出來(lái)腮考。

下面是數(shù)據(jù)中的原始變量雇毫,看看由它們可以聯(lián)想到什么因素。

pclass          Passenger Class
                (1 = 1st; 2 = 2nd; 3 = 3rd)
name            Name
sex             Sex
age             Age
sibsp           Number of Siblings/Spouses Aboard
parch           Number of Parents/Children Aboard
ticket          Ticket Number
fare            Passenger Fare
cabin           Cabin
embarked        Port of Embarkation
                (C = Cherbourg; Q = Queenstown; S = Southampton)

除了性別踩蔚,年齡等明顯的因素棚放,社會(huì)地位等也可能影響著誰(shuí)會(huì)優(yōu)先乘坐救生艇,或被救助而生存下來(lái)寂纪。例如席吴,

  • Name 里可以抓取到這樣的字眼,來(lái)反映出乘客的職場(chǎng)地位: ['Capt', 'Col', 'Major', 'Dr', 'Officer', 'Rev']捞蛋。
  • Cabin 里的 [a-zA-Z] 也許可以反映出社會(huì)地位孝冒。
  • Cabin 里的 [0-9] 可能代表船艙的地理位置。
  • SibSp 可以算出乘客中同一家庭成員人數(shù)的大小拟杉。
title[title.isin(['Capt', 'Col', 'Major', 'Dr', 'Officer', 'Rev'])] = 'Officer'

deck = full[~full.Cabin.isnull()].Cabin.map( lambda x : re.compile("([a-zA-Z]+)").search(x).group())

checker = re.compile("([0-9]+)")

full['Group_num'] = full.Parch + full.SibSp + 1

在這個(gè)環(huán)節(jié)中庄涡,還有必要把類(lèi)別數(shù)據(jù)變換成 dummy variable 的形式,也就是變換成向量格式搬设,屬于第幾類(lèi)就在第幾個(gè)位置上為 1穴店,其余位置為 0.

連續(xù)數(shù)據(jù)做一下歸一化,即把大范圍變化的數(shù)據(jù)范圍縮小至 0~1 或者 -1~1 之間拿穴。
然后把不相關(guān)的變量 drop 掉泣洞。

train = pd.get_dummies(train, columns=['Embarked', 'Pclass', 'Title', 'Group_size'])

full['NorFare'] = pd.Series(scaler.fit_transform(full.Fare.reshape(-1,1)).reshape(-1), index=full.index)

full.drop(labels=['PassengerId', 'Name', 'Cabin', 'Survived', 'Ticket', 'Fare'], axis=1, inplace=True)

<h4 id="model">4. Model Building</h4>

首先就是把數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,用到 train_test_split默色,

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

因?yàn)楹竺鏁?huì)用到很多模型球凰,所以可以把 cross validation 和 fit 的部分寫(xiě)入一個(gè)函數(shù),這樣每次把分類(lèi)器投入到函數(shù)中訓(xùn)練腿宰,最后返回訓(xùn)練好的模型即可呕诉。

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import accuracy_score

scoring = make_scorer(accuracy_score, greater_is_better=True)

def get_model(estimator, parameters, X_train, y_train, scoring):  
    model = GridSearchCV(estimator, param_grid=parameters, scoring=scoring)
    model.fit(X_train, y_train)
    return model.best_estimator_

以一個(gè) KNN 為例,來(lái)看一下建立 訓(xùn)練 并用模型預(yù)測(cè)的過(guò)程吃度,

  • sklearn 導(dǎo)入分類(lèi)器模型后甩挫,定義一個(gè) KNN,
  • 定義合適的參數(shù)集 parameters椿每,
  • 然后用 get_model 去訓(xùn)練 KNN 模型伊者,
  • 接下來(lái)用訓(xùn)練好的模型去預(yù)測(cè)測(cè)試集的數(shù)據(jù),并得到 accuracy_score间护,
  • 然后畫(huà)出 learning_curve删壮。
from sklearn.neighbors import KNeighborsClassifier
KNN = KNeighborsClassifier(weights='uniform')
parameters = {'n_neighbors':[3,4,5], 'p':[1,2]}
clf_knn = get_model(KNN, parameters, X_train, y_train, scoring)

print (accuracy_score(y_test, clf_knn.predict(X_test)))
plot_learning_curve(clf_knn, 'KNN', X, y, cv=4);

采用上面的方式,嘗試多種模型兑牡,并打印出它們的 accuracy_score

KNN央碟, 0.816143497758
Random Forest, 0.829596412556
只選擇比較重要的幾個(gè)特征后的 Random Forest均函, 0.834080717489
Logistic Regression亿虽, 0.811659192825
SVC, 0.838565022422
XGBoost苞也, 0.820627802691

<h4 id="ensemble">5. Ensemble</h4>

接下來(lái)把前面訓(xùn)練好的幾個(gè)分類(lèi)器用 VotingClassifier 集成起來(lái)再 fit 訓(xùn)練一下洛勉,打印 accuracy_score 并畫(huà)出 learning_curve

from sklearn.ensemble import VotingClassifier
clf_vc = VotingClassifier(estimators=[('xgb1', clf_xgb1), ('lg1', clf_lg1), ('svc', clf_svc), 
                                      ('rfc1', clf_rfc1),('rfc2', clf_rfc2), ('knn', clf_knn)], 
                          voting='hard', weights=[4,1,1,1,1,2])
clf_vc = clf_vc.fit(X_train, y_train)

print (accuracy_score(y_test, clf_vc.predict(X_test)))
plot_learning_curve(clf_vc, 'Ensemble', X, y, cv=4);
ensemble, 0.825112107623

<h4 id="pred">6. Prediction</h4>

用最后訓(xùn)練好的 model 去預(yù)測(cè)給出的測(cè)試集文件如迟,并把數(shù)據(jù)按照指定格式做好收毫,存進(jìn) csv 提交即可攻走。

def submission(model, fname, X):
    ans = pd.DataFrame(columns=['PassengerId', 'Survived'])
    ans.PassengerId = PassengerId
    ans.Survived = pd.Series(model.predict(X), index=ans.index)
    ans.to_csv(fname, index=False)

歷史技術(shù)博文鏈接匯總

我是 不會(huì)停的蝸牛 Alice
85后全職主婦
喜歡人工智能,行動(dòng)派
創(chuàng)造力此再,思考力昔搂,學(xué)習(xí)力提升修煉進(jìn)行中
歡迎您的喜歡,關(guān)注和評(píng)論输拇!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末摘符,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子策吠,更是在濱河造成了極大的恐慌逛裤,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猴抹,死亡現(xiàn)場(chǎng)離奇詭異带族,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蟀给,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)炉菲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人坤溃,你說(shuō)我怎么就攤上這事拍霜。” “怎么了薪介?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵祠饺,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我汁政,道長(zhǎng)道偷,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任记劈,我火速辦了婚禮勺鸦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘目木。我一直安慰自己换途,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布刽射。 她就那樣靜靜地躺著军拟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪誓禁。 梳的紋絲不亂的頭發(fā)上懈息,一...
    開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音摹恰,去河邊找鬼辫继。 笑死怒见,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的姑宽。 我是一名探鬼主播遣耍,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼低千!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起馏颂,我...
    開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤示血,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后救拉,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體难审,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年亿絮,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了告喊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡派昧,死狀恐怖黔姜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蒂萎,我是刑警寧澤秆吵,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站五慈,受9級(jí)特大地震影響纳寂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜泻拦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一毙芜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧争拐,春花似錦腋粥、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至音瓷,卻和暖如春对嚼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背绳慎。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工纵竖, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留漠烧,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓靡砌,卻偏偏與公主長(zhǎng)得像已脓,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子通殃,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容