TPOT:機(jī)器學(xué)習(xí)傻瓜式工作流

昨天在github上閑逛空幻,發(fā)現(xiàn)了一個(gè)神器tpot课蔬。其操作簡單囱稽,只需要簡單幾行代碼就可以從原始數(shù)據(jù)集上生成機(jī)器學(xué)習(xí)代碼,它會自動幫你生成整個(gè)算法代碼二跋,好激動啊有木有战惊!。

TPOT github:https://github.com/rhiever/tpot
TPOT 官方文檔:http://rhiever.github.io/tpot/

TPOT介紹

TPOT是Python編寫的同欠,使用遺傳算法幫你對機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘問題進(jìn)行特征選擇和算法模型選擇的工具样傍。只要你寫幾行簡單的算法就可以得到不錯(cuò)的結(jié)果,神器啊有木有铺遂!

眾所周知,一個(gè)機(jī)器學(xué)習(xí)問題或者數(shù)據(jù)挖掘問題整體上有如下幾個(gè)處理步驟:從數(shù)據(jù)清洗茎刚、特征選取襟锐、特征重建、特征選擇膛锭、算法模型算法和算法參數(shù)優(yōu)化粮坞,以及最后的交叉驗(yàn)證。整個(gè)步驟異常繁瑣初狰,但使用TPOT可以輕松解決特征提取和算法模型選擇的問題莫杈,如下圖陰影部分所示。

從下圖對MNIST數(shù)據(jù)集進(jìn)行處理的流程可以看到奢入,TPOT可以輕松取得98.4%的結(jié)果筝闹,這個(gè)結(jié)果還是很不錯(cuò)的(在傳統(tǒng)方法中,TPOT暫時(shí)沒有添加任何神經(jīng)網(wǎng)絡(luò)算法腥光,如CNN)关顷。最最重要的是TPOT還可以將整個(gè)的處理流程輸出為Python代碼,好激動啊有木有武福!Talk is simple议双,show you the code。

TPOT安裝

TPOT是運(yùn)行在Python環(huán)境下的捉片,所以你首先需要按照相應(yīng)的Python庫:

  • NumPy
  • SciPy
  • scikit-learn
  • DEAP
  • update_checker
  • tqdm

此外TPOT還支持xgboost模型平痰,所以你可以自行安裝xgboost汞舱。

pip install xgboost

最后安裝

pip install tpot

TPOT安裝可以參考官方文檔,也可以直接到github項(xiàng)目頁面提交issue宗雇。

TPOT例子

1.IRIS

TPOT使用起來很簡單:首先載入數(shù)據(jù)兵拢,聲明TPOTClassifier,fit逾礁,最后export代碼说铃。

from tpot import TPOTClassifier
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
import numpy as np

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
    iris.target.astype(np.float64), train_size=0.75, test_size=0.25)

tpot = TPOTClassifier(generations=5, population_size=20, verbosity=2)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
tpot.export('tpot_iris_pipeline.py')

生成的tpot_iris_pipeline.py是這樣的:

import numpy as np

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline, make_union
from sklearn.preprocessing import FunctionTransformer, PolynomialFeatures

tpot_data = np.recfromcsv('PATH/TO/DATA/FILE', sep='COLUMN_SEPARATOR', dtype=np.float64)
features = np.delete(tpot_data.view(np.float64).reshape(tpot_data.size, -1), tpot_data.dtype.names.index('class'), axis=1)
training_features, testing_features, training_classes, testing_classes = \
    train_test_split(features, tpot_data['class'], random_state=42)

exported_pipeline = make_pipeline(
    PolynomialFeatures(degree=2, include_bias=False, interaction_only=False),
    LogisticRegression(C=0.9, dual=False, penalty="l2")
)

exported_pipeline.fit(training_features, training_classes)
results = exported_pipeline.predict(testing_features)

2.Titanic Kaggle

由于TPOT并不包含數(shù)據(jù)清洗的功能,所以需要人工進(jìn)行數(shù)據(jù)清洗嘹履,整個(gè)例子代碼腻扇,最后生成的代碼如下:

import numpy as np
import pandas as pd

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import AdaBoostClassifier
from sklearn.preprocessing import PolynomialFeatures

# NOTE: Make sure that the class is labeled 'class' in the data file
tpot_data = pd.read_csv('PATH/TO/DATA/FILE', delimiter='COLUMN_SEPARATOR')
training_indices, testing_indices = train_test_split(tpot_data.index, stratify = tpot_data['class'].values, train_size=0.75, test_size=0.25)

result1 = tpot_data.copy()

# Use Scikit-learn's PolynomialFeatures to construct new features from the existing feature set
training_features = result1.loc[training_indices].drop('class', axis=1)

if len(training_features.columns.values) > 0 and len(training_features.columns.values) <= 700:
    # The feature constructor must be fit on only the training data
    poly = PolynomialFeatures(degree=2, include_bias=False)
    poly.fit(training_features.values.astype(np.float64))
    constructed_features = poly.transform(result1.drop('class', axis=1).values.astype(np.float64))
    result1 = pd.DataFrame(data=constructed_features)
    result1['class'] = result1['class'].values
else:
    result1 = result1.copy()

result2 = result1.copy()
# Perform classification with an Ada Boost classifier
adab2 = AdaBoostClassifier(learning_rate=0.15, n_estimators=500, random_state=42)
adab2.fit(result2.loc[training_indices].drop('class', axis=1).values, result2.loc[training_indices, 'class'].values)

result2['adab2-classification'] = adab2.predict(result2.drop('class', axis=1).values)

TPOT Notes

  1. TPOTClassifier()

TPOT最核心的就是整個(gè)函數(shù),在使用TPOT的時(shí)候砾嫉,一定要弄清楚TPOTClassifier()函數(shù)中的重要參數(shù)幼苛。

  • generation:遺傳算法進(jìn)化次數(shù),可理解為迭代次數(shù)
  • population_size:每次進(jìn)化中種群大小
  • num_cv_folds:交叉驗(yàn)證
  • scoring:也就是損失函數(shù)

generationpopulation_size共同決定TPOT的復(fù)雜度焕刮,還有其他參數(shù)可以在官方文檔中找到舶沿。

2.TPOT速度

TPOT在處理小規(guī)模數(shù)據(jù)非常快配并,結(jié)果很給力括荡。但處理大規(guī)模的數(shù)據(jù)問題,速度非常慢溉旋,很慢畸冲。所以在做數(shù)據(jù)挖掘問題,可以嘗試在數(shù)據(jù)清洗之后观腊,抽樣小部分?jǐn)?shù)據(jù)跑一下TPOT邑闲,最初能得到一個(gè)還不錯(cuò)的算法。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末梧油,一起剝皮案震驚了整個(gè)濱河市苫耸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌儡陨,老刑警劉巖褪子,帶你破解...
    沈念sama閱讀 218,036評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異迄委,居然都是意外死亡褐筛,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評論 3 395
  • 文/潘曉璐 我一進(jìn)店門叙身,熙熙樓的掌柜王于貴愁眉苦臉地迎上來渔扎,“玉大人,你說我怎么就攤上這事信轿』纬眨” “怎么了残吩?”我有些...
    開封第一講書人閱讀 164,411評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長倘核。 經(jīng)常有香客問我泣侮,道長,這世上最難降的妖魔是什么紧唱? 我笑而不...
    開封第一講書人閱讀 58,622評論 1 293
  • 正文 為了忘掉前任活尊,我火速辦了婚禮,結(jié)果婚禮上漏益,老公的妹妹穿的比我還像新娘蛹锰。我一直安慰自己,他們只是感情好绰疤,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評論 6 392
  • 文/花漫 我一把揭開白布铜犬。 她就那樣靜靜地躺著,像睡著了一般轻庆。 火紅的嫁衣襯著肌膚如雪癣猾。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,521評論 1 304
  • 那天余爆,我揣著相機(jī)與錄音纷宇,去河邊找鬼。 笑死龙屉,一個(gè)胖子當(dāng)著我的面吹牛呐粘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播转捕,決...
    沈念sama閱讀 40,288評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼唆垃!你這毒婦竟也來了五芝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,200評論 0 276
  • 序言:老撾萬榮一對情侶失蹤辕万,失蹤者是張志新(化名)和其女友劉穎枢步,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體渐尿,經(jīng)...
    沈念sama閱讀 45,644評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡醉途,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了砖茸。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隘擎。...
    茶點(diǎn)故事閱讀 39,953評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖凉夯,靈堂內(nèi)的尸體忽然破棺而出货葬,到底是詐尸還是另有隱情采幌,我是刑警寧澤,帶...
    沈念sama閱讀 35,673評論 5 346
  • 正文 年R本政府宣布震桶,位于F島的核電站休傍,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蹲姐。R本人自食惡果不足惜磨取,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望柴墩。 院中可真熱鬧忙厌,春花似錦恃鞋、人聲如沸卸奉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽扎阶。三九已至汹胃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間东臀,已是汗流浹背着饥。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留惰赋,地道東北人宰掉。 一個(gè)月前我還...
    沈念sama閱讀 48,119評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像赁濒,于是被迫代替她去往敵國和親轨奄。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評論 2 355

推薦閱讀更多精彩內(nèi)容