TPOT：機(jī)器學(xué)習(xí)傻瓜式工作流

昨天在github上閑逛空幻，發(fā)現(xiàn)了一個(gè)神器tpot课蔬。其操作簡單囱稽，只需要簡單幾行代碼就可以從原始數(shù)據(jù)集上生成機(jī)器學(xué)習(xí)代碼，它會自動幫你生成整個(gè)算法代碼二跋，好激動啊有木有战惊！。

TPOT github：https://github.com/rhiever/tpot
TPOT 官方文檔：http://rhiever.github.io/tpot/

TPOT介紹

TPOT是Python編寫的同欠，使用遺傳算法幫你對機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘問題進(jìn)行特征選擇和算法模型選擇的工具样傍。只要你寫幾行簡單的算法就可以得到不錯(cuò)的結(jié)果，神器啊有木有铺遂！

眾所周知，一個(gè)機(jī)器學(xué)習(xí)問題或者數(shù)據(jù)挖掘問題整體上有如下幾個(gè)處理步驟：從數(shù)據(jù)清洗茎刚、特征選取襟锐、特征重建、特征選擇膛锭、算法模型算法和算法參數(shù)優(yōu)化粮坞，以及最后的交叉驗(yàn)證。整個(gè)步驟異常繁瑣初狰，但使用TPOT可以輕松解決特征提取和算法模型選擇的問題莫杈，如下圖陰影部分所示。

從下圖對MNIST數(shù)據(jù)集進(jìn)行處理的流程可以看到奢入，TPOT可以輕松取得98.4%的結(jié)果筝闹，這個(gè)結(jié)果還是很不錯(cuò)的（在傳統(tǒng)方法中，TPOT暫時(shí)沒有添加任何神經(jīng)網(wǎng)絡(luò)算法腥光，如CNN）关顷。最最重要的是TPOT還可以將整個(gè)的處理流程輸出為Python代碼，好激動啊有木有武福！Talk is simple议双，show you the code。

TPOT安裝

TPOT是運(yùn)行在Python環(huán)境下的捉片，所以你首先需要按照相應(yīng)的Python庫：

NumPy
SciPy
scikit-learn
DEAP
update_checker
tqdm

此外TPOT還支持xgboost模型平痰，所以你可以自行安裝xgboost汞舱。

pip install xgboost

最后安裝

pip install tpot

TPOT安裝可以參考官方文檔，也可以直接到github項(xiàng)目頁面提交issue宗雇。

TPOT例子

1.IRIS

TPOT使用起來很簡單：首先載入數(shù)據(jù)兵拢，聲明TPOTClassifier，fit逾礁，最后export代碼说铃。

from tpot import TPOTClassifier
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
import numpy as np

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
    iris.target.astype(np.float64), train_size=0.75, test_size=0.25)

tpot = TPOTClassifier(generations=5, population_size=20, verbosity=2)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
tpot.export('tpot_iris_pipeline.py')

生成的tpot_iris_pipeline.py是這樣的：

import numpy as np

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline, make_union
from sklearn.preprocessing import FunctionTransformer, PolynomialFeatures

tpot_data = np.recfromcsv('PATH/TO/DATA/FILE', sep='COLUMN_SEPARATOR', dtype=np.float64)
features = np.delete(tpot_data.view(np.float64).reshape(tpot_data.size, -1), tpot_data.dtype.names.index('class'), axis=1)
training_features, testing_features, training_classes, testing_classes = \
    train_test_split(features, tpot_data['class'], random_state=42)

exported_pipeline = make_pipeline(
    PolynomialFeatures(degree=2, include_bias=False, interaction_only=False),
    LogisticRegression(C=0.9, dual=False, penalty="l2")
)

exported_pipeline.fit(training_features, training_classes)
results = exported_pipeline.predict(testing_features)

2.Titanic Kaggle

由于TPOT并不包含數(shù)據(jù)清洗的功能，所以需要人工進(jìn)行數(shù)據(jù)清洗嘹履，整個(gè)例子代碼腻扇，最后生成的代碼如下：

import numpy as np
import pandas as pd

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import AdaBoostClassifier
from sklearn.preprocessing import PolynomialFeatures

# NOTE: Make sure that the class is labeled 'class' in the data file
tpot_data = pd.read_csv('PATH/TO/DATA/FILE', delimiter='COLUMN_SEPARATOR')
training_indices, testing_indices = train_test_split(tpot_data.index, stratify = tpot_data['class'].values, train_size=0.75, test_size=0.25)

result1 = tpot_data.copy()

# Use Scikit-learn's PolynomialFeatures to construct new features from the existing feature set
training_features = result1.loc[training_indices].drop('class', axis=1)

if len(training_features.columns.values) > 0 and len(training_features.columns.values) <= 700:
    # The feature constructor must be fit on only the training data
    poly = PolynomialFeatures(degree=2, include_bias=False)
    poly.fit(training_features.values.astype(np.float64))
    constructed_features = poly.transform(result1.drop('class', axis=1).values.astype(np.float64))
    result1 = pd.DataFrame(data=constructed_features)
    result1['class'] = result1['class'].values
else:
    result1 = result1.copy()

result2 = result1.copy()
# Perform classification with an Ada Boost classifier
adab2 = AdaBoostClassifier(learning_rate=0.15, n_estimators=500, random_state=42)
adab2.fit(result2.loc[training_indices].drop('class', axis=1).values, result2.loc[training_indices, 'class'].values)

result2['adab2-classification'] = adab2.predict(result2.drop('class', axis=1).values)

TPOT Notes

TPOTClassifier()

TPOT最核心的就是整個(gè)函數(shù)，在使用TPOT的時(shí)候砾嫉，一定要弄清楚TPOTClassifier()函數(shù)中的重要參數(shù)幼苛。

generation：遺傳算法進(jìn)化次數(shù)，可理解為迭代次數(shù)
population_size：每次進(jìn)化中種群大小
num_cv_folds：交叉驗(yàn)證
scoring：也就是損失函數(shù)

generation和population_size共同決定TPOT的復(fù)雜度焕刮，還有其他參數(shù)可以在官方文檔中找到舶沿。

2.TPOT速度

TPOT在處理小規(guī)模數(shù)據(jù)非常快配并，結(jié)果很給力括荡。但處理大規(guī)模的數(shù)據(jù)問題，速度非常慢溉旋，很慢畸冲。所以在做數(shù)據(jù)挖掘問題，可以嘗試在數(shù)據(jù)清洗之后观腊，抽樣小部分?jǐn)?shù)據(jù)跑一下TPOT邑闲，最初能得到一個(gè)還不錯(cuò)的算法。

最后編輯于：2017.12.04 03:45:58

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末梧油，一起剝皮案震驚了整個(gè)濱河市苫耸，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌儡陨，老刑警劉巖褪子，帶你破解...
沈念sama閱讀 218,036評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異迄委，居然都是意外死亡褐筛，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門叙身，熙熙樓的掌柜王于貴愁眉苦臉地迎上來渔扎，“玉大人，你說我怎么就攤上這事信轿』纬眨” “怎么了残吩？”我有些...
開封第一講書人閱讀 164,411評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長倘核。經(jīng)常有香客問我泣侮，道長，這世上最難降的妖魔是什么紧唱？我笑而不...
開封第一講書人閱讀 58,622評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任活尊，我火速辦了婚禮，結(jié)果婚禮上漏益，老公的妹妹穿的比我還像新娘蛹锰。我一直安慰自己，他們只是感情好绰疤，可當(dāng)我...
茶點(diǎn)故事閱讀 67,661評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布铜犬。她就那樣靜靜地躺著，像睡著了一般轻庆。火紅的嫁衣襯著肌膚如雪癣猾。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,521評論 1贊 304
城市分裂傳說
那天余爆，我揣著相機(jī)與錄音纷宇，去河邊找鬼。笑死龙屉，一個(gè)胖子當(dāng)著我的面吹牛呐粘，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播转捕，決...
沈念sama閱讀 40,288評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼唆垃！你這毒婦竟也來了五芝？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,200評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤辕万，失蹤者是張志新（化名）和其女友劉穎枢步，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體渐尿，經(jīng)...
沈念sama閱讀 45,644評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡醉途，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,837評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了砖茸。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隘擎。...
茶點(diǎn)故事閱讀 39,953評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖凉夯，靈堂內(nèi)的尸體忽然破棺而出货葬，到底是詐尸還是另有隱情采幌，我是刑警寧澤，帶...
沈念sama閱讀 35,673評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布震桶，位于F島的核電站休傍，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏蹲姐。R本人自食惡果不足惜磨取，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,281評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望柴墩。院中可真熱鬧忙厌，春花似錦恃鞋、人聲如沸卸奉。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,889評論 0贊 22
一樁弒父案嗅虏，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽扎阶。三九已至汹胃，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間东臀，已是汗流浹背着饥。一陣腳步聲響...
開封第一講書人閱讀 33,011評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留惰赋，地道東北人宰掉。一個(gè)月前我還...
沈念sama閱讀 48,119評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像赁濒，于是被迫代替她去往敵國和親轨奄。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,901評論 2贊 355

TPOT：機(jī)器學(xué)習(xí)傻瓜式工作流

TPOT介紹

TPOT安裝

TPOT例子

TPOT Notes

推薦閱讀更多精彩內(nèi)容