kubeflow pipelines--本地運(yùn)行官方ML-實(shí)例

在上面的文章中绘闷，我成功運(yùn)行了pipelines的簡單實(shí)例橡庞。這個(gè)簡單的例子沒有文件的操作，但是這肯定不符合我們的要求印蔗，所以接下來介紹如何運(yùn)行官網(wǎng)的ML 例子扒最。
這次試用的例子是：KubeFlow pipeline using TFX OSS components

準(zhǔn)備工作

由于這個(gè)例子使用的鏡像，文件都是某歌的华嘹，所以我們要想辦法把他弄到自己服務(wù)器能pull到的地方吧趣。

鏡像：大家可以在dockerhub上搜索‘zoux’。所有相關(guān)的鏡像耙厚，我都上傳到dockerhub上去了强挫。
文件：https://github.com/zoux86/kubeflow/tree/master/taxi-cab-classification

運(yùn)行代碼

代碼片段1-定義文件路徑和鏡像名稱

EXPERIMENT_NAME = 'TFX16'
OUTPUT_DIR = './output' 
PROJECT_NAME = 'TFX16'
TRAIN_DATA = '/home/zoux/data/taxi-cab-classification/train.csv'
EVAL_DATA = '/home/zoux/data/taxi-cab-classification/eval.csv'
HIDDEN_LAYER_SIZE = '1500'
STEPS = 3000
DATAFLOW_TFDV_IMAGE = '192.168.14.66:5000/ml-pipeline-dataflow-tfdv:v1'
DATAFLOW_TFT_IMAGE = '192.168.14.66:5000/ml-pipeline-dataflow-tft:v1'
DATAFLOW_TFMA_IMAGE = '192.168.14.66:5000/ml-pipeline-dataflow-tfma:v1'
DATAFLOW_TF_PREDICT_IMAGE = '192.168.14.66:5000/ml-pipeline-dataflow-tf-predict:v1'
KUBEFLOW_TF_TRAINER_IMAGE = '192.168.14.66:5000/ml-pipeline-kubeflow-tf-trainer:v1'
KUBEFLOW_DEPLOYER_IMAGE = '192.168.14.66:5000/ml-pipeline-kubeflow-deployer:v1'

注意：
（1）這里我使用的都是集群本地倉庫中的鏡像，這些鏡像我都是提前下載好颜曾，push到倉庫中去的纠拔。
（2）我的鏡像是自己定義的V1版本，這是我自己build的一個(gè)新鏡像泛豪。和原來某歌的鏡像不同在于稠诲，我在鏡像中創(chuàng)建了一個(gè)文件夾'/home/zoux/data/taxi-cab-classification/',并將所有需要的文件都放在了這個(gè)文件夾中，這樣每個(gè)啟動(dòng)的每個(gè)容器都可以在自己的鏡像中使用所需要的文件诡曙。

代碼片段2-導(dǎo)入python sdk

import kfp
from kfp import compiler
import kfp.dsl as dsl
import kfp.notebook
import kfp.gcp as gcp
client = kfp.Client()
from kubernetes import client as k8s_client
exp = client.create_experiment(name=EXPERIMENT_NAME)

注意如果保存說找不到kfp模塊臀叙，需要在jupyter中再下載一次python SDK。
!pip3 install https://storage.googleapis.com/ml-pipeline/release/0.1.3/kfp.tar.gz --upgrade

代碼片段3-創(chuàng)建pipelines

mport kfp.dsl as dsl
# Below are a list of helper functions to wrap the components to provide a simpler interface for pipeline function.
def dataflow_tf_data_validation_op(inference_data: 'GcsUri', validation_data: 'GcsUri', column_names: 'GcsUri[text/json]', key_columns, project: 'GcpProject', mode, validation_output: 'GcsUri[Directory]', step_name='validation'):
    return dsl.ContainerOp(
        name = step_name,
        image = DATAFLOW_TFDV_IMAGE,
        arguments = [
            '--csv-data-for-inference', inference_data,
            '--csv-data-to-validate', validation_data,
            '--column-names', column_names,
            '--key-columns', key_columns,
            '--project', project,
            '--mode', mode,
            '--output', validation_output,
        ],
        file_outputs = {
            'schema': '/schema.txt',
        }
    )

def dataflow_tf_transform_op(train_data: 'GcsUri', evaluation_data: 'GcsUri', schema: 'GcsUri[text/json]', project: 'GcpProject', preprocess_mode, preprocess_module: 'GcsUri[text/code/python]', transform_output: 'GcsUri[Directory]', step_name='preprocess'):
    return dsl.ContainerOp(
        name = step_name,
        image = DATAFLOW_TFT_IMAGE,
        arguments = [
            '--train', train_data,
            '--eval', evaluation_data,
            '--schema', schema,
            '--project', project,
            '--mode', preprocess_mode,
            '--preprocessing-module', preprocess_module,
            '--output', transform_output,
        ],
        file_outputs = {'transformed': '/output.txt'}
    )


def tf_train_op(transformed_data_dir, schema: 'GcsUri[text/json]', learning_rate: float, hidden_layer_size: int, steps: int, target: str, preprocess_module: 'GcsUri[text/code/python]', training_output: 'GcsUri[Directory]', step_name='training', use_gpu=False):
    tf_train_op = dsl.ContainerOp(
        name = step_name,
        image = KUBEFLOW_TF_TRAINER_IMAGE,
        arguments = [
            '--transformed-data-dir', transformed_data_dir,
            '--schema', schema,
            '--learning-rate', learning_rate,
            '--hidden-layer-size', hidden_layer_size,
            '--steps', steps,
            '--target', target,
            '--preprocessing-module', preprocess_module,
            '--job-dir', training_output,
        ],
        file_outputs = {'train': '/output.txt'}
    )
    return tf_train_op

def dataflow_tf_model_analyze_op(model: 'TensorFlow model', evaluation_data: 'GcsUri', schema: 'GcsUri[text/json]', project: 'GcpProject', analyze_mode, analyze_slice_column, analysis_output: 'GcsUri', step_name='analysis'):
    return dsl.ContainerOp(
        name = step_name,
        image = DATAFLOW_TFMA_IMAGE,
        arguments = [
            '--model', model,
            '--eval', evaluation_data,
            '--schema', schema,
            '--project', project,
            '--mode', analyze_mode,
            '--slice-columns', analyze_slice_column,
            '--output', analysis_output,
        ],
        file_outputs = {'analysis': '/output.txt'}
    )


def dataflow_tf_predict_op(evaluation_data: 'GcsUri', schema: 'GcsUri[text/json]', target: str, model: 'TensorFlow model', predict_mode, project: 'GcpProject', prediction_output: 'GcsUri', step_name='prediction'):
    return dsl.ContainerOp(
        name = step_name,
        image = DATAFLOW_TF_PREDICT_IMAGE,
        arguments = [
            '--data', evaluation_data,
            '--schema', schema,
            '--target', target,
            '--model',  model,
            '--mode', predict_mode,
            '--project', project,
            '--output', prediction_output,
        ],
        file_outputs = {'prediction': '/output.txt'}
    )

def kubeflow_deploy_op(model: 'TensorFlow model', tf_server_name, step_name='deploy'):
    return dsl.ContainerOp(
        name = step_name,
        image = KUBEFLOW_DEPLOYER_IMAGE,
        arguments = [
            '--model-path', model,
            '--server-name', tf_server_name
        ]
    )


# The pipeline definition
@dsl.pipeline(
  name='TFX Taxi Cab Classification Pipeline Example',
  description='Example pipeline that does classification with model analysis based on a public BigQuery dataset.'
)
def taxi_cab_classification(
    output,
    project,
    column_names=dsl.PipelineParam(name='column-names', value='/home/zoux/data/taxi-cab-classification/column-names.json'),
    key_columns=dsl.PipelineParam(name='key-columns', value='trip_start_timestamp'),
    train=dsl.PipelineParam(name='train', value=TRAIN_DATA),
    evaluation=dsl.PipelineParam(name='evaluation', value=EVAL_DATA),
    validation_mode=dsl.PipelineParam(name='validation-mode', value='local'),
    preprocess_mode=dsl.PipelineParam(name='preprocess-mode', value='local'),
    preprocess_module: dsl.PipelineParam=dsl.PipelineParam(name='preprocess-module', value='/home/zoux/data/taxi-cab-classification/preprocessing.py'),
    target=dsl.PipelineParam(name='target', value='tips'),
    learning_rate=dsl.PipelineParam(name='learning-rate', value=0.1),
    hidden_layer_size=dsl.PipelineParam(name='hidden-layer-size', value=HIDDEN_LAYER_SIZE),
    steps=dsl.PipelineParam(name='steps', value=STEPS),
    predict_mode=dsl.PipelineParam(name='predict-mode', value='local'),
    analyze_mode=dsl.PipelineParam(name='analyze-mode', value='local'),
    analyze_slice_column=dsl.PipelineParam(name='analyze-slice-column', value='trip_start_hour')):

    # set the flag to use GPU trainer
    use_gpu = False
    
    validation_output = '/nfs-pv/tfx-pv'
    transform_output = '/nfs-pv/tfx-pv'
    training_output = '/nfs-pv/tfx-pv'
    analysis_output = '/nfs-pv/tfx-pv'
    prediction_output = '/nfs-pv/tfx-pv'
    tf_server_name = 'taxi-cab-classification-model-{{workflow.name}}'

    validation = dataflow_tf_data_validation_op(train, evaluation, column_names, key_columns, project, validation_mode, validation_output).add_volume(k8s_client.V1Volume(
        name='tfx-pv',
        nfs=k8s_client.V1NFSVolumeSource(path='/nfs-pv/tfx-pv',server='192.168.14.66'))).add_volume_mount(
        k8s_client.V1VolumeMount(mount_path='/nfs-pv/tfx-pv',name='tfx-pv'))
    
    preprocess = dataflow_tf_transform_op(train, evaluation, validation.outputs['schema'], project, preprocess_mode, preprocess_module, transform_output).add_volume(k8s_client.V1Volume(
        name='tfx-pv',
        nfs=k8s_client.V1NFSVolumeSource(path='/nfs-pv/tfx-pv',server='192.168.14.66'))).add_volume_mount(
        k8s_client.V1VolumeMount(mount_path='/nfs-pv/tfx-pv',name='tfx-pv'))
    
    
    training = tf_train_op(preprocess.output, validation.outputs['schema'], learning_rate, hidden_layer_size, steps, target, preprocess_module, training_output, use_gpu=use_gpu).add_volume(k8s_client.V1Volume(
        name='tfx-pv',
        nfs=k8s_client.V1NFSVolumeSource(path='/nfs-pv/tfx-pv',server='192.168.14.66'))).add_volume_mount(
        k8s_client.V1VolumeMount(mount_path='/nfs-pv/tfx-pv',name='tfx-pv'))
    
    analysis = dataflow_tf_model_analyze_op(training.output, evaluation, validation.outputs['schema'], project, analyze_mode, analyze_slice_column, analysis_output).add_volume(k8s_client.V1Volume(
        name='tfx-pv',
        nfs=k8s_client.V1NFSVolumeSource(path='/nfs-pv/tfx-pv',server='192.168.14.66'))).add_volume_mount(
        k8s_client.V1VolumeMount(mount_path='/nfs-pv/tfx-pv',name='tfx-pv'))
    
    prediction = dataflow_tf_predict_op(evaluation, validation.outputs['schema'], target, training.output, predict_mode, project, prediction_output).add_volume(k8s_client.V1Volume(
        name='tfx-pv',
        nfs=k8s_client.V1NFSVolumeSource(path='/nfs-pv/tfx-pv',server='192.168.14.66'))).add_volume_mount(
        k8s_client.V1VolumeMount(mount_path='/nfs-pv/tfx-pv',name='tfx-pv'))
    
    deploy = kubeflow_deploy_op(training.output, tf_server_name).add_volume(k8s_client.V1Volume(
        name='tfx-pv',
        nfs=k8s_client.V1NFSVolumeSource(path='/nfs-pv/tfx-pv',server='192.168.14.66'))).add_volume_mount(
        k8s_client.V1VolumeMount(mount_path='/nfs-pv/tfx-pv',name='tfx-pv'))

這里需要注意价卤，這個(gè)和官網(wǎng)給的例子是不同的劝萤，細(xì)心一點(diǎn)就可以發(fā)現(xiàn)這里沒有
“apply(gcp.use_gcp_secret('user-gcp-sa'))”。
這是因?yàn)樯厦婺蔷湓挼淖饔檬鞘褂胓s的掛載卷慎璧。我們國內(nèi)服務(wù)器是訪問不到的床嫌。所以我們得使用自己的掛載卷。
說的明白一點(diǎn)就是胸私，我們運(yùn)作的是一個(gè)圖厌处，圖中每一個(gè)節(jié)點(diǎn)是一個(gè)鏡像。pipelines中每一個(gè)節(jié)點(diǎn)運(yùn)行完岁疼，pod就會(huì)消失阔涉，所以該節(jié)點(diǎn)的數(shù)據(jù)也會(huì)丟失。所以我們必須讓所有節(jié)點(diǎn)都能訪問一個(gè)永遠(yuǎn)存在的目錄捷绒。這是我們就需要為所有節(jié)點(diǎn)掛載持久存儲(chǔ)卷瑰排。這里我使用的是NFS分布式存儲(chǔ)系統(tǒng)來當(dāng)存儲(chǔ)卷。
關(guān)于如何使用NFS暖侨，前面的文章已經(jīng)有過說明椭住，這里不再累贅。這里直接說明如何讓所有的容器都關(guān)聯(lián)一個(gè)NFS PV存儲(chǔ)卷字逗。
（1）創(chuàng)建pv,pvc
pv.yaml

apiVersion: v1
kind: PersistentVolume
metadata:
  name: tfx-pv
spec:
  capacity:
    storage: 5Gi
  accessModes:
    - ReadWriteOnce
  nfs:
    server: 192.168.14.66
    path: /nfs-pv/tfx-pv

pvc.yaml

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: tfxclaim
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 5Gi

創(chuàng)建好pv,pvc后京郑。運(yùn)行上面的代碼就能跑TFX實(shí)例了显押。

結(jié)果如下：

image.png

這里顯示最后幾個(gè)還有問題是因?yàn)樽詈蟮姆?wù)和分析也是在某歌平臺(tái)上的，我就沒修改了傻挂。
到這里至少就知道pipelines能在自己的集群上跑起來。接下來就是自己寫鏡像挖息，跑自己的代碼了金拒。
路漫漫其修遠(yuǎn)兮吾將上下而求索

最后編輯于：2019.04.07 18:19:17

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市套腹，隨后出現(xiàn)的幾起案子绪抛，更是在濱河造成了極大的恐慌，老刑警劉巖电禀，帶你破解...
沈念sama閱讀 211,042評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件幢码，死亡現(xiàn)場離奇詭異，居然都是意外死亡尖飞，警方通過查閱死者的電腦和手機(jī)症副，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,996評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來政基，“玉大人贞铣，你說我怎么就攤上這事【诿鳎” “怎么了辕坝？”我有些...
開封第一講書人閱讀 156,674評(píng)論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長荐健。經(jīng)常有香客問我酱畅，道長，這世上最難降的妖魔是什么江场？我笑而不...
開封第一講書人閱讀 56,340評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任纺酸，我火速辦了婚禮，結(jié)果婚禮上扛稽，老公的妹妹穿的比我還像新娘吁峻。我一直安慰自己，他們只是感情好在张，可當(dāng)我...
茶點(diǎn)故事閱讀 65,404評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布用含。她就那樣靜靜地躺著，像睡著了一般帮匾。火紅的嫁衣襯著肌膚如雪啄骇。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,749評(píng)論 1贊 289
城市分裂傳說
那天瘟斜，我揣著相機(jī)與錄音缸夹，去河邊找鬼痪寻。笑死，一個(gè)胖子當(dāng)著我的面吹牛虽惭，可吹牛的內(nèi)容都是我干的橡类。我是一名探鬼主播，決...
沈念sama閱讀 38,902評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼芽唇，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼顾画！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起匆笤，我...
開封第一講書人閱讀 37,662評(píng)論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤研侣，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后炮捧，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體庶诡，經(jīng)...
沈念sama閱讀 44,110評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,451評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年咆课，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了末誓。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,577評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡书蚪，死狀恐怖基显，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情善炫，我是刑警寧澤撩幽，帶...
沈念sama閱讀 34,258評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站箩艺，受9級(jí)特大地震影響窜醉，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜艺谆，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,848評(píng)論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一榨惰、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧静汤，春花似錦琅催、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,726評(píng)論 0贊 21
一樁弒父案藤抡，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至抹估，卻和暖如春缠黍，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背药蜻。一陣腳步聲響...
開封第一講書人閱讀 31,952評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工瓷式，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留替饿，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,271評(píng)論 2贊 360
代替公主和親
正文我出身青樓贸典，卻偏偏與公主長得像视卢，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子廊驼，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,452評(píng)論 2贊 348