原文: https://www.tensorflow.org/tfx/tutorials/tfx/airflow_workshop
在之前已經(jīng)完成了 TFX Airflow 安裝
這里繼續(xù)按照tutorial進(jìn)行下一步的數(shù)據(jù)分析
- 我們進(jìn)入頁(yè)面后是這樣的迈套,里面有兩個(gè)DAG
-
我們enable第一個(gè)taxi項(xiàng)目的DAG嘁字,點(diǎn)進(jìn)去后就可以看到相應(yīng)的模塊(這里由于代碼中注釋掉了后續(xù)step所以只有一個(gè)模塊被展示了出來(lái))我們執(zhí)行它(上個(gè)圖里的Links下的第一個(gè)圖標(biāo))穆律,執(zhí)行ok后模塊邊緣顏色會(huì)變成深綠色!
- 進(jìn)行數(shù)據(jù)分析
3.1 我們進(jìn)入到airflow/dags/taxi_pipeline.py
將所有含有Step3的步驟都打開(kāi)注釋?zhuān)⑶宜⑿麓a享甸,再進(jìn)入DAG中看下,
我們可以看到從原來(lái)的一個(gè)模塊增加了3個(gè)模塊。
這第三個(gè)模塊是:
- ExampleGen ingests and splits the input dataset.
- StatisticsGen calculates statistics for the dataset.
- SchemaGen SchemaGen examines the statistics and creates a data schema.
- ExampleValidator looks for anomalies and missing values in the dataset.
3.2 我們執(zhí)行DAG钻心!
3.3 在jupyternotebook看數(shù)據(jù)分析結(jié)果
在教程: TFX Airflow 安裝 中我們啟動(dòng)了notebook唉匾,我們進(jìn)入 step3.ipynb
執(zhí)行代碼
這里用的數(shù)據(jù)分析工具叫做TFDV 在之后會(huì)做一些學(xué)習(xí)整理再附上鏈接(TODO)
注意:這里如果有代碼錯(cuò)誤的話在終端的日志和頁(yè)面都會(huì)報(bào)錯(cuò)孕讳,注意看日志修改代碼即可匠楚。