因?yàn)楣ぷ鞯年P(guān)系, 開始接觸 Kubeflow. "實(shí)踐出真知", 快速入門的最快的方式就是搭建環(huán)境,再跑個(gè)例子, 好在社區(qū)這塊的資料很多. 從?Kubeflow Pipeline 入手, 一次可以接觸所有組件.
直接選擇?Kubeflow Pipeline 中的例子?cab_classification. 在 experiments 界面, 可以獲得流水行運(yùn)行的結(jié)果:
幾點(diǎn)感受:
1. Pipeline 基于 Argo實(shí)現(xiàn), 可以快速構(gòu)建 DAG(Directed Acyclic Graph) 和 Step-based 流水線, 可以滿足絕大多數(shù)需求.
2. 文檔里發(fā)布 Kubeflow 前端的的方式采用 kube proxy port-forward 的方式, 使用 Istio Ingress + Gateway + VirtualService 可以更加靈活.
3. 報(bào)錯(cuò), 嚴(yán)格的說是沒有報(bào)錯(cuò), 比如初始化用戶命名空間是有格式校驗(yàn)的, 但是頁面不會(huì)報(bào)錯(cuò), 要查看組件日志才能發(fā)現(xiàn). 考慮到大多數(shù)?Kubeflow 的用戶是算法科學(xué)家的話, 這個(gè)體驗(yàn)確實(shí)很差.
4. 提供的例子重度依賴Google環(huán)境, 比如流水線構(gòu)建物輸入輸出, 比如: 數(shù)據(jù), Model, Tensorboard 依賴的 event data 都依賴 Google的對(duì)象存儲(chǔ)服務(wù). 雖然可以使用S3或者M(jìn)inio做替換, 但是還有一些其他依賴問題, 比如這個(gè)例子會(huì)使用?Apache Beam?預(yù)處理和模型分析, 但是?Apache Beam?并不支持 S3.?S3 errors in Pipeline examples for reading training data and artifact storage. 類似的問題還有個(gè)別組件的前端僅支持?minio, s3, gc, http, https, 要知道本地部署的環(huán)境多是 localpath 或者 NFS.?
感覺離真正的產(chǎn)線部署還有很遠(yuǎn)的距離.