姓名:李藝暄 ? 學(xué)號:14310116071
轉(zhuǎn)載自:http://www.infoq.com/cn/news/2018/01/big-data-pipelines-kubernetes
【嵌牛導(dǎo)讀】:來自lguazio的大數(shù)據(jù)架構(gòu)師Eliran Bivas在最近舉行的北美KubeCon+CloudNativeCon 2017大會上做了演講,談?wù)摿舜髷?shù)據(jù)管道以及Kubernetes將如何幫助構(gòu)建現(xiàn)代大數(shù)據(jù)管道。
【嵌牛鼻子】:Kubernetes法牲,大數(shù)據(jù)
【嵌牛提問】:容器技術(shù)是否會為現(xiàn)代數(shù)據(jù)管道的實現(xiàn)帶來可能性?
【嵌牛正文】:作者 Srini Penchikala 蛮艰,譯者 薛命燈
容器技術(shù)(如Kubernetes)為現(xiàn)代數(shù)據(jù)管道的實現(xiàn)帶來了可能性。來自lguazio的大數(shù)據(jù)架構(gòu)師Eliran Bivas在最近舉行的北美KubeCon+CloudNativeCon 2017大會上做了演講雀彼,談?wù)摿舜髷?shù)據(jù)管道以及Kubernetes將如何幫助構(gòu)建現(xiàn)代大數(shù)據(jù)管道壤蚜。
在過去,大數(shù)據(jù)主要依賴Hadoop徊哑,而近年來袜刷,大數(shù)據(jù)生態(tài)系統(tǒng)出現(xiàn)了新的數(shù)據(jù)庫、流式數(shù)據(jù)和機器學(xué)習(xí)解決方案莺丑,Hadoop的部署模型(Map Reduce著蟹、YARN和HDFS)已經(jīng)無法完全滿足它們的要求。它們還需要集群調(diào)度層來托管各種工作負(fù)載梢莽,如Kafka萧豆、Spark和TensorFlow,并使用存儲在各種數(shù)據(jù)庫中的數(shù)據(jù)昏名,如Cassandra涮雷、Elasticsearch和云存儲。
Bivas談?wù)摿塑浖_發(fā)生命周期中的各種團隊和他們的主要目標(biāo)葡粒。應(yīng)用工程師想要敏捷式的軟件開發(fā)份殿,數(shù)據(jù)工程師更關(guān)心數(shù)據(jù)被保存在哪里膜钓,想要讓數(shù)據(jù)庫運行在最佳狀態(tài)嗽交,而DevOps團隊希望所有系統(tǒng)都能正常工作,減少維護和中斷時間颂斜。得益于容器技術(shù)的發(fā)展夫壁,所有這些目標(biāo)都有望達(dá)成。
他介紹了一種通用框架沃疮,用于創(chuàng)建端到端的云原生分析應(yīng)用程序盒让。開發(fā)人員負(fù)責(zé)對數(shù)據(jù)服務(wù)與應(yīng)用程序進行解耦,框架則讓大數(shù)據(jù)解決方案更靈活和高效司蔬。該框架也可用在數(shù)據(jù)服務(wù)上邑茄,用于管理各種結(jié)構(gòu)化、非結(jié)構(gòu)化和流式數(shù)據(jù)俊啼。
整個解決方案應(yīng)該要基于云原生應(yīng)用和框架肺缕,并使用Kubernetes提供的統(tǒng)一編排層。
Bivas描繪了一種持續(xù)分析流模型,包括處于中間層的數(shù)據(jù)服務(wù)同木,它們使用容器化的Spark浮梢、TensorFlow等大數(shù)據(jù)分析工具來分析來自數(shù)據(jù)存儲(關(guān)系型數(shù)據(jù)庫)和外部(物聯(lián)網(wǎng))的數(shù)據(jù)。
無服務(wù)器框架Kubeless和OpenFaaS可用在這些解決方案中彤路。無服務(wù)器解決方案可以在不使用YAML秕硝、Dockerfile等文件的情況下進行方便的部署。它們還支持自動伸縮和觸發(fā)事件洲尊。
Bivas還介紹了Nuclio的架構(gòu)細(xì)節(jié)远豺,Nuclio是最近開源的一個實時無服務(wù)器平臺。它使用Kubernetes作為YARN之外的替代方案颊郎,還使用了Spark ML憋飞、Presto、TensorFlow和Python姆吭,以及無服務(wù)器Function榛做。Nuclio還支持可插拔的事件源和數(shù)據(jù)源。
他還談?wù)摿藢崟r分析技術(shù)在汽車維護方面的應(yīng)用内狸,通過Web API流式化汽車相關(guān)數(shù)據(jù)检眯,并使用微服務(wù)進行數(shù)據(jù)攝取。他們使用天氣數(shù)據(jù)和道路數(shù)據(jù)來增強汽車數(shù)據(jù)昆淡,根據(jù)天氣條件組裝合適的汽車配件锰瘸。
Bivas在演講中進行了一個演示,展示了基于云原生架構(gòu)進行大數(shù)據(jù)分析的優(yōu)勢昂灵。在演講結(jié)時避凝,Bivas總結(jié)了一些最佳實踐,如使用Kubernetes提供的工具眨补、記錄應(yīng)用日志管削、收集度量指標(biāo)、通過度量指標(biāo)了解應(yīng)用程序的性能撑螺。
如果讀者對Nuclio框架感興趣含思,可以查看它的GitHub項目、代碼示例和文檔甘晤。