2017 年首次 Strata + Hadoop World 大會于 3 月 13 在美國加州圣何塞舉辦揭蜒,并持續(xù)到 3 月 16 日弥雹。來自全球各地的大數(shù)據(jù)鹦筹、機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)的專家在這里分享了很多在各自的業(yè)務(wù)領(lǐng)域解決實(shí)際問題的經(jīng)驗(yàn)秋秤,吸引了很多廠商贊助并設(shè)立展臺介衔。本文主要總結(jié)一下大會開始首日的一些 Event 安排恨胚。
我們可以在 這里 看到 3 月 13 日的具體安排。這天雖然是各個(gè)參展方布置會場的時(shí)間炎咖,主辦方還是為參加大會的從業(yè)者啟動了為期兩天的培訓(xùn)課程赃泡,這些課程包含:
Spark foundations: Prototyping Spark use cases on Wikipedia datasets
Apache Spark 的真正能力和價(jià)值在于將 ETL、批量分析乘盼、實(shí)時(shí)流分析升熊、機(jī)器學(xué)習(xí)、圖處理以及可視化的技術(shù)和方案組合起來并創(chuàng)建了一個(gè)統(tǒng)一的方式绸栅。主講者 Jacob Parr 使用維基百科數(shù)據(jù)集設(shè)計(jì)了動手練習(xí)課程來探索各種可能的 Spark 上的編程模式级野。訓(xùn)練結(jié)束后,參加課程的同學(xué)們可以開發(fā)一些 Spark 上的原型概念產(chǎn)品阴幌。
Data science at scale: Using Spark and Hadoop
數(shù)據(jù)科學(xué)家通過創(chuàng)建信息平臺處理數(shù)據(jù)來提供深度洞見并回答以前無法想象的問題勺阐。Spark 和 Hadoop 正在通過提供對大規(guī)模數(shù)據(jù)進(jìn)行交互和分析的能力來改變數(shù)據(jù)科學(xué)家的工作方式。這個(gè)課程將分享數(shù)據(jù)科學(xué)家是如何使用 Spark 和 Hadoop 幫助企業(yè)降低成本矛双、增加收入渊抽、改進(jìn)產(chǎn)品、獲得并留住用戶以及發(fā)現(xiàn)新機(jī)會的议忽。
主講者 Bruce Martin 剖析了數(shù)據(jù)科學(xué)家的工作內(nèi)容懒闷、他們解決的問題以及他們使用的技術(shù)和工具,通過課程中的模擬和練習(xí),Bruce 會帶著參與課程的同學(xué)們應(yīng)用數(shù)據(jù)科學(xué)來解決真實(shí)世界中不同行業(yè)的實(shí)際問題愤估。
課程內(nèi)容:
- 如何找到數(shù)據(jù)科學(xué)可以提供有影響力的結(jié)果的潛在商業(yè)案例
- 如何獲取帮辟、清洗以及整合不同的數(shù)據(jù)源用于分析
- 如何挑選合適的統(tǒng)計(jì)學(xué)方法來找到數(shù)據(jù)中的價(jià)值
- 什么時(shí)候在什么地方引入 Spark 和 Hadoop 到數(shù)據(jù)科學(xué)的處理過程中
- 對于一個(gè)特定的數(shù)據(jù)科學(xué)工程來說,如何選擇合適的機(jī)器學(xué)習(xí)技術(shù)
- 部署新的分析平臺到大規(guī)模生產(chǎn)環(huán)境中的一些陷阱
Real-time data engineering in the cloud
云計(jì)算平臺現(xiàn)在可以讓我們以更經(jīng)濟(jì)玩焰、更快地處理業(yè)務(wù)由驹,而且實(shí)時(shí)大數(shù)據(jù)處理正在開創(chuàng)全新的應(yīng)用場景。將這兩者結(jié)合起來昔园,我們可以更容易地創(chuàng)建生產(chǎn)環(huán)境中的實(shí)時(shí)處理系統(tǒng)蔓榄。處理實(shí)時(shí)大數(shù)據(jù),我們會面臨兩個(gè)重要挑戰(zhàn):
- 如獲取大量的數(shù)據(jù)
- 如何實(shí)時(shí)處理大規(guī)模的數(shù)據(jù)
主講者 Jesse Anderson 探索了各種最新的實(shí)時(shí)框架(包括開源實(shí)現(xiàn)和托管在云端的服務(wù))默刚,討論了元計(jì)算服務(wù)提供商甥郑,并解釋了如何挑選適合自己的云服務(wù)』缥鳎基于 Apache Kafka 和 Spark澜搅,Jesse 演示了如何獲取數(shù)據(jù)、處理數(shù)據(jù)邪锌、分析數(shù)據(jù)以及在控制臺展示數(shù)據(jù)的整個(gè)流程勉躺。
Machine learning with TensorFlow
主講者 Robert Schroll 使用 Python 接口演示了 TensorFlow 的能力,并介紹了一些 TFLearn秃流,一個(gè)封裝了 TensorFlow 的上層深度學(xué)習(xí)庫赂蕴。TensorFlow 是 Google 開源的深度學(xué)習(xí)庫,允許使用數(shù)據(jù)流圖進(jìn)行支持自動化平行和跨架構(gòu)(CPU & GPU)的數(shù)值計(jì)算舶胀。這個(gè)框架非常適合用來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)和其他機(jī)器學(xué)習(xí)算法概说。通過該課程,參與的同學(xué)們可以學(xué)習(xí)如何使用 TFLearn 和 TensorFlow 創(chuàng)建解決實(shí)際問題的機(jī)器學(xué)習(xí)模型嚣伐。