關于Azure Databricks 你必須要知道的幾件事

什么是 Azure Databricks

Azure Databricks是一個完全托管的匿辩、基于云的大數(shù)據(jù)分析和機器學習平臺令境,通過簡化搭建企業(yè)級生產環(huán)境數(shù)據(jù)應用程序的流程晒旅,使開發(fā)人員能夠加速導入數(shù)據(jù)智能和應用創(chuàng)新。Azure Databricks是由Apache Spark的創(chuàng)始團隊和微軟共同打造的掷邦,它為數(shù)據(jù)科學和數(shù)據(jù)工程團隊提供了一個用于大數(shù)據(jù)處理和機器學習的統(tǒng)一平臺白胀。

通過將Databricks的強大功能與微軟Azure平臺的企業(yè)級和安全性相結合,Azure Databricks簡化了大規(guī)模Spark工作負載的運營抚岗。Databricks是一款端到端的或杠、可管理的、針對云優(yōu)化的Apache Spark平臺宣蔚。Azure Databricks提供了一個交互式工作區(qū)向抢,支撐數(shù)據(jù)工程師、數(shù)據(jù)科學家和機器學習工程師之間的協(xié)作胚委。Azure Databricks 系統(tǒng)架構如下圖所示:


Azure Databricks 中的Spark 生態(tài)

Azure Databricks 包含完整的開源 Apache Spark 群集技術和功能挟鸠。 Azure Databricks 中的 Spark 包括下列組件:

? ? Spark SQL 和 DataFrames:Spark SQL 是用于處理結構化數(shù)據(jù)的 Spark 模塊。 DataFrames是基于列存儲的分布式數(shù)據(jù)集合亩冬。 它在概念上相當于關系型數(shù)據(jù)庫中的表艘希,或R/Python 中的DataFrames硼身。

? ? 流式處理(Streaming):實時數(shù)據(jù)處理和分析,適用于分析與交互式應用程序覆享。 可以與 HDFS佳遂、Flume 和 Kafka 集成。

? ? MLlib:由常見學習算法和實用工具(包括分類撒顿、回歸丑罪、群集、協(xié)作篩選凤壁、維數(shù)約簡以及底層優(yōu)化基元)組成的機器學習庫巍糯。

? ? GraphX:圖形和圖形計算,適用于從認知分析到數(shù)據(jù)探索的廣泛用例客扎。

? ? Spark Core API:包含對 R祟峦、SQL、Python徙鱼、Scala 和 Java 的支持宅楞。

Azure Databricks關鍵企業(yè)級能力解讀

Azure Databricks的架構可以保證跨功能團隊的安全協(xié)作,同時保留由Azure Databricks管理的大量后端服務袱吆,這樣使用者就可以專注于數(shù)據(jù)科學厌衙、數(shù)據(jù)分析和數(shù)據(jù)工程任務。

盡管架構可能因自定義配置而有所不同 (例如绞绒,當Azure Databricks工作區(qū)部署到自己的虛擬網絡時婶希,也稱為VNet注入),下面的架構圖表示了Azure Databricks最常見的結構和數(shù)據(jù)流蓬衡。

Azure Databricks企業(yè)級數(shù)據(jù)安全設計

控制平面包括Azure Databricks在其自身的Azure帳戶中管理的后端服務喻杈。用戶運行的任何命令都將存在于控制平面中,而用戶的代碼將完全加密狰晚。用戶保存的命令駐留在數(shù)據(jù)平面中筒饰。

數(shù)據(jù)平面由用戶的Azure帳戶管理,它是用戶數(shù)據(jù)駐留的地方壁晒。這也是處理數(shù)據(jù)的地方瓷们。此圖假設數(shù)據(jù)已經被攝入到Azure數(shù)據(jù)庫中,但是用戶可以從外部數(shù)據(jù)源攝入數(shù)據(jù)秒咐,例如事件(Event)數(shù)據(jù)谬晕、流(Streaming)數(shù)據(jù)、物聯(lián)網(IoT)數(shù)據(jù)等等携取。用戶也可以使用Azure Databricks連接器連接到Azure帳戶之外的外部數(shù)據(jù)源進行存儲攒钳。

用戶的數(shù)據(jù)總是駐留在數(shù)據(jù)平面的Azure帳戶中,而不是控制平面歹茶,因此用戶總是保持對數(shù)據(jù)的完全控制和所有權夕玩,而不需要鎖定你弦。

Azure Databricks典型數(shù)據(jù)分析應用場景

在微軟云Azure中進行大數(shù)據(jù)分析時,原始或結構化的數(shù)據(jù)將通過 Azure 數(shù)據(jù)工廠以批量的形式引入 Azure燎孟,或者通過 Apache Kafka禽作、事件中心(Event Hub)或 IoT 中心進行準實時的流式傳輸。這些數(shù)據(jù)攝入模式將數(shù)據(jù)將駐留在數(shù)據(jù)湖(Data Lake)的各種存儲位置中揩页。 在運行分析工作流時旷偿,用戶可以使用 Azure Databricks 從數(shù)據(jù)湖的各種數(shù)據(jù)源讀取數(shù)據(jù),并使用 Spark 將數(shù)據(jù)進行處理爆侣,再將之放入Azure Cosmos DB萍程,Azure SQL,Azure DB for MySQL或 Azure SQL 數(shù)據(jù)倉庫等服務中兔仰,以便于被下游各種數(shù)據(jù)消費者消費茫负。參考架構如下圖所示。


Azure Databricks能力清單

Azure Databricks 擁有一個安全的云上高可用生產環(huán)境乎赴,由 Spark 專家進行管理和提供支持忍法。 用戶可以:

? ? 在幾秒鐘內創(chuàng)建群集。

? ? 動態(tài)自動擴展和縮減群集并在團隊中共享群集榕吼。

? ? 通過調用 REST API 以編程方式使用群集饿序。

? ? 使用基于 Spark 的安全數(shù)據(jù)集成功能,在不用集中化的情況下統(tǒng)一數(shù)據(jù)羹蚣。

? ? 及時獲得每個版本中的最新 Apache Spark 功能原探。

Azure Databricks 工作區(qū)(Workspace

構建在完整的 Spark 功能基礎之上,提供一個完全托管的云平臺顽素,其中包括:

? ? 完全托管的 Spark 群集

? ? 用于探索和可視化的交互式工作區(qū)

? ? 一個為現(xiàn)有的Spark應用程序提供支持的平臺

Databricks 運行時(Runtime

? ? Azure Databricks 運行時構建在 Apache Spark 的基礎之上咽弦,是Spark 創(chuàng)始團隊專門針對 Azure 云以原生方式構建和優(yōu)化的的。

? ? Azure Databricks 通過高度抽象化徹底消除了基礎結構復雜性戈抄,無需專業(yè)知識就能設置和配置大數(shù)據(jù)分析基礎設施离唬。

? ? 對于性能敏感的生產作業(yè)而言,Azure Databricks 通過 I/O 層和處理層 (Databricks I/O) 的各種優(yōu)化提供了一個優(yōu)于開源版本20-50倍的 Spark 引擎划鸽。

云上大數(shù)據(jù)協(xié)同分析

? ? 通過協(xié)作和集成式環(huán)境,Azure Databricks 簡化了在 Spark 中瀏覽數(shù)據(jù)戚哎、制作原型和運行數(shù)據(jù)驅動型應用程序的過程裸诽。

? ? 通過簡單的數(shù)據(jù)瀏覽確定如何使用數(shù)據(jù)。

? ? 在以 R型凳、Python丈冬、Scala 或 SQL 編寫的筆記本中記錄進度。

? ? 幾步內即可實現(xiàn)數(shù)據(jù)可視化甘畅,可以使用熟悉的工具埂蕊,例如 Matplotlib往弓、ggplot 或 d3。

? ? 使用交互式儀表板創(chuàng)建動態(tài)報告蓄氧。

? ? 在使用 Spark 的同時與數(shù)據(jù)交互函似。


參考:

https://docs.microsoft.com/zh-cn/azure/databricks/getting-started/overview

https://docs.microsoft.com/zh-cn/azure/databricks/scenarios/what-is-azure-databricks-ws

https://docs.microsoft.com/zh-cn/azure/databricks/scenarios/what-is-azure-databricks


獲取云上規(guī)暮硗化分析白皮書

https://azure.microsoft.com/zh-cn/resources/cloud-analytics-with-microsoft-azure/

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市堂氯,隨后出現(xiàn)的幾起案子蔑担,更是在濱河造成了極大的恐慌咽白,老刑警劉巖啤握,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異晶框,居然都是意外死亡,警方通過查閱死者的電腦和手機三妈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來畴蒲,“玉大人悠鞍,你說我怎么就攤上這事∧T铮” “怎么了咖祭?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵蔫骂,是天一觀的道長。 經常有香客問我辽旋,道長浩嫌,這世上最難降的妖魔是什么补胚? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮溶其,結果婚禮上,老公的妹妹穿的比我還像新娘瓶逃。我一直安慰自己廓块,他們只是感情好,可當我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布带猴。 她就那樣靜靜地躺著埠褪,像睡著了一般浓利。 火紅的嫁衣襯著肌膚如雪钞速。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天渴语,我揣著相機與錄音,去河邊找鬼驾凶。 笑死,一個胖子當著我的面吹牛调违,可吹牛的內容都是我干的。 我是一名探鬼主播技肩,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼旋奢!你這毒婦竟也來了?” 一聲冷哼從身側響起至朗,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤剧浸,失蹤者是張志新(化名)和其女友劉穎锹引,沒想到半個月后辛蚊,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡袋马,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年秸应,在試婚紗的時候發(fā)現(xiàn)自己被綠了碑宴。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡延柠,死狀恐怖锣披,靈堂內的尸體忽然破棺而出贞间,到底是詐尸還是另有隱情雹仿,我是刑警寧澤增热,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布胧辽,位于F島的核電站,受9級特大地震影響邑商,放射性物質發(fā)生泄漏。R本人自食惡果不足惜人断,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望恶迈。 院中可真熱鬧,春花似錦蝉绷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽桅狠。三九已至,卻和暖如春中跌,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背漩符。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人议蟆。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓萎战,卻偏偏與公主長得像咐容,于是被迫代替她去往敵國和親蚂维。 傳聞我的和親對象是個殘疾皇子戳粒,可洞房花燭夜當晚...
    茶點故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內容