對于Spark的認識归形,在以下視頻中說明铛只。全部免費課程可在騰訊課堂查看:個人大數(shù)據(jù)平臺的搭建與學習實踐-PySpark-學習視頻教程-騰訊課堂 (qq.com)
首先通過Spark官方文檔的說明進行認識Spark治拿,官網(wǎng)地址為:http://spark.apache.org/
就依據(jù)主頁上的說明析既,進行對Spark認識。
是什么
Apache Spark是一個用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎蓬豁。
運行速度
Apache Spark使用最先進的DAG調度器绰咽、查詢優(yōu)化器和物理執(zhí)行引擎,實現(xiàn)了批處理和流數(shù)據(jù)的高性能地粪。
在“邏輯回歸”測試中取募,Spark的執(zhí)行速度是Hadoop的100倍,所以Spark計算引擎具有高性能驶忌。
上手難度
對于Spark可以用Java矛辕、Scala、Python付魔、R和SQL快速編寫應用程序聊品,所以受眾很廣泛几苍,并且于Python、R和SQL的對初學者也很友好妻坝,適合入門學習惊窖。
Spark提供了80多個高級操作符,可以輕松構建并行應用厘贼。可以在Scala嘴秸、Python、R和SQL shell中交互地使用它岳掐。
組成模塊
Spark由4大功能庫構成,分別是:Spark SQL串述、Spark Streaming执解、MLib纲酗、GraphX。
Spark支持一系列庫耕姊,如SQL和DataFrames進行數(shù)據(jù)分析處理,用于機器學習的MLlib, GraphX和數(shù)據(jù)流Spark Streaming茉兰∮仍螅可以在同一個應用程序中無縫地組合這些庫。
執(zhí)行平臺
可以在EC2规脸、Hadoop YARN坯约、Mesos或Kubernetes上以獨立集群模式運行Spark∧迹可訪問HDFS闹丐、Apache Cassandra、Apache HBase被因、Apache Hive等數(shù)百個數(shù)據(jù)源卿拴。所以Spark并不是要求一定要直接對接Hadoop。
實驗的Spark環(huán)境
我們在第1講在Windows上構建了Spark 2環(huán)境梨与,在第2講構建HDP大數(shù)據(jù)平臺中是Spark 1環(huán)境堕花。
所以我們有兩套的Spark環(huán)境,本來是應該就對Spark 2進行說明粥鞋,但由于HDP中的Spark環(huán)境
可以連接大數(shù)據(jù)環(huán)境中的不同的服務如Hive缘挽、HDFS進行連接操作,所以對Spark 1也順帶說明,并且對比與Spark 2的差異壕曼。