Spark學(xué)習(xí)筆記01-基礎(chǔ)

本文基于 Spark 2.4.1 進(jìn)行演示鳄梅,相關(guān)代碼可以在我的Github上看到甚疟。

簡(jiǎn)介

Spark是一個(gè)分布式集群計(jì)算系統(tǒng)屯远,類似Hadoop提供了強(qiáng)大的分布式計(jì)算能力暖眼,相比過去的批量處理系統(tǒng)哩至,提供了處理更大規(guī)模數(shù)據(jù)的能力躏嚎。Spark提供了Java、Python菩貌、Scala卢佣、R接口。除常見的MapReduce運(yùn)算外箭阶,還支持圖虚茶、機(jī)器學(xué)習(xí)戈鲁、SparkSQL等計(jì)算方式。

特性

  • 高效 Speed嘹叫,因?yàn)楹芏鄶?shù)據(jù)都在內(nèi)存中婆殿,相比Hadoop,其處理更為高效罩扇。
  • 易用 Usability婆芦,Spark提供了80多個(gè)高級(jí)運(yùn)算符。
  • 通用 Generality喂饥,提供了大量的庫(kù)消约,包括SQL、DataFrames仰泻、MLib荆陆、GraphX、Spark Streaming集侯。
  • 兼容 Runs everywhere被啼,基于jvm能夠兼容不同類型的操作系統(tǒng)。

Spark運(yùn)行模式

  • local : 主要用于開發(fā)調(diào)試Spark應(yīng)用程序
  • Standlone : 利用Spark自帶的資源管理與調(diào)度器運(yùn)行Spark集群棠枉,采用Master/Slave結(jié)構(gòu)浓体,為解決單點(diǎn)故障,可以采用Xookeeper實(shí)現(xiàn)高可靠(High Availability, HA)
  • Apache Mesos : 運(yùn)行在著名的Mesos資源管理框架基礎(chǔ)之上辈讶,該集群運(yùn)行模式將資源管理管理交給Mesos,Spark只負(fù)責(zé)運(yùn)行任務(wù)調(diào)度和計(jì)算
  • Hadoop YARN : 集群運(yùn)行在Yarn資源管理器上命浴,資源管理交給YARN,Spark只負(fù)責(zé)進(jìn)行任務(wù)調(diào)度和計(jì)算

Mac本地安裝

首先從Spark官方網(wǎng)站下載合適的版本贱除,解壓到安裝目錄生闲,本文使用的是 2.4.1。

配置環(huán)境變量 ~/.bash_profile

export SPARK_HOME=/Users/shiqiang/Projects/tools/spark-2.4.1-bin-hadoop2.7
export PATH=${PATH}:${SPARK_HOME}/bin

本機(jī)的安裝目錄
~/Project/tools

在Mac系統(tǒng)管理中打開Mac遠(yuǎn)程登錄設(shè)置月幌,允許安裝用戶遠(yuǎn)程登錄碍讯。

啟動(dòng)命令

$ ./sbin/start-all.sh
$ jps
21731 Jps
21717 Worker
21515 Master

使用JPS命令可以看到Master和Worker已經(jīng)啟動(dòng)。也可以單獨(dú)啟動(dòng)master./sbin/start-master.sh扯躺,單獨(dú)啟動(dòng)Worker
./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

停止服務(wù)的方式也非常簡(jiǎn)單

$ ./sbin/stop-all.sh
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末捉兴,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子录语,更是在濱河造成了極大的恐慌倍啥,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,273評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件澎埠,死亡現(xiàn)場(chǎng)離奇詭異虽缕,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)失暂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門彼宠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來鳄虱,“玉大人,你說我怎么就攤上這事凭峡∽疽眩” “怎么了?”我有些...
    開封第一講書人閱讀 167,709評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵摧冀,是天一觀的道長(zhǎng)倍踪。 經(jīng)常有香客問我,道長(zhǎng)索昂,這世上最難降的妖魔是什么建车? 我笑而不...
    開封第一講書人閱讀 59,520評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮椒惨,結(jié)果婚禮上缤至,老公的妹妹穿的比我還像新娘。我一直安慰自己康谆,他們只是感情好领斥,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沃暗,像睡著了一般月洛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上孽锥,一...
    開封第一講書人閱讀 52,158評(píng)論 1 308
  • 那天嚼黔,我揣著相機(jī)與錄音,去河邊找鬼惜辑。 笑死唬涧,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的盛撑。 我是一名探鬼主播爵卒,決...
    沈念sama閱讀 40,755評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼撵彻!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起实牡,我...
    開封第一講書人閱讀 39,660評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤陌僵,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后创坞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體碗短,經(jīng)...
    沈念sama閱讀 46,203評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評(píng)論 3 340
  • 正文 我和宋清朗相戀三年题涨,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了偎谁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片总滩。...
    茶點(diǎn)故事閱讀 40,427評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖巡雨,靈堂內(nèi)的尸體忽然破棺而出闰渔,到底是詐尸還是另有隱情,我是刑警寧澤铐望,帶...
    沈念sama閱讀 36,122評(píng)論 5 349
  • 正文 年R本政府宣布冈涧,位于F島的核電站,受9級(jí)特大地震影響正蛙,放射性物質(zhì)發(fā)生泄漏督弓。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評(píng)論 3 333
  • 文/蒙蒙 一乒验、第九天 我趴在偏房一處隱蔽的房頂上張望愚隧。 院中可真熱鬧,春花似錦锻全、人聲如沸狂塘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽睹耐。三九已至,卻和暖如春部翘,著一層夾襖步出監(jiān)牢的瞬間硝训,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工新思, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留窖梁,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,808評(píng)論 3 376
  • 正文 我出身青樓夹囚,卻偏偏與公主長(zhǎng)得像纵刘,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子荸哟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • Zookeeper用于集群主備切換假哎。 YARN讓集群具備更好的擴(kuò)展性。 Spark沒有存儲(chǔ)能力鞍历。 Spark的Ma...
    Yobhel閱讀 7,280評(píng)論 0 34
  • 1. spark三種分布式部署模式 Spark支持的主要的三種分布式部署方式分別是standalone舵抹、spark...
    ZPPenny閱讀 10,105評(píng)論 0 5
  • spark-submit的時(shí)候如何引入外部jar包 在通過spark-submit提交任務(wù)時(shí),可以通過添加配置參數(shù)...
    博弈史密斯閱讀 2,750評(píng)論 1 14
  • Scala語法 至于scala語法而言劣砍,大致上和Java的語法類似惧蛹,增加了一些函數(shù)式編程,具體語法可以參考Scal...
    卡卡xx閱讀 2,836評(píng)論 0 1
  • Apache Spark是一個(gè)圍繞速度、易用性和復(fù)雜分析構(gòu)建的大數(shù)據(jù)處理框架香嗓,最初在2009年由加州大學(xué)伯克利分校...
    三萬_chenbing閱讀 638評(píng)論 0 5