Spark History Server配置使用 - 瞌睡中的葡萄虎 - 博客園
http://www.cnblogs.com/luogankun/p/3981645.html
Spark history Server產(chǎn)生背景
以standalone運(yùn)行模式為例,在運(yùn)行Spark Application的時(shí)候,Spark會(huì)提供一個(gè)WEBUI列出應(yīng)用程序的運(yùn)行時(shí)信息兔魂;但該WEBUI隨著Application的完成(成功/失敗)而關(guān)閉,也就是說愕提,Spark Application運(yùn)行完(成功/失敗)后,將無法查看Application的歷史記錄皿哨;
Spark history Server就是為了應(yīng)對(duì)這種情況而產(chǎn)生的浅侨,通過配置可以在Application執(zhí)行的過程中記錄下了日志事件信息,那么在Application執(zhí)行結(jié)束后证膨,WEBUI就能重新渲染生成UI界面展現(xiàn)出該Application在執(zhí)行過程中的運(yùn)行時(shí)信息如输;
Spark運(yùn)行在yarn或者mesos之上,通過spark的history server仍然可以重構(gòu)出一個(gè)已經(jīng)完成的Application的運(yùn)行時(shí)參數(shù)信息(假如Application運(yùn)行的事件日志信息已經(jīng)記錄下來)央勒;
//
配置&使用Spark History Server
以默認(rèn)配置的方式啟動(dòng)spark history server:
cd $SPARK_HOME/sbinstart****-history-server.sh
//
history server相關(guān)的配置參數(shù)描述
1) spark.history.updateInterval 默認(rèn)值:10 以秒為單位挨决,更新日志相關(guān)信息的時(shí)間間隔
2)spark.history.retainedApplications 默認(rèn)值:50 在內(nèi)存中保存Application歷史記錄的個(gè)數(shù),如果超過這個(gè)值订歪,舊的應(yīng)用程序信息將被刪除,當(dāng)再次訪問已被刪除的應(yīng)用信息時(shí)需要重新構(gòu)建頁(yè)面肆捕。
3)spark.history.ui.port 默認(rèn)值:18080 HistoryServer的web端口
4)spark.history.kerberos.enabled 默認(rèn)值:false 是否使用kerberos方式登錄訪問HistoryServer刷晋,對(duì)于持久層位于安全集群的HDFS上是有用的,如果設(shè)置為true慎陵,就要配置下面的兩個(gè)屬性
5)spark.history.kerberos.principal 默認(rèn)值:用于HistoryServer的kerberos主體名稱
6)spark.history.kerberos.keytab 用于HistoryServer的kerberos keytab文件位置
7)spark.history.ui.acls.enable 默認(rèn)值:false 授權(quán)用戶查看應(yīng)用程序信息的時(shí)候是否檢查acl。如果啟用席纽,只有應(yīng)用程序所有者和spark.ui.view.acls指定的用戶可以查看應(yīng)用程序信息;否則捏悬,不做任何檢查
8)spark.eventLog.enabled 默認(rèn)值:false 是否記錄Spark事件,用于應(yīng)用程序在完成后重構(gòu)webUI
9)spark.eventLog.dir 默認(rèn)值:file:///tmp/spark-events 保存日志相關(guān)信息的路徑润梯,可以是hdfs://開頭的HDFS路徑甥厦,也可以是file://開頭的本地路徑,都需要提前創(chuàng)建
10)**spark.eventLog.compress ** 默認(rèn)值:false 是否壓縮記錄Spark事件寇钉,前提spark.eventLog.enabled為true刀疙,默認(rèn)使用的是snappy
以spark.history開頭的需要配置在spark-env.sh中的SPARK_HISTORY_OPTS,以spark.eventLog開頭的配置在spark-defaults.conf