Spark Streaming WebUI監(jiān)控摩骨,查看Streaming Statistics,Batch(job stage task)

摘要:Spark Streaming朗若,yarn恼五,Streaming StatisticsActive Batches哭懈,Completed Batches
總結一下Spark Streaming Application在yarn上的WebUI的查看和使用

查看Application

打開首頁灾馒,可以直接看到所有在yarn集群上運行的任務,使用右上角search可以定位到想查看的應用遣总,application的name和SparkConf的上下文的setAppName保持一致睬罗。每一個應用記錄了ID轨功,user,應用名稱傅物,應用類型(Spark應用就是Spark),開始時間琉预,結束時間董饰,狀態(tài)(ACCEPTED,RUNNING,FINISHED,FAILED,KILLED等),最終狀態(tài)圆米,跟蹤UI地址等卒暂。

首頁.png

查看Streaming

使用yarn調(diào)度的application,application信息通過application WebUI暴露出來娄帖。對于spark而言也祠,application WebUI是通過driver暴露出來的,而driver跑在ApplicationMaster上近速,所以直接打開首頁application的ApplicationMaster鏈接即可诈嘿。也可以點擊進入application,在進入頁點開ApplicationMaster削葱。

進入ApplicationMaster.png

查看batch

對于spark streaming而言奖亚,每個application是按照一個一個batch執(zhí)行的,每一個batch可能有多個job析砸,每個job也存在多個stage昔字,所以最頂層的應該是batch。 通過點擊streaming標簽可以查看所有batch列表首繁。

查看batch.png

batch列表分成兩塊:

  • Active:正在執(zhí)行或者排隊執(zhí)行的batch
  • Complete:已經(jīng)完成的batch
    由此可見當前application的Batch間隔是2s作郭,從下到上時間越來越近,其中Active的最下面一個batch是正在運行的的batch弦疮,有12條數(shù)據(jù)夹攒,延遲10s,如果當前沒有要處理的數(shù)據(jù)則Active為空胁塞。Active會實時記錄和當前時間同步的每隔2s辣的數(shù)據(jù)數(shù)芹助。

查看job

從batch列表中,選擇一個batch打開闲先,可以看到batch的詳情状土,可以看到此batch分成了2個job。

查看job.png

兩個job都是foreachRDD輸出操作伺糠,和代碼中兩個foreachRDD的行數(shù)一致蒙谓,同時還記錄了當前batch的數(shù)據(jù)來源于Kafka10個分區(qū)每隔分區(qū)的offset范圍,10個分區(qū)的offset的差值相加等于整個batch的數(shù)據(jù)165條训桶。

查看stage

點開jobid可以查看stage

查看stage.png

可見這個stage是從Kafka的DStream先做mapPartition轉化為新RDD累驮,在做forEachRDD操作酣倾,forEachRDD操作內(nèi)部是rdd map成HBase接受的形式寫入Hbase。

查看task

點擊stage列表的下面一個鏈接可以查看task信息


查看task.png

可以看到有10個task谤专,相當于有10個partition躁锡,也和Kafka的partition數(shù)量一致。


查看Streaming Statistics

Streaming Statistics.png
總覽

Running batches of 2 seconds for 1 day 20 hours 48 minutes since 2020/11/11 19:44:47 (80451 completed batches, 416502 records)

  • 2 seconds: batch間隔2s
  • 1 day 20 hours 48 minutes: streaming application已經(jīng)運行了1 day 20 hours 48 minutes
  • since 2020/11/11 19:44:47: application從2020/11/11 19:44:47開始運行
  • 80451 completed batches: 已經(jīng)完成了80451 batches置侍,每隔2秒增長一個batch映之,無論這個batch是否由數(shù)據(jù)
  • 416502 records: 已經(jīng)處理完成的數(shù)據(jù)和正在處理的數(shù)據(jù)總計416502條

(1)completed batches * batch time + delay time = application time, 80451 * 2 / 60 + 7.21(當下batch延遲) + 執(zhí)行時間(當下batch執(zhí)行時間,忽略) = (1.0 * 80451 * 2 / 60 + 7.21) / 60 = 44.82(小時)
1 day 20 hours 48 minutes = 24 + 20 + 48 / 60 = 44.8(小時)
(2)416502 records 代表所有complete batches的數(shù)據(jù)和最下面一個Active batches的總數(shù)據(jù)量

詳情圖

詳情圖橫軸分為 Input Rate蜡坊, Scheduling Delay杠输, Processing TimeTotal Delay秕衙,分別是數(shù)據(jù)輸入速率蠢甲,延遲時間處理時間据忘,總延遲鹦牛,縱軸分為TimeinesHistgrams勇吊,分別代表最近的時間線和數(shù)據(jù)分布直方圖能岩。其中Timeines為Last 1217 batches, 217 active, 1000 completed和下面的Active BatchesCompleted Batches的行數(shù)一致,表明在這個最近時間段一共提交了1217個batches萧福,其中1000已經(jīng)完成拉鹃,217還未完成,1個正在運行鲫忍,216個在排隊膏燕。

Input Rate(Avg 2.32 records/sec)

反應Streaming輸入數(shù)據(jù)的速率,單位秒悟民,每秒的平均輸入數(shù)據(jù)量坝辫,如果batch time是2秒,則為這個batch的數(shù)據(jù)量除以2射亏。顯示最近一段時間的情況近忙,從零點(15:53:10)到當下點(16:33:42)的數(shù)據(jù)輸入情況,鼠標懸停在右邊的直方圖智润,顯示1004 batches (82.5%) between 0.0 and 3.2 records/sec 及舍,說明82.5%的batch都在每秒0~3.2條數(shù)據(jù)的水平,大概每個batch6.5條數(shù)據(jù)窟绷。在最近一段時間內(nèi)平均每秒2.32條輸入數(shù)據(jù)锯玛。

Scheduling Delay (調(diào)度延遲 Avg 7 minutes 24 seconds)

延遲由兩方面造成,一方面是數(shù)據(jù)積壓導致的等待延遲,一方面是數(shù)據(jù)處理需要的時間造成延遲攘残。Scheduling Delay是調(diào)度延遲拙友,即當下的Batch從提交submit開始(被DStream拉到)到這個Batch中第一個job開始運行所需要的時間

image.png

橫坐標代表batch time歼郭,顯示每隔batch time 2秒即每個batch的延遲遗契,在16:12:14這個對應的batch笋鄙,真正開始處理的時間比這個batch被提交的時間點晚了9.7minutes写半。
橫坐標和Input Rate的橫坐標對應检激,Input Rate顯示該Batch的輸入苞七,Scheduling Delay顯示該Batch的處理,如果Scheduling Delay的時間線比Input Rate的時間線短识腿,說明殘缺的Batch已經(jīng)提交到Active Batches,但是還沒有開始處理在積壓,兩條時間線的差也就是當前Batch的延遲時間负敏,也就是說16:26:30的Batch剛開始調(diào)度運行,但是當下時間點和Batch已經(jīng)走到了16::33秘蛇,延遲7.21minutes其做。
時間線對比.png

從橫軸來看是有兩條時間線,其中代表Spark Streaming開始處理Batch的時間線在追趕提交Batch的時間線赁还,兩個時間線的差映射到縱軸上妖泄,因此Scheduling Delay的時間線長度延遲時間對應關系時間線越長越接近Input Rate艘策,則延遲越低蹈胡,時間線越短越遠離Input Rate,延遲越高朋蔫。一個健康的Scheduling Delay 時間線罚渐,在剛啟動時由于存在數(shù)據(jù)擠壓需要處理延遲較高,后續(xù)擠壓的數(shù)據(jù)減少驯妄,慢慢追上呈現(xiàn)出向右下降最后和Input Rate重合接近的形態(tài)荷并。
兩條時間線.png

Processing Time (Avg 2seconds 336ms)

代表平均每隔批次處理時間是2seconds 336ms,和Scheduling Delay呈正向相關關系青扔,前一個Batch處理時間長源织,則下一Batch延遲時間高,總體趨勢來看微猖,處理時間高谈息,對應延遲也高,延遲線上升凛剥,處理時間低黎茎,延遲線向右下方下降。

前一個batch的處理時間.png

前一個Batch的延遲時間.png

下一個Batch的延遲時間.png

16:04:28的延遲相比于16:04:26的延遲上升了2分鐘当悔,由于16:04:26的處理時間達到一個高點傅瞻,由此可見Batch的處理時間會直接影響下一個Batch的延遲的時間踢代,數(shù)據(jù)積壓的越多,Batch的數(shù)據(jù)量越多處理時間越長嗅骄,后續(xù)延遲越高胳挎。

Total Delay (Avg 7minutes 26 seconds)

總延遲時間是調(diào)度延遲時間+數(shù)據(jù)處理延遲時間,是這批數(shù)據(jù)處理好和真實期望的時間差溺森,即數(shù)據(jù)一發(fā)送出去就處理好入庫慕爬,其中因為數(shù)據(jù)等待和處理等待造成延遲。Total Delay的圖也是Scheduling Delay圖和Processing Time圖相加的結果屏积,沒有追上Input Rate的部分表示后續(xù)的Batch已提交但是在等待沒有消費医窿。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市炊林,隨后出現(xiàn)的幾起案子姥卢,更是在濱河造成了極大的恐慌,老刑警劉巖渣聚,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件独榴,死亡現(xiàn)場離奇詭異,居然都是意外死亡奕枝,警方通過查閱死者的電腦和手機棺榔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來隘道,“玉大人症歇,你說我怎么就攤上這事√饭#” “怎么了忘晤?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長默辨。 經(jīng)常有香客問我德频,道長,這世上最難降的妖魔是什么缩幸? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任壹置,我火速辦了婚禮,結果婚禮上表谊,老公的妹妹穿的比我還像新娘钞护。我一直安慰自己,他們只是感情好爆办,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布难咕。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪余佃。 梳的紋絲不亂的頭發(fā)上暮刃,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機與錄音爆土,去河邊找鬼椭懊。 笑死,一個胖子當著我的面吹牛步势,可吹牛的內(nèi)容都是我干的氧猬。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼坏瘩,長吁一口氣:“原來是場噩夢啊……” “哼盅抚!你這毒婦竟也來了?” 一聲冷哼從身側響起倔矾,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤妄均,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后破讨,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體丛晦,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡奕纫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年提陶,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片匹层。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡隙笆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出升筏,到底是詐尸還是另有隱情撑柔,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布您访,位于F島的核電站铅忿,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏灵汪。R本人自食惡果不足惜檀训,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望享言。 院中可真熱鬧峻凫,春花似錦、人聲如沸览露。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至命锄,卻和暖如春堰乔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背脐恩。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工浩考, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人被盈。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓析孽,卻偏偏與公主長得像,于是被迫代替她去往敵國和親只怎。 傳聞我的和親對象是個殘疾皇子袜瞬,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355