3.1 Spark Streaming 性能調(diào)優(yōu)(一): 提高并行度

目錄
1.系統(tǒng)架構(gòu)
2.環(huán)境搭建
2.1本地環(huán)境下kafka批量導入數(shù)據(jù)
2.2 kafka-manager的安裝與配置
3.1 Spark Streaming 性能調(diào)優(yōu)(一): 解決并行度
3.2 Spark Streaming 性能調(diào)優(yōu)(二): 解決task傾斜
根據(jù)前面幾篇文章,運行該日志分析系統(tǒng)的環(huán)境與數(shù)據(jù)都已經(jīng)準備好了虾标,接下來就該進行調(diào)試與排查性能瓶頸了荞驴。

問題分析

首先, 根據(jù)前面的一篇文章:2.1 本地環(huán)境下kafka批量導入數(shù)據(jù), 我分別模擬了數(shù)據(jù)在kafka的各個分區(qū)中分布均勻與分布不均勻兩種情況.下面來看看運行結(jié)果對比:

測試環(huán)境: 本地, 開啟4個線程

數(shù)據(jù)分布不均下task的執(zhí)行情況

數(shù)據(jù)分布不均時的task運行情況

從上圖可以看出, 在數(shù)據(jù)分布不均勻的情況下, 出現(xiàn)了部分task有數(shù)據(jù),部分task卻沒有數(shù)據(jù)的情況, 導致機器的cpu資源沒有得到充分利用.

task數(shù)據(jù)不均的原因

由于我這個日志分析系統(tǒng)是使用direct模式從kafka拉取數(shù)據(jù)的, 在direct模式下, 通過KafkaUtils.createDirectStream(...)獲取的DStream中的rdd的分區(qū)數(shù)是與kafka相對應(yīng)的topic的分區(qū)數(shù)是一樣的,且分區(qū)中的數(shù)據(jù)分布情況也是一樣的.
這就導致了spark streaming獲取的rdd的分區(qū)中只有一個是有數(shù)據(jù)的, 而task與分區(qū)也是一一對應(yīng)關(guān)系, 所以就造成了只有一個task在處理數(shù)據(jù).

數(shù)據(jù)分布均勻下task執(zhí)行情況

數(shù)據(jù)分布均勻下task執(zhí)行情況

從上圖可以看出, 數(shù)據(jù)均勻分布的話, 各個task處理的數(shù)據(jù)量都比較均勻, cpu資源的利用也提升了不少.

解決問題

問題逐漸清晰了, 其實就是線上從kafka獲取數(shù)據(jù)時, kafka中的分區(qū)數(shù)據(jù)分布不均, 導致部分task處理的數(shù)據(jù)量特別少, 集群cpu資源得不到充分利用.
而解決辦法就是, 利用DStream.reparation(partitionNum), 對DStream進行重新分區(qū), 請注意, reparation()函數(shù)會對數(shù)據(jù)做shuffle, 這就相當于將數(shù)據(jù)分配到了其他機器上.這樣就能提高并行度, 提高集群cpu資源利用率.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子遇汞,更是在濱河造成了極大的恐慌软驰,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件请唱,死亡現(xiàn)場離奇詭異弥咪,居然都是意外死亡,警方通過查閱死者的電腦和手機十绑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門聚至,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人本橙,你說我怎么就攤上這事扳躬。” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵贷币,是天一觀的道長击胜。 經(jīng)常有香客問我,道長役纹,這世上最難降的妖魔是什么偶摔? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮促脉,結(jié)果婚禮上辰斋,老公的妹妹穿的比我還像新娘。我一直安慰自己嘲叔,他們只是感情好亡呵,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著硫戈,像睡著了一般锰什。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上丁逝,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天汁胆,我揣著相機與錄音,去河邊找鬼霜幼。 笑死嫩码,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的罪既。 我是一名探鬼主播铸题,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼琢感!你這毒婦竟也來了丢间?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤驹针,失蹤者是張志新(化名)和其女友劉穎烘挫,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體柬甥,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡饮六,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了苛蒲。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卤橄。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖臂外,靈堂內(nèi)的尸體忽然破棺而出虽风,到底是詐尸還是另有隱情棒口,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布辜膝,位于F島的核電站无牵,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏厂抖。R本人自食惡果不足惜茎毁,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望忱辅。 院中可真熱鬧七蜘,春花似錦、人聲如沸墙懂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽损搬。三九已至碧库,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間巧勤,已是汗流浹背嵌灰。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留颅悉,地道東北人沽瞭。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像剩瓶,于是被迫代替她去往敵國和親驹溃。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容