Spark流處理中的廣播變量

背景

????????前段時間做的是一個流式項目里不傅,場景為:對于流式數(shù)據(jù)宝冕,使用過濾規(guī)則進行實時過濾并產(chǎn)出結(jié)果數(shù)據(jù)姓言。流式數(shù)據(jù)為源源不斷的IP寻狂,篩選出在合格IP集合中的數(shù)據(jù)岁经,傳輸?shù)较掠蜗⒅虚g件中。

技術(shù)選型

????????上游數(shù)據(jù)從消息中間件中讀取荆虱,處理采用Spark Streaming蒿偎,下游也采用消息中間件。

廣播變量

廣播變量的適用場景

????????在Spark這種分布式計算中怀读,如果每個算子都需要讀取一個變量诉位,并且變量的數(shù)據(jù)量最好在百級,則采用廣播變量菜枷,把這個變量廣播到各個executor算子中苍糠;

廣播變量相對于外部變量的優(yōu)點

  • 減少了各個算子間數(shù)據(jù)的網(wǎng)絡(luò)傳輸;很明顯啤誊,廣播變量一旦廣播后岳瞭,在所有executor中都存在了,不隨task的變化而變化蚊锹。但是對于外部變量來說瞳筏,其隨著task的變化而變化,如果task中用到了牡昆,它則需要從各個節(jié)點中拉取/傳輸/刪除姚炕;
  • 減少了內(nèi)存占用;廣播變量的數(shù)據(jù)存儲在executor的共享內(nèi)存中,即:一個executor中只存儲一份廣播變量柱宦;但是外部變量則是一個task中都存儲一份些椒,一個executor中分配到了多少task,則存儲多少份外部變量掸刊;

ps:Spark中executor的內(nèi)存管理見之前寫的文章:https://blog.csdn.net/qq_35583915/article/details/109359939

廣播變量的使用

val sparkConf = new SparkConf().setAppName("broadcast-in-spark")
sparkConf.set("spark-config-key","spark-config-value")
val sparkSession = SparkSession
    .builder
    .config(sparkConf)
    .enableHiveSupport()
    .getOrCreate()

//注意免糕,因為一個Spark項目中只允許定義一個spark上下文,所以忧侧,后面用于廣播變量的sparkContext只能從前面定義的sparkSession中獲取石窑,以保證不出現(xiàn)兩個兩個上下文定義
val sparkContext = sparkSession.getSparkContext

val broadcastUse = sparkContext.broadcast(useValue)

println(s"此次廣播變量的內(nèi)容為${broadcastUse.value}")

廣播變量使用心得

  • 最好能把廣播變量當(dāng)成一個常量一樣去使用。當(dāng)然不是說廣播變量不能修改蚓炬,只不過廣播變量的修改步驟為:1.刪除這個廣播變量尼斧;2.使用當(dāng)前名字重新定義新的廣播變量。所以說试吁,廣播變量最符合的使用場景是常量情況下棺棵;
  • 不能在算子中定義/修改/刪除廣播變量。除讀操作外熄捍,廣播變量的其他操作需要借助項目的Spark上下文環(huán)境烛恤,即sparkContext。而Spark的上下文環(huán)境只能在Driver中定義和使用余耽,不能在Executor間進行序列化后傳輸缚柏。眾所周知,算子的執(zhí)行是在Executor中碟贾,但如外部變量币喧、設(shè)置Spark執(zhí)行環(huán)境等操作是在Driver中。[ps:之前總結(jié)的Driver/Executor等的作用見文章:https://blog.csdn.net/qq_35583915/article/details/109359346]因此袱耽,只能在算子中通過.value方法獲取廣播變量的值參與運算杀餐,不能對廣播變量進行修改等操作。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末朱巨,一起剝皮案震驚了整個濱河市史翘,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌冀续,老刑警劉巖琼讽,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異洪唐,居然都是意外死亡钻蹬,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門凭需,熙熙樓的掌柜王于貴愁眉苦臉地迎上來问欠,“玉大人桂敛,你說我怎么就攤上這事〗η保” “怎么了?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵薪伏,是天一觀的道長滚澜。 經(jīng)常有香客問我,道長嫁怀,這世上最難降的妖魔是什么设捐? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮塘淑,結(jié)果婚禮上萝招,老公的妹妹穿的比我還像新娘。我一直安慰自己存捺,他們只是感情好槐沼,可當(dāng)我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著捌治,像睡著了一般岗钩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上肖油,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天兼吓,我揣著相機與錄音,去河邊找鬼森枪。 笑死视搏,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的县袱。 我是一名探鬼主播浑娜,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼式散!你這毒婦竟也來了棚愤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤杂数,失蹤者是張志新(化名)和其女友劉穎宛畦,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體揍移,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡次和,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了那伐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踏施。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡石蔗,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出畅形,到底是詐尸還是另有隱情养距,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布日熬,位于F島的核電站棍厌,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏竖席。R本人自食惡果不足惜耘纱,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望毕荐。 院中可真熱鬧束析,春花似錦、人聲如沸憎亚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽第美。三九已至丁恭,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間斋日,已是汗流浹背牲览。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留恶守,地道東北人第献。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像兔港,于是被迫代替她去往敵國和親庸毫。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內(nèi)容