240 發(fā)簡信
IP屬地:遼寧
  • Spark[四]——Spark并行度

    Spark并行度指在Spark作業(yè)中,各個Stage中task的數(shù)量抚岗,也就代表了Spark作業(yè)在各個階段的并行度或杠。合理設(shè)置并行度可以從以下幾個方...

  • Spark踩坑vlog-推測執(zhí)行spark.speculation

    @TOC[Spark%E8%B8%A9%E5%9D%91vlog-%E6%8E%A8%E6%B5%8B%E6%89%A7%E8%A1%8Cspa...

  • Protobuf結(jié)合Spark Structured Streaming使用

    背景 在項(xiàng)目開發(fā)中對流式數(shù)據(jù)使用Spark Structured Streaming進(jìn)行處理,處理流程為:消息中間件(source) -> Sp...

  • Spark流處理中的廣播變量

    背景 前段時(shí)間做的是一個流式項(xiàng)目里宣蔚,場景為:對于流式數(shù)據(jù)向抢,使用過濾規(guī)則進(jìn)行實(shí)時(shí)過濾并產(chǎn)出結(jié)果數(shù)據(jù)。流式數(shù)據(jù)為源源不斷的IP胚委,篩選出在合格IP集合...

  • Spark踩坑vlog——join時(shí)shuffle的大坑

    業(yè)務(wù)背景 項(xiàng)目中將兩個表進(jìn)行join挟鸠,一個大表,一個小表亩冬,在平時(shí)200 executor-core * 20G executor-memory的...

  • Spark踩坑vlog——使用外部存儲減輕join時(shí)數(shù)據(jù)負(fù)擔(dān)

    背景 此次需要將10張表[A艘希、B、C硅急、D枢冤、E、F铜秆、G、H讶迁、I连茧、J]的數(shù)據(jù)union與表?中的一個字段進(jìn)行join核蘸,以達(dá)到篩選數(shù)據(jù)的目的;其中表A...

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品