IP屬地:遼寧
Spark并行度指在Spark作業(yè)中,各個Stage中task的數(shù)量抚岗,也就代表了Spark作業(yè)在各個階段的并行度或杠。合理設(shè)置并行度可以從以下幾個方...
@TOC[Spark%E8%B8%A9%E5%9D%91vlog-%E6%8E%A8%E6%B5%8B%E6%89%A7%E8%A1%8Cspa...
背景 在項(xiàng)目開發(fā)中對流式數(shù)據(jù)使用Spark Structured Streaming進(jìn)行處理,處理流程為:消息中間件(source) -> Sp...
背景 前段時(shí)間做的是一個流式項(xiàng)目里宣蔚,場景為:對于流式數(shù)據(jù)向抢,使用過濾規(guī)則進(jìn)行實(shí)時(shí)過濾并產(chǎn)出結(jié)果數(shù)據(jù)。流式數(shù)據(jù)為源源不斷的IP胚委,篩選出在合格IP集合...
業(yè)務(wù)背景 項(xiàng)目中將兩個表進(jìn)行join挟鸠,一個大表,一個小表亩冬,在平時(shí)200 executor-core * 20G executor-memory的...
背景 此次需要將10張表[A艘希、B、C硅急、D枢冤、E、F铜秆、G、H讶迁、I连茧、J]的數(shù)據(jù)union與表?中的一個字段進(jìn)行join核蘸,以達(dá)到篩選數(shù)據(jù)的目的;其中表A...