TOTower - 簡(jiǎn)書

TOTower

IP屬地：山東

Flink 維表Join/雙流Join 方法總結(jié)
一净刮、背景事實(shí)表通常存儲(chǔ)在kafka中谐鼎，維表通常存儲(chǔ)在外部設(shè)備中(比如MySQL秉版，HBase)从绘。對(duì)于每條流式數(shù)據(jù)途凫，可以關(guān)聯(lián)一個(gè)外部維表數(shù)據(jù)源蹬跃，為...

0.6 3297 0 4
Hudi On Flink
一系宫、背景傳統(tǒng)數(shù)倉(cāng)分為離線和實(shí)時(shí)兩個(gè)部分離線部分屬于業(yè)務(wù)驅(qū)動(dòng)笛厦，固定的計(jì)算邏輯纳鼎，通過定時(shí)調(diào)度，最后產(chǎn)出報(bào)表裳凸；實(shí)時(shí)部分屬于需求驅(qū)動(dòng)贱鄙，需要靈活開發(fā)...

0.1 1356 0 1

Flink流處理API
一、Environment 1.getExecutionEnvironment 創(chuàng)建一個(gè)執(zhí)行環(huán)境姨谷，表示當(dāng)前執(zhí)行程序的上下文逗宁。如果程序是獨(dú)立調(diào)用...

0.1 989 0 2
Spark調(diào)優(yōu)方案
調(diào)優(yōu)的思路依賴平時(shí)工作中不斷總結(jié)所形成的豐富經(jīng)驗(yàn)。而這些是很難直接從知識(shí)文檔中獲取的梦湘，應(yīng)當(dāng)具體問題具體分析瞎颗，本文對(duì)Spark調(diào)優(yōu)進(jìn)行歸納總結(jié)，縮...

2.0 691 2 11
NIO框架：Netty入門
Spark最一開始使用Akka作為內(nèi)部通信部件捌议，在Spark1.3為了解決大數(shù)據(jù)的傳輸問題哼拔，引入Netty通信框架，到了1.6版本Spark已經(jīng)...

1.6 464 1 8
Kafka學(xué)習(xí)總結(jié)
Kafka是一個(gè)分布式消息隊(duì)列瓣颅，為處理實(shí)時(shí)數(shù)據(jù)提供一個(gè)統(tǒng)一倦逐、高吞吐量、低等待的平臺(tái)宫补，提供了類似于JMS的特性檬姥，但是它并不是JMS規(guī)范的實(shí)現(xiàn). J...

4.0 763 3 15
Spark持久化緩存
問題：1.RDD中基本所有的數(shù)據(jù)都是存儲(chǔ)都在堆內(nèi)存里，這部分?jǐn)?shù)據(jù)是通過jvm中的GC管理的守谓，進(jìn)行Spark操作的時(shí)候可能會(huì)出現(xiàn)資源不一致的問題穿铆，...

0.8 853 0 4

Scala和Golang并發(fā)實(shí)現(xiàn)對(duì)比
系統(tǒng)中有多個(gè)任務(wù)同時(shí)存在稱之為“并發(fā)”，并發(fā)設(shè)計(jì)已然成為大規(guī)模集群框架的必要特征斋荞，本文簡(jiǎn)單的介紹Scala和golang的并發(fā)模型的設(shè)計(jì)荞雏，重點(diǎn)在...

0.2 1044 0 3
HDFS balancer詳解
前言：Hadoop集群用久了以后，我們會(huì)發(fā)現(xiàn)一個(gè)問題，HDFS節(jié)點(diǎn)間的數(shù)據(jù)不平衡凤优，尤其在新增和下架節(jié)點(diǎn)悦陋、或者人為干預(yù)副本數(shù)量的時(shí)候，多的達(dá)到80...

0.6 8911 0 6