1. 控制reduce端緩沖大小以避免OOM 在Shuffle過程叉信,reduce端task并不是等到map端task將其數(shù)據(jù)全部寫入磁盤后再去拉...
Spark中的數(shù)據(jù)傾斜問題主要指shuffle過程中出現(xiàn)的數(shù)據(jù)傾斜問題,是由于不同的key對應(yīng)的數(shù)據(jù)量不同導(dǎo)致的不同task所處理的數(shù)據(jù)量不同的...
常規(guī)性能調(diào)優(yōu) 1. 最優(yōu)資源配置 Spark性能調(diào)優(yōu)的第一步胸完,就是為任務(wù)分配更多的資源,在一定范圍內(nèi)翘贮,增加資源的分配與性能的提升是成正比的赊窥,實(shí)現(xiàn)...
Fetch抓取 Fetch抓取是指,Hive中對某些情況的查詢可以不必使用MapReduce計算狸页。例如:SELECT * FROM employ...
1. Eureka的自我保護(hù) 默認(rèn)情況下锨能,如果EurekaServer在一定時間內(nèi)(默認(rèn)90秒)沒有接收到某個微服務(wù)實(shí)例的心跳扯再,Eureka S...
HBase數(shù)據(jù)模型 邏輯上,HBase的數(shù)據(jù)模型同關(guān)系型數(shù)據(jù)庫很類似址遇,數(shù)據(jù)存儲在一張表中熄阻,有行有列。但從HBase的底層物理存儲結(jié)構(gòu)(K-V)來...
HDFS架構(gòu) NameNode: 就是Master倔约,它就是一個主管秃殉,管理者(1)管理hdfs的名稱空間(2)配置副本策略(3)管理數(shù)據(jù)塊(Blo...
Kafka是一個分布式,基于發(fā)布/訂閱模式的消息隊列浸剩,主要應(yīng)用于大數(shù)據(jù)實(shí)時處理領(lǐng)域钾军。 基礎(chǔ)架構(gòu) 為了方便擴(kuò)展,并提高吞吐量绢要,一個topic分為多...
RocketMQ是一個開源的分布式消息中間件吏恭。 集群架構(gòu)與角色 Producer先去NameServer請求,NameServer分配一個Bro...