1. 前言 RDD闷畸、DataFrame炫欺、Dataset是Spark三個(gè)最重要的概念,RDD和DataFrame兩個(gè)概念出現(xiàn)的比較早掰读,Dataset相對(duì)出現(xiàn)的較晚(1.6版本開(kāi)...
IP屬地:山東
1. 前言 RDD闷畸、DataFrame炫欺、Dataset是Spark三個(gè)最重要的概念,RDD和DataFrame兩個(gè)概念出現(xiàn)的比較早掰读,Dataset相對(duì)出現(xiàn)的較晚(1.6版本開(kāi)...
背景介紹 Kafka簡(jiǎn)介 Kafka是一種分布式的郭怪,基于發(fā)布/訂閱的消息系統(tǒng)。主要設(shè)計(jì)目標(biāo)如下: 以時(shí)間復(fù)雜度為O(1)的方式提供消息持久化能力刊橘,即使對(duì)TB級(jí)以上數(shù)據(jù)也能保證...