Spark Streaming 概述 ? Spark Streaming用于流式數(shù)據(jù)的處理支子。Spark Streaming支持的數(shù)據(jù)輸入源很多熙尉,例如:Kafka薪寓、Flum...
![240](https://cdn2.jianshu.io/assets/default_avatar/1-04bbeead395d74921af6a4e8214b4f61.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
Spark Streaming 概述 ? Spark Streaming用于流式數(shù)據(jù)的處理支子。Spark Streaming支持的數(shù)據(jù)輸入源很多熙尉,例如:Kafka薪寓、Flum...
IDEA創(chuàng)建SparkSQL程序 IDEA中程序的打包和運(yùn)行方式都和SparkCore類似旷痕,Maven依賴中需要添加新的依賴項(xiàng): 用戶自定義函數(shù) 用戶自定義UDF函數(shù) 首先先...
什么是Spark SQL ? Spark SQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊设联,它提供了2個(gè)編程抽象:DataFrame和DataSet捌年,并且作為分布式SQL查...
RDD 什么是RDD ? RDD(Resilient Distributed Dataset)叫做分布式數(shù)據(jù)集谴轮,是Spark中最基本的數(shù)據(jù)抽象朽寞。代碼中是一個(gè)抽象類识窿,它代表...
什么是Spark Spark是一種基于內(nèi)存的快速的,通用的脑融,可擴(kuò)展的大數(shù)據(jù)分析引擎 Spark內(nèi)存模塊 Spark特點(diǎn) 快:與Hadoop和MapReduce響度喻频,Spark...
Scala 高級用法 樣例類 ? 樣例類是一種特殊類,它可以用來快速定義一個(gè)用于保存數(shù)據(jù)的類(類似于Java POJO類)肘迎,在后續(xù)要學(xué)習(xí)并發(fā)編程和spark甥温、flink這...
類和對象 scala是支持面向?qū)ο蟮模灿蓄惡蛯ο蟮母拍罴瞬肌N覀円廊豢梢曰趕cala語言來開發(fā)面向?qū)ο蟮膽?yīng)用程序姻蚓。 創(chuàng)建類和對象 語法 使用class來定義一個(gè)類 使用new...
函數(shù)式編程 我們將來使用Spark/Flink的大量業(yè)務(wù)代碼都會(huì)使用到函數(shù)式編程。下面的這些操作是學(xué)習(xí)的重點(diǎn)匣沼。 遍歷( foreach ) 映射( map ) 映射扁平化( ...
Array (數(shù)組) scala中數(shù)組的概念是和Java類似倦沧,可以用數(shù)組來存放一組數(shù)據(jù)。scala中它匕,有兩種數(shù)組展融,一種是定 長數(shù)組,另一種是變長數(shù)組 定長數(shù)組 定長數(shù)組指的是...
變量 聲明變量 val/var 變量標(biāo)識:變量類型 = 初始值 其中 Val表示的是不可改變的變量 Var表示的是可以重新賦值的變量 Notice: 變量寫在變量名后面,且不...
Hive和Hbase的區(qū)別 Hive: 1. 數(shù)據(jù)倉庫 ? Hive的本質(zhì)其實(shí)就相當(dāng)于將HDFS中已經(jīng)存儲(chǔ)的文件在Mysql中做了一個(gè)雙射關(guān)系创夜,以方便使用HQL去管理查詢...
需求杭跪,使用MR實(shí)現(xiàn)讀取hbase表數(shù)據(jù),只要某一個(gè)列族的數(shù)據(jù)驰吓,并且寫入到另一張表中涧尿。 Main Mapper Reducer HDFS導(dǎo)入數(shù)據(jù)到Hbase和Hbase導(dǎo)出到H...
JAVA類對應(yīng)的數(shù)據(jù)模型HBaseConfigurationHBase配置類HBaseAdminHBase管理Admin類TableHBase Table操作類PutHBas...
1. RegionServer 架構(gòu) 1.1 StoreFile 保存實(shí)際數(shù)據(jù)的物理文件,StoreFile以Hfile的形式存儲(chǔ)在HDFS上檬贰。每個(gè)Store會(huì)有一個(gè)或多個(gè)S...
使用hbase shell可以進(jìn)入一個(gè)shell命令行界面姑廉! 1. 其他操作 1.1 查看集群狀態(tài) 使用status可以查看集群狀態(tài),默認(rèn)為summary翁涤,可以選擇‘simp...
注意事項(xiàng):Hbase強(qiáng)依賴于HDFS以及zookeeper,所以安裝Hbase之前一定要保證Hadoop和zookeeper正常啟動(dòng) 1. 下載對應(yīng)的HBase的安裝包 下載...
1. NoSQL簡介 1.1 關(guān)系型數(shù)據(jù)庫的查詢瓶頸 當(dāng)用戶表的數(shù)據(jù)達(dá)到幾千萬甚至幾億級別的時(shí)候鸳粉,對單條數(shù)據(jù)的檢索將花費(fèi)數(shù)秒甚至達(dá)到分鐘級別扔涧。實(shí)際情況更復(fù)雜,查詢的操作速度將...
1. Producer API 消息發(fā)送流程 Kafka的Producer發(fā)送消息采用的是異步發(fā)送的方式届谈。在消息發(fā)送的過程中枯夜,涉及到了兩個(gè)線程——main線程和Sender線...