hive數(shù)據(jù)庫是hdfs上的文件夾翻擒,表也是文件夾,表里的數(shù)據(jù)是文件hive建表create table t_student(id string,name string,age...
下載鏡像 可以在黑果小兵平臺渊抽,遠(yuǎn)景論壇等平臺了解黑蘋果相關(guān)。首先下載macOS鏡像和相關(guān)黑蘋果鏡像制作议忽,百度鏈接地址如下鏈接:https://pan.baidu.com/s/...
Driver spark.driver.cores driver端分配的核數(shù)懒闷,默認(rèn)為1,thriftserver是啟動thriftserver服務(wù)的機(jī)器栈幸,資源充足的話可以盡量...
Hive傾斜之group by聚合傾斜 原因: 分組的維度過少,每個(gè)維度的值過多并炮,導(dǎo)致處理某值的reduce耗時(shí)很久默刚; 對一些類型統(tǒng)計(jì)的時(shí)候某種類型的數(shù)據(jù)量特別多,其他的數(shù)據(jù)...
1. 避免重復(fù)創(chuàng)建RDD 通常來說逃魄,我們在開發(fā)一個(gè)Spark作業(yè)時(shí)荤西,首先是基于某個(gè)數(shù)據(jù)源(比如Hive表或HDFS文件)創(chuàng)建一個(gè)初始的RDD;接著對這個(gè)RDD執(zhí)行某個(gè)算子操作...
背景 在spark程序中嗅钻,當(dāng)一個(gè)傳遞給Spark操作(例如map和reduce)的函數(shù)在遠(yuǎn)程節(jié)點(diǎn)上面運(yùn)行時(shí)皂冰,Spark操作實(shí)際上操作的是這個(gè)函數(shù)所用變量的一個(gè)獨(dú)立副本。這些變...
spark中基本概念 Application:表示你的應(yīng)用程序 Driver:表示main()函數(shù)养篓,創(chuàng)建SparkContext秃流。由SparkContext負(fù)責(zé)與Cluste...
1.準(zhǔn)備應(yīng)用https://share.weiyun.com/5beYAw4密碼:nFO82.將下載的zip解壓,在瀏覽器中找到更多工具,擴(kuò)展程序
idea 需要: 雙擊一路next 選擇安裝路徑 只選-64,然后next 安裝完成,選項(xiàng)不點(diǎn)對勾然后點(diǎn)finish 將jar復(fù)制到安裝目錄bin下面 打開這倆文件在這里插入...
1.安裝前準(zhǔn)備 4.網(wǎng)卡安裝4.1配置第一塊網(wǎng)卡(eth0) ``2.修改網(wǎng)絡(luò)映射(每臺虛擬機(jī)都要配置)vi /etc/hosts cat /etc/profile >> ~...
1. Time 在Flink的流式處理中,會涉及到時(shí)間的不同概念嚣伐,如下圖所示: Event Time:是事件創(chuàng)建的時(shí)間糖赔。它通常由事件中的時(shí)間戳描述,例如采集的日志數(shù)據(jù)中轩端,每一...