1.數(shù)據(jù)傾斜 什么是數(shù)據(jù)傾斜 在單個(gè)節(jié)點(diǎn)任務(wù)所處理的數(shù)據(jù)量遠(yuǎn)大于同類型任務(wù)所處理的數(shù)據(jù)量,導(dǎo)致該節(jié)點(diǎn)成為整個(gè)作業(yè)的瓶頸昆著,這是分布式系統(tǒng)不可能避免的問(wèn)題撼玄。從本質(zhì)上說(shuō)环鲤,導(dǎo)致數(shù)據(jù)傾...

1.數(shù)據(jù)傾斜 什么是數(shù)據(jù)傾斜 在單個(gè)節(jié)點(diǎn)任務(wù)所處理的數(shù)據(jù)量遠(yuǎn)大于同類型任務(wù)所處理的數(shù)據(jù)量,導(dǎo)致該節(jié)點(diǎn)成為整個(gè)作業(yè)的瓶頸昆著,這是分布式系統(tǒng)不可能避免的問(wèn)題撼玄。從本質(zhì)上說(shuō)环鲤,導(dǎo)致數(shù)據(jù)傾...
簡(jiǎn)介: Flink 的整體架構(gòu)如圖 1 所示累贤。Flink 是可以運(yùn)行在多種不同的環(huán)境中的,例如底燎,它可以通過(guò)單進(jìn)程多線程的方式直接運(yùn)行蠢络,從而提供調(diào)試的能力。它也可以運(yùn)行在 Ya...
Spark SQL是Spark生態(tài)系統(tǒng)中非常重要的組件,其前身為Shark钦铺。Shark是Spark上的數(shù)據(jù)倉(cāng)庫(kù)订雾,最初設(shè)計(jì)成與Hive兼容,但是該項(xiàng)目于2014年開(kāi)始停止開(kāi)發(fā)矛洞,...
大數(shù)據(jù)時(shí)代這個(gè)詞被提出已有10年了吧洼哎,越來(lái)越多的企業(yè)已經(jīng)完成了大數(shù)據(jù)平臺(tái)的搭建。隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的爆發(fā)沼本,大數(shù)據(jù)價(jià)值在越來(lái)越多的場(chǎng)景中被挖掘噩峦,隨著大家都在使用歐冠大數(shù)據(jù),...
摘要: 在數(shù)據(jù)分析中凭涂,我們可能需要使用各種數(shù)據(jù)庫(kù)祝辣,目前大概有七種常用數(shù)據(jù)庫(kù),包括4種常用的關(guān)系型數(shù)據(jù)庫(kù)切油,3種常用NoSQL數(shù)據(jù)庫(kù)(NoSQL = Not Only SQL 泛...
1稚伍、rdd有哪些算子? 主要分為轉(zhuǎn)換算子和action算子戚宦。 transformation:map槐瑞、filter、flatmap阁苞、mappartitions困檩、union、...
索引 1. 那你能說(shuō)說(shuō)什么是索引嗎糟趾? 索引其實(shí)是一種數(shù)據(jù)結(jié)構(gòu),能夠幫助我們快速的檢索數(shù)據(jù)庫(kù)中的數(shù)據(jù) 2. 那么索引具體采用的哪種數(shù)據(jù)結(jié)構(gòu)呢甚牲? 常見(jiàn)的MySQL主要有兩種結(jié)構(gòu):...
內(nèi)存不過(guò)是計(jì)算機(jī)分級(jí)存儲(chǔ)系統(tǒng)中的靠近c(diǎn)pu的一個(gè)存儲(chǔ)介質(zhì)丈钙。1.spark運(yùn)行起來(lái)內(nèi)存里都存的啥非驮?2.如何管理里面所存的東西?3.spark用java和scala這樣的jvm語(yǔ)...
本文將介紹Hive調(diào)優(yōu)的整體過(guò)程雏赦,以及本人對(duì)Hive調(diào)優(yōu)過(guò)程的一些思考劫笙,包括Hive調(diào)優(yōu)的一般步驟,和調(diào)優(yōu)方法星岗。 1填大,Hive一般優(yōu)化方法 1,查看HiveSQL執(zhí)行計(jì)劃 H...
本文主要講解利用python 生成hive數(shù)據(jù),主要包括python數(shù)據(jù)生成,數(shù)據(jù)上傳hdfs靴寂,hive建庫(kù)建表汉额,hive導(dǎo)入數(shù)據(jù),hive驗(yàn)證數(shù)據(jù)的正確性榨汤。 hive建庫(kù)建...
一、前言 Hive分區(qū)是為了方便數(shù)據(jù)管理Hive的分區(qū)方式:由于Hive實(shí)際是存儲(chǔ)在HDFS上的抽象轨蛤,Hive的一個(gè)分區(qū)名對(duì)應(yīng)一個(gè)目錄名蜜宪,子分區(qū)名就是子目錄名,并不是一個(gè)實(shí)際...