1、Sort By:分區(qū)內(nèi)有序 2信不、Order By:全局排序,只有一個(gè)Reducer 3、Distrbute By:類(lèi)似MR中的Partiti...
數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境娜氏,為企業(yè)提供決策支持,數(shù)據(jù)倉(cāng)庫(kù)是存數(shù)據(jù)的墩新,主要是為了分析有效數(shù)據(jù)贸弥,后續(xù)會(huì)基于它產(chǎn)出供分析挖...
MapPartition和Map的區(qū)別 在Spark和Flink中有map和mapPartitions算子,處理數(shù)據(jù)上海渊,有一些區(qū)別 主要區(qū)別: ...
Flink是什么 Apache Flink is a framework and distributed processing engine f...
Yarn架構(gòu) Client绵疲、ResourceManager、NodeManager臣疑、ApplicationMaster Client:向RM提交...
TCP底層的粘包/拆包機(jī)制 其實(shí)很多熟悉TCP編程的小伙伴們都知道盔憨,無(wú)論是客戶端還是服務(wù)端,當(dāng)我們讀取或者發(fā)送數(shù)據(jù)的時(shí)候讯沈,都需要去考慮TCP粘包...
1郁岩、至少一次:at-least-once 表示的是關(guān)閉offset自動(dòng)提交功能,消費(fèi)端在消費(fèi)數(shù)據(jù)的時(shí)候很可能在commitAync之前,已經(jīng)保存...
1问慎、框架會(huì)把輸入文件(夾)劃分為很多InputSplit萍摊,默認(rèn)每個(gè)HDFS的Block對(duì)應(yīng)一個(gè)InputSplit。通過(guò)RecordReader...
大家都知道如叼,JVM內(nèi)存模型以及GC垃圾回收是近幾年來(lái)面試問(wèn)的最多的問(wèn)題冰木,下面我將逐步和大家介紹和詳述,首先圖片先雙手奉上笼恰,讓大家先有個(gè)概念踊沸! 大...