![240](https://cdn2.jianshu.io/assets/default_avatar/11-4d7c6ca89f439111aff57b23be1c73ba.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
簡介 Spark SQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個模塊,它提供了一個編程抽象叫做DataFrame(底層也是RDD)并且作為分布式SQ...
RDD解決的問題:1.中間結(jié)果保存在內(nèi)存中,并且重用2.提供了通用的抽象的分布式的數(shù)據(jù)模型3.提供了多種數(shù)據(jù)操作模式(支持函數(shù)式編程):如map...
介紹:Spark是用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎 spark的引入:雖然MapReduce提供了對數(shù)據(jù)訪問和計算的抽象,但是對于數(shù)據(jù)的復(fù)用就是...
1.Hive的概述 √ 意義:在于大幅度降低工程師學(xué)習(xí)MapReduce的學(xué)習(xí)成本,讓好用(計算速度快)的MapReduce更方便的使用(使用簡...
kafka版本說明 0.8版本有Receiver和Direct模式 0.10以后只保留了direct模式 receiver接收方式 Receiv...
1.client 向 ResourceManager提交應(yīng)用程序,其中包括啟動該應(yīng)用的 ApplicationMaster 的必須信息糖驴,例如 A...
map端的shuffle: 每個maptask的數(shù)據(jù)會進(jìn)入環(huán)形緩沖區(qū)中,(默認(rèn)100M,溢出比是80%),數(shù)據(jù)在寫入時,會進(jìn)行分區(qū),往數(shù)據(jù)中添加...
Map階段2個步驟 第一步:設(shè)置inputFormat類,將我們的數(shù)據(jù)切分成key,value對谱醇,輸入到第二步 第二步:自定義map邏輯,處理我...
1步做、client發(fā)起文件上傳請求副渴,通過RPC與NameNode建立通訊,NameNode檢查目標(biāo)文件是否已存在全度,父目錄是否存在煮剧,返回是否可以上傳...