糖嘩啦 - 簡書

糖嘩啦

IP屬地：江蘇

spark的groupByKey和combineByKey算子的使用情況對比
groupByKey和combineByKey算子底層都是調用了combineByKeyWithClassTag方法，區(qū)別在于各自方法的傳入的參...

1027 2 0
spark的join操作
當我們在操作表進行join時姨丈，如何盡可能的避免shuffle過程屿衅？（1）設置分數(shù)函數(shù)和分數(shù)數(shù)一樣兩個RDD進行join操作前埃难，對其分別執(zhí)行了...

2028 0 0

創(chuàng)建快照過程中報異常:SnapshotCreationException
業(yè)務中需要以讀取快照的方式讀取hbase表，剛開始會重新創(chuàng)建快照傲诵，但是遭遇了以下的異常：首次見到該異常凯砍，不知其意，只能翻看源碼拴竹，找到Snaps...

1432 0 0
spark算子1：repartitionAndSortWithinPartitions
repartitionAndSortWithinPartitions算是一個高效的算子悟衩，是因為它要比使用repartition And sort...

0.3 5969 4 6
[源碼分析]spark shuffle的讀操作
上一篇解讀了shuffle寫操作的流程，相比較shuffle讀操作而言是比較簡單的栓拜；shuffle讀取過程比較耗內存座泳，由于在最后會把所有的數(shù)據(jù)拉...

0.1 1439 0 1
發(fā)現(xiàn)生活

248 2 0
[源碼分析]spark shuffle的寫操作
基于spark1.6版本的理解惠昔，簡單聊一聊spark shuffle 寫操作的過程，以及該過程中可以優(yōu)化的地方挑势；見解粗略镇防，往提出意見spark1...

0.1 881 0 1