糖嘩啦 - 簡書

糖嘩啦

IP屬地：青海

spark的groupByKey和combineByKey算子的使用情況對比
groupByKey和combineByKey算子底層都是調(diào)用了combineByKeyWithClassTag方法扒磁，區(qū)別在于各自方法的傳入的參...

1027 2 0
spark的join操作
當(dāng)我們在操作表進(jìn)行join時(shí)登馒，如何盡可能的避免shuffle過程？（1）設(shè)置分?jǐn)?shù)函數(shù)和分?jǐn)?shù)數(shù)一樣兩個(gè)RDD進(jìn)行join操作前囚枪，對其分別執(zhí)行了...

2028 0 0

創(chuàng)建快照過程中報(bào)異常:SnapshotCreationException
業(yè)務(wù)中需要以讀取快照的方式讀取hbase表派诬，剛開始會(huì)重新創(chuàng)建快照，但是遭遇了以下的異常：首次見到該異常眶拉，不知其意千埃，只能翻看源碼，找到Snaps...

1432 0 0
spark算子1：repartitionAndSortWithinPartitions
repartitionAndSortWithinPartitions算是一個(gè)高效的算子忆植，是因?yàn)樗仁褂胷epartition And sort...

0.3 5968 4 6
[源碼分析]spark shuffle的讀操作
上一篇解讀了shuffle寫操作的流程放可，相比較shuffle讀操作而言是比較簡單的谒臼；shuffle讀取過程比較耗內(nèi)存，由于在最后會(huì)把所有的數(shù)據(jù)拉...

0.1 1439 0 1
發(fā)現(xiàn)生活

248 2 0
[源碼分析]spark shuffle的寫操作
基于spark1.6版本的理解耀里，簡單聊一聊spark shuffle 寫操作的過程蜈缤，以及該過程中可以優(yōu)化的地方；見解粗略冯挎，往提出意見spark1...

0.1 881 0 1