歡迎關(guān)注公眾號“Tim在路上”通常為提高數(shù)據(jù)處理的效率芭概,計算引擎要實現(xiàn)謂詞的下推喘批,而存儲引擎可以根據(jù)下推的過濾條件盡可能的跳過無關(guān)數(shù)據(jù)或文件。不...
歡迎關(guān)注公眾號“Tim在路上”剛剛結(jié)束的Data + AI summit上,Databricks宣布將Delta Lake全部開源。 目前在La...
歡迎關(guān)注公眾號“Tim在路上”今天來閑談下數(shù)據(jù)湖三劍客中的iceberg葵陵。 Iceberg項目2017年由Netflix發(fā)起, 它是在2018年...
歡迎關(guān)注公眾號“Tim在路上” Spark 3.2為spark shuffle帶來了重大的改變瞻佛,其中新增了push-based shuffle機...
歡迎關(guān)注公眾號“Tim在路上”在Spark3.2中引入了領(lǐng)英設(shè)計的一種新的shuffle方案脱篙,今天我們先來了解下其大致的設(shè)計原理,之后會再分析其...
歡迎關(guān)注公眾號“Tim在路上” 在Spark中shuffleWriter有三種實現(xiàn),分別是bypassMergeSortShuffleWrite...
歡迎關(guān)注微信公眾號“Tim在路上”之前我們已經(jīng)了解了shuffle writer的詳細過程适刀,那么生成文件后會發(fā)生什么呢秤朗?以及它們是如何被讀取呢?...
歡迎關(guān)注微信公眾號“Tim在路上”Unsafe Shuffle的實現(xiàn)在一定程度上是Tungsten內(nèi)存管理優(yōu)化的的主要應(yīng)用場景笔喉。其實現(xiàn)過程實際上...