歡迎關(guān)注公眾號(hào)“Tim在路上”通常為提高數(shù)據(jù)處理的效率文捶,計(jì)算引擎要實(shí)現(xiàn)謂詞的下推飞盆,而存儲(chǔ)引擎可以根據(jù)下推的過(guò)濾條件盡可能的跳過(guò)無(wú)關(guān)數(shù)據(jù)或文件逆害。不...
歡迎關(guān)注公眾號(hào)“Tim在路上”通常為提高數(shù)據(jù)處理的效率文捶,計(jì)算引擎要實(shí)現(xiàn)謂詞的下推飞盆,而存儲(chǔ)引擎可以根據(jù)下推的過(guò)濾條件盡可能的跳過(guò)無(wú)關(guān)數(shù)據(jù)或文件逆害。不...
歡迎關(guān)注公眾號(hào)“Tim在路上”剛剛結(jié)束的Data + AI summit上,Databricks宣布將Delta Lake全部開(kāi)源。 目前在La...
歡迎關(guān)注公眾號(hào)“Tim在路上”今天來(lái)閑談下數(shù)據(jù)湖三劍客中的iceberg辣卒。 Iceberg項(xiàng)目2017年由Netflix發(fā)起掷贾, 它是在2018年...
歡迎關(guān)注公眾號(hào)“Tim在路上” Spark 3.2為spark shuffle帶來(lái)了重大的改變,其中新增了push-based shuffle機(jī)...
歡迎關(guān)注公眾號(hào)“Tim在路上”在Spark3.2中引入了領(lǐng)英設(shè)計(jì)的一種新的shuffle方案荣茫,今天我們先來(lái)了解下其大致的設(shè)計(jì)原理想帅,之后會(huì)再分析其...
歡迎關(guān)注公眾號(hào)“Tim在路上”在討論external shuffle service的具體實(shí)現(xiàn)之前啡莉,我們先來(lái)回顧下spark shuffle的大...
歡迎關(guān)注公眾號(hào)“Tim在路上” 在Spark中shuffleWriter有三種實(shí)現(xiàn)港准,分別是bypassMergeSortShuffleWrite...
歡迎關(guān)注微信公眾號(hào)“Tim在路上”之前我們已經(jīng)了解了shuffle writer的詳細(xì)過(guò)程,那么生成文件后會(huì)發(fā)生什么呢咧欣?以及它們是如何被讀取呢浅缸?...
歡迎關(guān)注微信公眾號(hào)“Tim在路上”Unsafe Shuffle的實(shí)現(xiàn)在一定程度上是Tungsten內(nèi)存管理優(yōu)化的的主要應(yīng)用場(chǎng)景。其實(shí)現(xiàn)過(guò)程實(shí)際上...
歡迎關(guān)注公眾號(hào)“Tim在路上”在說(shuō)UnsafeShuffleWriter 前魄咕,需要先細(xì)談下Tungsten對(duì)內(nèi)存管理的優(yōu)化衩椒。當(dāng)然這里就不展開(kāi)講了...