歡迎關注公眾號“Tim在路上”通常為提高數(shù)據(jù)處理的效率,計算引擎要實現(xiàn)謂詞的下推,而存儲引擎可以根據(jù)下推的過濾條件盡可能的跳過無關數(shù)據(jù)或文件。不管是Hudi乎澄、Iceberg還...
![240](https://upload.jianshu.io/users/upload_avatars/14019352/9146c1ad-3855-4cca-aa6a-9306ebe6d28d.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
歡迎關注公眾號“Tim在路上”通常為提高數(shù)據(jù)處理的效率,計算引擎要實現(xiàn)謂詞的下推,而存儲引擎可以根據(jù)下推的過濾條件盡可能的跳過無關數(shù)據(jù)或文件。不管是Hudi乎澄、Iceberg還...
歡迎關注公眾號“Tim在路上”剛剛結束的Data + AI summit上,Databricks宣布將Delta Lake全部開源黑毅。 目前在LakeHouse的市場上國內(nèi)有H...
歡迎關注公眾號“Tim在路上”今天來閑談下數(shù)據(jù)湖三劍客中的iceberg。 Iceberg項目2017年由Netflix發(fā)起钦讳, 它是在2018年被Netflix捐贈給Apac...
歡迎關注公眾號“Tim在路上” Spark 3.2為spark shuffle帶來了重大的改變矿瘦,其中新增了push-based shuffle機制。但其實在push-base...
歡迎關注公眾號“Tim在路上”在Spark3.2中引入了領英設計的一種新的shuffle方案愿卒,今天我們先來了解下其大致的設計原理缚去,之后會再分析其具體的代碼實現(xiàn)。 當我們在Ya...
歡迎關注公眾號“Tim在路上”在討論external shuffle service的具體實現(xiàn)之前易结,我們先來回顧下spark shuffle的大概過程。 spark shuf...
歡迎關注公眾號“Tim在路上” 在Spark中shuffleWriter有三種實現(xiàn)柜候,分別是bypassMergeSortShuffleWriter, UnsafeShuffl...
Spark netty RPC 通信原理 通信是分布式程序的血液和神經(jīng)搞动,就好比大腦發(fā)出的執(zhí)行需要通過神經(jīng)和需要才能傳遞到手腳進行執(zhí)行≡ⅲ可見好的通信能力是分布式系統(tǒng)的重重之中鹦肿。...
歡迎關注微信公眾號“Tim在路上”之前我們已經(jīng)了解了shuffle writer的詳細過程,那么生成文件后會發(fā)生什么呢辅柴?以及它們是如何被讀取呢箩溃?讀取是內(nèi)存的操作嗎?這些問題也...