本文節(jié)選翻譯自:?https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/
Iceberg, Hudi 和 Delta Lake是現(xiàn)在最熱門(mén)的開(kāi)源數(shù)據(jù)湖產(chǎn)品屈芜,如何選擇該用哪一款呢?我們給了一個(gè)快速的選擇方法:
如果你有以下需求贮匕,請(qǐng)選擇Iceberg:
你的主要痛點(diǎn)不是修改記錄勺良,而是累于管理超過(guò)一萬(wàn)個(gè)分區(qū)的大表的元數(shù)據(jù)绰播。通過(guò)Apache Iceberg可以加快列舉在S3上的文件或者Hive Metastore分區(qū)。
反過(guò)來(lái)尚困,刪除和修改的支持還是屬于初級(jí)階段蠢箩,數(shù)據(jù)保存需要額外的操作。
如果你有以下需求事甜,請(qǐng)選擇Hudi:
你使用不同的查詢(xún)引擎谬泌,需要靈活的管理變化的數(shù)據(jù)集。注意讳侨,支持工具和整體的開(kāi)發(fā)者體驗(yàn)可能很糟糕呵萨。有時(shí)奏属,大量的工作負(fù)載可能需要額外的安裝和調(diào)優(yōu)跨跨。
如果你正在使用AWS托管服務(wù),像Athena, Glue或者EMR囱皿,Hudi已經(jīng)集成在里面了勇婴。
如果你有以下需求,請(qǐng)選擇Delta Lake:
你主要使用Spark嘱腥,并且有很少寫(xiě)入需求耕渴。如果你正好也是Databricks的客戶(hù),Delta Engine會(huì)帶給你巨大的讀寫(xiě)性能和并發(fā)性的提升齿兔,這也很合理繼續(xù)使用他們的生態(tài)系統(tǒng)橱脸。
對(duì)于其它的Apache Spark發(fā)布版本,你需要知道Delta Lake的開(kāi)源版本總是落后于商業(yè)版(Delta Engine)分苇,這是一個(gè)商業(yè)產(chǎn)品的策略添诉。