
split邏輯切分: 這里的分片不是物理分片冰木,輸入分片存儲的并非數(shù)據(jù)本身揪漩,而是一個分片長度和一個記錄數(shù)據(jù)的位置的數(shù)據(jù) 例如10MB文件燃观,切分10各1MB小文件叶组,0-1MB位置...
緩慢變化維 slowly changing dimension(SCD) 常見緩慢變化維有三種: 1旬盯、直接覆蓋的方式 2而钞、新加一行數(shù)據(jù):使用代理主鍵+生效失效時間或者代理主鍵...
hive 提供數(shù)據(jù)抽樣功能沙廉,根據(jù)一定的規(guī)則進行數(shù)據(jù)抽樣,目前支持三種抽樣: 1臼节、數(shù)據(jù)塊抽樣 tablesample()函數(shù)(hive0.8版本及以上支持) tablesamp...
面試中問到數(shù)倉分層的優(yōu)缺點撬陵,其實在日常工作中,還真只是知道要這樣做网缝,但是為什么這樣做巨税,這樣做的目的是什么,好像我從來沒考慮過粉臊,一起來總結(jié)一下吧 數(shù)倉分層的優(yōu)點: 1草添、數(shù)據(jù)的血...
第一次面試問到了presto的原理,沒引起我的重視扼仲,今天第二次面試又問到這個presto的原理远寸,我答的不是很好抄淑,趕緊回來查一下presto到底是怎么回事,來吧驰后,跟我一起深入了...
第一步:調(diào)研 1肆资、業(yè)務調(diào)研:與業(yè)務人員座談,梳理業(yè)務過程灶芝,輸出業(yè)務流程圖及初步劃分出dwd層的主題域 2郑原、需求調(diào)研:梳理過去、現(xiàn)在及將來的數(shù)據(jù)需求和BI需求夜涕,輸出數(shù)倉app層...