
split邏輯切分: 這里的分片不是物理分片,輸入分片存儲的并非數(shù)據(jù)本身单起,而是一個分片長度和一個記錄數(shù)據(jù)的位置的數(shù)據(jù) 例如10MB文件效床,切分10各1MB小文件棺聊,0-1MB位置...
緩慢變化維 slowly changing dimension(SCD) 常見緩慢變化維有三種: 1耀销、直接覆蓋的方式 2、新加一行數(shù)據(jù):使用代理主鍵+生效失效時間或者代理主鍵...
hive 提供數(shù)據(jù)抽樣功能之景,根據(jù)一定的規(guī)則進行數(shù)據(jù)抽樣斤富,目前支持三種抽樣: 1、數(shù)據(jù)塊抽樣 tablesample()函數(shù)(hive0.8版本及以上支持) tablesamp...
面試中問到數(shù)倉分層的優(yōu)缺點锻狗,其實在日常工作中满力,還真只是知道要這樣做,但是為什么這樣做屋谭,這樣做的目的是什么脚囊,好像我從來沒考慮過,一起來總結(jié)一下吧 數(shù)倉分層的優(yōu)點: 1桐磁、數(shù)據(jù)的血...
第一次面試問到了presto的原理悔耘,沒引起我的重視,今天第二次面試又問到這個presto的原理我擂,我答的不是很好衬以,趕緊回來查一下presto到底是怎么回事,來吧校摩,跟我一起深入了...
第一步:調(diào)研 1看峻、業(yè)務(wù)調(diào)研:與業(yè)務(wù)人員座談,梳理業(yè)務(wù)過程衙吩,輸出業(yè)務(wù)流程圖及初步劃分出dwd層的主題域 2互妓、需求調(diào)研:梳理過去、現(xiàn)在及將來的數(shù)據(jù)需求和BI需求,輸出數(shù)倉app層...