在數(shù)據(jù)倉庫建設(shè)膛虫,處理日常業(yè)務(wù)需求的過程中醒陆,經(jīng)常會遇到各種各樣的問題宙搬。在處理更新操作數(shù)據(jù)時,遇到數(shù)據(jù)重復(fù)問題目尖。前期因為沒考慮到關(guān)系型數(shù)據(jù)庫upda...
最近瑟曲,有位朋友問我饮戳,distinct去重原理是怎么實現(xiàn)的? “在面試時洞拨,面試官問他了解distinct算子嗎扯罐?” “了解啊,Spark的rdd烦衣,...
最近在建設(shè)數(shù)據(jù)倉庫,處理數(shù)據(jù)的過程中花吟,經(jīng)常反復(fù)使用hive的HQL語句秸歧,盡管HQL和SQL語言有很多相同之處,但也并不是說HQL就能通用SQL的...
無規(guī)矩键菱,不方圓。每個人都有自己的編碼風(fēng)格矾麻,每個公司也有自己的代碼規(guī)范纱耻。規(guī)范的代碼芭梯,無論是自己日常維護(hù)险耀,還是以后接盤者來接盤弄喘,都能快速定位上手,大...
hive 常用日期格式轉(zhuǎn)換 把固定日期轉(zhuǎn)換成時間戳 把 29/May/2020:11:30:03 +0800 轉(zhuǎn)成正常格式(yyyy-MM-dd...
一贬派、RDD的特性 Spark之所以成為目前比較主流的大數(shù)據(jù)處理技術(shù)急但,其中RDD的特性和機(jī)制占到很大比重,沒有RDD的這些機(jī)制搞乏,Spark性能會大...
一镐躲、RDD為什么出現(xiàn)? 在實際開發(fā)應(yīng)用中侍筛,存在許多迭代式計算萤皂,這些應(yīng)用場景的共同之處是,不同計算階段之間會重用中間結(jié)果匣椰,即一個階段的輸出結(jié)果會作...
大數(shù)據(jù)開發(fā)聽著挺玄乎的,其實很多公司就是寫寫SQL禽笑,分析分析數(shù)據(jù)入录,這也被稱作大數(shù)據(jù)開發(fā)。對很多公司的大數(shù)據(jù)開發(fā)而言佳镜,平時工作寫SQL僚稿,使用Hiv...
大數(shù)據(jù)時代邀杏,面對海量化數(shù)據(jù)贫奠,傳統(tǒng)文件存儲系統(tǒng)已經(jīng)難以支撐。隨著大數(shù)據(jù)技術(shù)的發(fā)展望蜡、越來越多存儲和處理數(shù)據(jù)的組件被開發(fā)出來唤崭,諸如分布式文件系統(tǒng)HDF...