數(shù)倉(cāng)DWS層設(shè)計(jì)思想---開始搭建之前的回顧

  • DWS層存在的意義:
    通過(guò)指標(biāo)體系,分析并整合出通用的连锯、重復(fù)使用的派生指標(biāo)归苍,減少?gòu)模―WD、DIM)==>(ADS)重復(fù)計(jì)算

  • 構(gòu)建指標(biāo)體系:
    原子指標(biāo) = 業(yè)務(wù)過(guò)程+度量值+聚合邏輯
    派生指標(biāo) = 原子指標(biāo)+統(tǒng)計(jì)周期+業(yè)務(wù)限定+統(tǒng)計(jì)粒度
    衍生指標(biāo) = 多個(gè)派生指標(biāo)的整合(比例萎庭、比率等)

  • 使用Excel匯總每一個(gè)派生指標(biāo)的具體構(gòu)成(基本上就是指標(biāo)體系)霜医,包括上述等式中的每一部分,例如下圖驳规。從已匯總的表格中提煉公共點(diǎn)

    部分派生指標(biāo)的統(tǒng)計(jì)

  • 公共三要素:業(yè)務(wù)過(guò)程肴敛、統(tǒng)計(jì)周期、統(tǒng)計(jì)粒度:
    1吗购、業(yè)務(wù)過(guò)程:對(duì)應(yīng)sql中 FROM医男,對(duì)應(yīng)DWD中不同的事實(shí)表
    2、統(tǒng)計(jì)周期:對(duì)應(yīng)sql中 WHERE 的時(shí)間篩選部分捻勉,對(duì)應(yīng)DWS中不同的表(以命名規(guī)范區(qū)分)
    3镀梭、統(tǒng)計(jì)粒度:對(duì)應(yīng)sql中 GROUP BY
    確認(rèn)上述三要素相同的派生指標(biāo)將放置于同一張DWS表中,具體的踱启,會(huì)根據(jù)不同的度量值和聚合邏輯設(shè)計(jì)表中的select字段报账。

  • DWS層表格命名規(guī)范:
    dws--數(shù)據(jù)域--統(tǒng)計(jì)粒度--業(yè)務(wù)過(guò)程--統(tǒng)計(jì)周期(1d/nd/td)

設(shè)計(jì)(指標(biāo)分析)舉例

1研底、指標(biāo)需求(ADS層)
品牌相關(guān)需求

品類相關(guān)需求
2、指標(biāo)定義

拿到需求后透罢,按照派生指標(biāo)公式(派生指標(biāo) = 原子指標(biāo)+統(tǒng)計(jì)周期+業(yè)務(wù)限定+統(tǒng)計(jì)粒度)榜晦,對(duì)需求進(jìn)行拆分、定義羽圃,舉例如下:


派生指標(biāo)定義舉例

衍生指標(biāo)定義舉例
3乾胶、匯總派生指標(biāo)

指標(biāo)定義完畢后,建立Excel匯總指標(biāo)體系朽寞,將三要素相同的指標(biāo)用相同底色標(biāo)注识窿。
相同底色的指標(biāo)將在同一個(gè)DWS表中體現(xiàn)。

指標(biāo)體系

4脑融、建表 & 裝載(以品牌指標(biāo)為例)
  • 最近1天下單——建表
    1喻频、將Excel表中的字段寫入
    2、根據(jù)業(yè)務(wù)過(guò)程(下單)肘迎,參考對(duì)應(yīng)的DWD層事實(shí)表(dwd_order_detail_inc)半抱,添加與主鍵(粒度)相關(guān)的其他字段,用以豐富表字段內(nèi)容
    3膜宋、粒度細(xì)化
    由于“最近n天”的數(shù)據(jù)來(lái)源于“最近1天”,在統(tǒng)計(jì)部分累加型指標(biāo)時(shí)(最近n天下單人數(shù))炼幔,是按照每天進(jìn)行讀取秋茫,這樣就會(huì)出現(xiàn)因時(shí)間范圍劃分不準(zhǔn)確而產(chǎn)生的重復(fù)數(shù)據(jù)問題(應(yīng)按照n天進(jìn)行劃分并去重,最后累加乃秀。但是實(shí)際上是將n個(gè)獨(dú)立去重的結(jié)果相累加)肛著。這種問題是因?yàn)榱6葻o(wú)法滿足統(tǒng)計(jì)需求而產(chǎn)生的,故要解決此問題跺讯,我們需要對(duì)粒度做出進(jìn)一步的細(xì)化枢贿,從單一的(tm_id),變成(user_id, tm_id)刀脏。粒度越細(xì)局荚,表通用性越強(qiáng)
CREATE EXTERNAL TABLE dws_trade_user_tm_order_1d
(
    `user_id`            STRING COMMENT '用戶id',
    `tm_id`            STRING COMMENT '品牌id',
    `tm_name`          STRING COMMENT '品牌名稱',
    `order_count`      BIGINT COMMENT '最近1日訂單數(shù)',
--   `order_user_count` BIGINT COMMENT '最近1日訂單人數(shù)',
    `order_num`               BIGINT COMMENT '最近1日商品下單件數(shù)',
    `order_original_amount` DECIMAL(16, 2) COMMENT '最近1日下單原始價(jià)格',
    `order_activity_amount` DECIMAL(16, 2) COMMENT '最近1日下單活動(dòng)優(yōu)惠',
    `order_coupon_amount`   DECIMAL(16, 2) COMMENT '最近1日下單優(yōu)惠券優(yōu)惠',
    `order_total_amount`    DECIMAL(16, 2) COMMENT '最近1日下單最終價(jià)格'
) COMMENT '交易域用戶品牌粒度訂單最近1日匯總事實(shí)表'
    PARTITIONED BY (`dt` STRING)
    STORED AS ORC
    LOCATION '/xxx'
    TBLPROPERTIES ('orc.compress' = 'snappy');
  • 最近1天下單——裝載
    從相關(guān)表格中拉取數(shù)據(jù),按照分區(qū)規(guī)劃愈污、數(shù)據(jù)流動(dòng)情況進(jìn)行裝載
insert overwrite table dws_trade_user_tm_order_1d partition(dt='2020-06-14')
select
    user_id,
    tm_id,
    tm_name,
    count(*) order_count,
    sum(sku_num) order_num,
    sum(split_original_amount) order_original_amount,
    sum(nvl(split_activity_amount,0.0)) order_activity_amount,
    sum(nvl(split_coupon_amount,0.0)) order_coupon_amount,
    sum(split_total_amount) order_total_amount
from
(
    select
        sku_id,
        user_id,
        sku_num,
        split_original_amount,
        split_activity_amount,
        split_coupon_amount,
        split_total_amount
    from dwd_trade_order_detail_inc
    where dt = '2020-06-14'
)od
left join
(
    select
        id,
        tm_id,
        tm_name
    from dim_sku_full
    where dt='2020-06-14'
)sku
on od.sku_id=sku.id
group by user_id,tm_id,tm_name;
  • 最近n天下單——建表
DROP TABLE IF EXISTS dws_trade_user_tm_order_nd;
CREATE EXTERNAL TABLE dws_trade_user_tm_order_nd
(
    `user_id`            STRING COMMENT '用戶id',
    `tm_id`            STRING COMMENT '品牌id',
    `tm_name`          STRING COMMENT '品牌名稱',
    `order_count_7d`      BIGINT COMMENT '最近7日訂單數(shù)',
    `order_num_7d`               BIGINT COMMENT '最近7日商品下單件數(shù)',
    `order_original_amount_7d` DECIMAL(16, 2) COMMENT '最近7日下單原始價(jià)格',
    `order_activity_amount_7d` DECIMAL(16, 2) COMMENT '最近7日下單活動(dòng)優(yōu)惠',
    `order_coupon_amount_7d`   DECIMAL(16, 2) COMMENT '最近7日下單優(yōu)惠券優(yōu)惠',
    `order_total_amount_7d`    DECIMAL(16, 2) COMMENT '最近7日下單最終價(jià)格',
    `order_count_30d`      BIGINT COMMENT '最近30日訂單數(shù)',
    `order_num_30d`               BIGINT COMMENT '最近30日商品下單件數(shù)',
    `order_original_amount_30d` DECIMAL(16, 2) COMMENT '最近30日下單原始價(jià)格',
    `order_activity_amount_30d` DECIMAL(16, 2) COMMENT '最近30日下單活動(dòng)優(yōu)惠',
    `order_coupon_amount_30d`   DECIMAL(16, 2) COMMENT '最近30日下單優(yōu)惠券優(yōu)惠',
    `order_total_amount_30d`    DECIMAL(16, 2) COMMENT '最近30日下單最終價(jià)格'
) COMMENT '交易域用戶品牌粒度訂單最近n日匯總事實(shí)表'
    PARTITIONED BY (`dt` STRING)
    STORED AS ORC
    LOCATION '/xxx'
    TBLPROPERTIES ('orc.compress' = 'snappy');
  • 最近n天下單——裝載
    1耀态、最近1天表格已搭建完畢,最近n天直接使用最近1天進(jìn)行裝載
    2暂雹、最近n天實(shí)際上是“最近7天”與“最近30天”的合并首装,那么,在最外層的篩選中杭跪,必須按照“最近30天”的范圍進(jìn)行篩選仙逻,以保證數(shù)據(jù)準(zhǔn)確性驰吓。
select
    user_id,
    tm_id,
    tm_name,
    sum(if(dt>=date_add('2020-06-14',-6),order_count,0)) order_count_7d,
    sum(if(dt>=date_add('2020-06-14',-6),order_num,0)) order_num_7d,
    sum(if(dt>=date_add('2020-06-14',-6),order_original_amount,0)) order_original_amount_7d,
    sum(if(dt>=date_add('2020-06-14',-6),order_activity_amount,0)) order_activity_amount_7d,
    sum(if(dt>=date_add('2020-06-14',-6),order_coupon_amount,0)) order_coupon_amount_7d,
    sum(if(dt>=date_add('2020-06-14',-6),order_total_amount,0)) order_total_amount_7d,
    sum(order_count) order_count_30d,
    sum(order_num) order_num_30d,
    sum(order_original_amount) order_original_amount_30d,
    sum(order_activity_amount) order_activity_amount_30d,
    sum(order_coupon_amount) order_coupon_amount_30d,
    sum(order_total_amount) order_total_amount_30d
from dws_trade_user_tm_order_1d
where dt>=date_add('2020-06-14',-29)
group by user_id,tm_id,tm_name;

最近1日、最近n日設(shè)計(jì)思想總結(jié)

  • 品牌表系奉、品類表兩者數(shù)據(jù)的來(lái)源均為DWD層的dwd_trade_order_detail_inc檬贰,他們之間的主要區(qū)別就在于sql語(yǔ)句中的GROUP BY聚合字段。
  • 即便是當(dāng)前品牌表粒度(user_id, tm_id)喜最、品類表粒度(user_id, cate_id)已經(jīng)做了細(xì)化偎蘸,兩者的聚合過(guò)程仍不可避免的存在冗余。(冗余并不準(zhǔn)確瞬内,但實(shí)在是找不到別的詞來(lái)形容了迷雪。實(shí)際上這一整段都描述的都不準(zhǔn)確,將就看吧)
  • 為了解決這樣的問題虫蝶,提高整個(gè)DWS章咧、ADS層統(tǒng)計(jì)性能,我們?nèi)孕枰獙?duì)粒度做出更加進(jìn)一步的細(xì)化能真。
  • 最終細(xì)化結(jié)果為(user_id, sku_id)赁严。至此,將品牌粉铐、品類指標(biāo)匯總為一張DWS表疼约,在需要時(shí)進(jìn)行二次聚合。以下為“用戶商品粒度訂單最近1日”的最終建表語(yǔ)句蝙泼。
DROP TABLE IF EXISTS dws_trade_user_sku_order_1d;
CREATE EXTERNAL TABLE dws_trade_user_sku_order_1d
(
    `user_id`                   STRING COMMENT '用戶id',
    `sku_id`                    STRING COMMENT 'sku_id',
    `sku_name`                  STRING COMMENT 'sku名稱',
    `category1_id`              STRING COMMENT '一級(jí)分類id',
    `category1_name`            STRING COMMENT '一級(jí)分類名稱',
    `category2_id`              STRING COMMENT '一級(jí)分類id',
    `category2_name`            STRING COMMENT '一級(jí)分類名稱',
    `category3_id`              STRING COMMENT '一級(jí)分類id',
    `category3_name`            STRING COMMENT '一級(jí)分類名稱',
    `tm_id`                     STRING COMMENT '品牌id',
    `tm_name`                   STRING COMMENT '品牌名稱',
    `order_count_1d`            BIGINT COMMENT '最近1日下單次數(shù)',
    `order_num_1d`              BIGINT COMMENT '最近1日下單件數(shù)',
    `order_original_amount_1d`  DECIMAL(16, 2) COMMENT '最近1日下單原始金額',
    `activity_reduce_amount_1d` DECIMAL(16, 2) COMMENT '最近1日活動(dòng)優(yōu)惠金額',
    `coupon_reduce_amount_1d`   DECIMAL(16, 2) COMMENT '最近1日優(yōu)惠券優(yōu)惠金額',
    `order_total_amount_1d`     DECIMAL(16, 2) COMMENT '最近1日下單最終金額'
) COMMENT '交易域用戶商品粒度訂單最近1日匯總事實(shí)表'
    PARTITIONED BY (`dt` STRING)
    STORED AS ORC
    LOCATION '/xxx'
    TBLPROPERTIES ('orc.compress' = 'snappy');

歷史至今匯總表設(shè)計(jì)思想

我是菜雞程剥,沒弄明白
需求舉例如下:


歷史匯總表需求舉例
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市汤踏,隨后出現(xiàn)的幾起案子织鲸,更是在濱河造成了極大的恐慌,老刑警劉巖溪胶,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件搂擦,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡哗脖,警方通過(guò)查閱死者的電腦和手機(jī)瀑踢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)才避,“玉大人丘损,你說(shuō)我怎么就攤上這事」ぴ” “怎么了徘钥?”我有些...
    開封第一講書人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)肢娘。 經(jīng)常有香客問我呈础,道長(zhǎng)舆驶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上嗓节,老公的妹妹穿的比我還像新娘。我一直安慰自己撬陵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開白布网缝。 她就那樣靜靜地躺著巨税,像睡著了一般。 火紅的嫁衣襯著肌膚如雪粉臊。 梳的紋絲不亂的頭發(fā)上草添,一...
    開封第一講書人閱讀 51,754評(píng)論 1 307
  • 那天,我揣著相機(jī)與錄音扼仲,去河邊找鬼远寸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛屠凶,可吹牛的內(nèi)容都是我干的驰后。 我是一名探鬼主播,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼矗愧,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼倡怎!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起贱枣,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎颤专,沒想到半個(gè)月后纽哥,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡栖秕,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年春塌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片簇捍。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡只壳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出暑塑,到底是詐尸還是另有隱情吼句,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布事格,位于F島的核電站惕艳,受9級(jí)特大地震影響搞隐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜远搪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一劣纲、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧谁鳍,春花似錦癞季、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至窍荧,卻和暖如春辉巡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蕊退。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工郊楣, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瓤荔。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓净蚤,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親输硝。 傳聞我的和親對(duì)象是個(gè)殘疾皇子今瀑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容