數(shù)據(jù)倉庫搭建

全流程:數(shù)據(jù)采集->數(shù)據(jù)存儲(chǔ)->數(shù)據(jù)分析->數(shù)據(jù)呈現(xiàn)


數(shù)據(jù)采集

首先我們從數(shù)據(jù)采集來說领曼,數(shù)據(jù)采集的數(shù)據(jù)主要來自于日志功能模塊帜乞、業(yè)務(wù)系統(tǒng)、合法合規(guī)的爬蟲绪励、第三方數(shù)據(jù)采集系統(tǒng)、智能硬件唠粥,這里日志功能模塊我們以Nginx服務(wù)日志為例疏魏;業(yè)務(wù)系統(tǒng)主要包括商品管理系統(tǒng)、用戶管理系統(tǒng)晤愧、倉儲(chǔ)系統(tǒng)大莫、物流系統(tǒng);爬蟲主要是爬取競品的商品信息官份,用于觀察競品動(dòng)向和商品比價(jià)只厘;第三方數(shù)據(jù)采集系統(tǒng)我們以神策為例;智能硬件主要是用于倉儲(chǔ)和車輛的溫度濕度監(jiān)控舅巷、預(yù)警羔味。

數(shù)據(jù)存儲(chǔ)(數(shù)據(jù)庫、數(shù)據(jù)倉庫钠右、數(shù)據(jù)集市)

數(shù)據(jù)庫

然后是對(duì)采集過來的數(shù)據(jù)進(jìn)行清洗介评、轉(zhuǎn)換、加載爬舰,也就是我們所說的ETL過程们陆。經(jīng)過清洗之后的數(shù)據(jù)我們會(huì)把他放在數(shù)據(jù)庫里面,最后會(huì)得到一個(gè)一個(gè)類似于下圖的表結(jié)構(gòu)情屹,其中黑色的是維度表坪仇,紅色的是事實(shí)表。最后這些數(shù)據(jù)數(shù)據(jù)會(huì)存放在數(shù)據(jù)庫和數(shù)據(jù)倉庫里面垃你,比如業(yè)務(wù)系統(tǒng)和智能硬件產(chǎn)生的數(shù)據(jù)會(huì)被存放在事務(wù)數(shù)據(jù)庫上椅文,Nginx的數(shù)據(jù)會(huì)被存放在行為數(shù)據(jù)庫上,而第三方采集系統(tǒng)的數(shù)據(jù)會(huì)被直接存在數(shù)據(jù)倉庫中被用來分析數(shù)據(jù)惜颇。


數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的皆刺、集成的、與時(shí)間相關(guān)的凌摄、可修復(fù)的數(shù)據(jù)集合羡蛾。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像是一個(gè)過程锨亏。把數(shù)據(jù)庫里面的數(shù)據(jù)進(jìn)行抽取痴怨、轉(zhuǎn)化忙干、裝載最終以結(jié)構(gòu)化數(shù)據(jù)格式、半結(jié)構(gòu)化數(shù)據(jù)格式浪藻、非結(jié)構(gòu)化數(shù)據(jù)格式存放在數(shù)據(jù)倉庫上捐迫。


1.用戶構(gòu)成進(jìn)行多維建模(星型模型)數(shù)據(jù)倉庫建模主要分為星型模型和雪花型模型爱葵。

可以從時(shí)間施戴、地域、性別萌丈、年齡暇韧、職業(yè)、等級(jí)浓瞪、渠道、學(xué)歷等維度來分析用戶是通過什么渠道巧婶,在什么時(shí)間節(jié)點(diǎn)訪問了哪個(gè)平臺(tái)進(jìn)行的注冊(cè)操作乾颁,還可以分析我們的產(chǎn)品最受哪個(gè)年齡段的用戶喜歡,他們一般是什么學(xué)歷艺栈,什么職業(yè)英岭,來自哪里,對(duì)產(chǎn)品的忠誠度怎么樣湿右。


2.訂單構(gòu)成進(jìn)行多維建模(雪花模型)诅妹。

可以從用戶、地域毅人、時(shí)間吭狡、商品、發(fā)票丈莺、優(yōu)惠券等幾個(gè)維度對(duì)訂單進(jìn)行分析划煮,觀察那個(gè)地方的然對(duì)哪些商品感興趣,什么時(shí)間節(jié)點(diǎn)下單比較多缔俄,我們的用戶對(duì)發(fā)票的需求大不大弛秋,哪些商品最受用戶歡迎,交易維度可以分析出什么樣的支付方式最受歡迎俐载。


3.渠道質(zhì)量分析(星型模型)

可以從設(shè)備蟹略、用戶、訂單遏佣、商品等維度進(jìn)行分析挖炬,這個(gè)渠道有多少設(shè)備、有多少注冊(cè)用戶状婶,有多少訂單茅茂,訂單的轉(zhuǎn)化率怎么樣捏萍,帶來了多少GMV, 這個(gè)渠道的用戶喜歡什么商品空闲。


建模之后數(shù)據(jù)需要通過ETL令杈,即數(shù)據(jù)的提取、轉(zhuǎn)化與裝載碴倾,生成新的事實(shí)表逗噩,并存儲(chǔ)在企業(yè)數(shù)據(jù)倉庫或ODS上,方便分析師進(jìn)行分析跌榔。


數(shù)據(jù)集市

人們?cè)谠缙痖_發(fā)企業(yè)級(jí)數(shù)據(jù)倉庫的時(shí)候异雁,一般是先建立一個(gè)全局的數(shù)據(jù)倉庫,然后在此基礎(chǔ)上建立各種應(yīng)用僧须,即“自頂向下”的方法纲刀。但在開發(fā)的過程中會(huì)出現(xiàn)以下問題:

1.如果按“自頂向下”的方法建立企業(yè)級(jí)數(shù)據(jù)倉庫,建設(shè)規(guī)模往往較大担平,建設(shè)周期長示绊,投資大。

2.在數(shù)據(jù)倉庫建好后暂论,隨著使用數(shù)據(jù)倉庫的部門爭奪面褐,對(duì)數(shù)據(jù)倉庫資源的競爭將成為企業(yè)面臨的一個(gè)難題。

3.各部門希望能定制數(shù)據(jù)倉庫中的數(shù)據(jù)取胎,但數(shù)據(jù)倉庫是面向企業(yè)的展哭。

由于以上問題,便出現(xiàn)了數(shù)據(jù)集市闻蛀,數(shù)據(jù)集市又會(huì)分為獨(dú)立數(shù)據(jù)集市和從屬數(shù)據(jù)集市匪傍,我理解的是獨(dú)立數(shù)據(jù)集市是面向公司的每個(gè)大部門,比如技術(shù)部觉痛,而從屬數(shù)據(jù)集市是面向大部門里面的小部門析恢,比如技術(shù)部里面的前端組。


比如企業(yè)里面有市場部秧饮、運(yùn)營部映挂、產(chǎn)品部、技術(shù)部盗尸,每個(gè)部門想要了解的數(shù)據(jù)柑船,關(guān)心的指標(biāo)都不一樣,這樣我們就需要有四個(gè)數(shù)據(jù)集市來為這些部門服務(wù)泼各。比如市場部主要關(guān)心渠道質(zhì)量鞍时、渠道的GMV貢獻(xiàn)等。

?

數(shù)據(jù)分析可以用AARRR、AHP逆巍、RFM等模型對(duì)數(shù)據(jù)倉庫和數(shù)據(jù)集市中冗余的數(shù)據(jù)進(jìn)行分析提取出對(duì)業(yè)務(wù)有幫助的關(guān)鍵指標(biāo)及塘,供數(shù)據(jù)需求方?jīng)Q策使用。

數(shù)據(jù)呈現(xiàn):最終以報(bào)表的形式呈現(xiàn)給數(shù)據(jù)需求方锐极,比如市場部

1.各渠道數(shù)據(jù)概覽(過去7日)


2.各渠道著陸頁的訪問用戶和跳出率(過去7日)



3.各渠道GMV的貢獻(xiàn)情況


4.各渠道購買轉(zhuǎn)化分析


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末笙僚,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子灵再,更是在濱河造成了極大的恐慌肋层,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件翎迁,死亡現(xiàn)場離奇詭異栋猖,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)汪榔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門蒲拉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人痴腌,你說我怎么就攤上這事雌团。” “怎么了衷掷?”我有些...
    開封第一講書人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長柿菩。 經(jīng)常有香客問我戚嗅,道長,這世上最難降的妖魔是什么枢舶? 我笑而不...
    開封第一講書人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任懦胞,我火速辦了婚禮,結(jié)果婚禮上凉泄,老公的妹妹穿的比我還像新娘躏尉。我一直安慰自己,他們只是感情好后众,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開白布胀糜。 她就那樣靜靜地躺著,像睡著了一般蒂誉。 火紅的嫁衣襯著肌膚如雪教藻。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,692評(píng)論 1 305
  • 那天右锨,我揣著相機(jī)與錄音括堤,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛悄窃,可吹牛的內(nèi)容都是我干的讥电。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼轧抗,長吁一口氣:“原來是場噩夢啊……” “哼恩敌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起鸦致,我...
    開封第一講書人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤潮剪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后分唾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抗碰,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年绽乔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了弧蝇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡折砸,死狀恐怖看疗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情睦授,我是刑警寧澤两芳,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站去枷,受9級(jí)特大地震影響怖辆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜删顶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一竖螃、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧逗余,春花似錦特咆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至啥繁,卻和暖如春荒叶,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背输虱。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來泰國打工些楣, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓愁茁,卻偏偏與公主長得像蚕钦,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鹅很,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容