全流程:數(shù)據(jù)采集->數(shù)據(jù)存儲(chǔ)->數(shù)據(jù)分析->數(shù)據(jù)呈現(xiàn)
數(shù)據(jù)采集
首先我們從數(shù)據(jù)采集來說领曼,數(shù)據(jù)采集的數(shù)據(jù)主要來自于日志功能模塊帜乞、業(yè)務(wù)系統(tǒng)、合法合規(guī)的爬蟲绪励、第三方數(shù)據(jù)采集系統(tǒng)、智能硬件唠粥,這里日志功能模塊我們以Nginx服務(wù)日志為例疏魏;業(yè)務(wù)系統(tǒng)主要包括商品管理系統(tǒng)、用戶管理系統(tǒng)晤愧、倉儲(chǔ)系統(tǒng)大莫、物流系統(tǒng);爬蟲主要是爬取競品的商品信息官份,用于觀察競品動(dòng)向和商品比價(jià)只厘;第三方數(shù)據(jù)采集系統(tǒng)我們以神策為例;智能硬件主要是用于倉儲(chǔ)和車輛的溫度濕度監(jiān)控舅巷、預(yù)警羔味。
數(shù)據(jù)存儲(chǔ)(數(shù)據(jù)庫、數(shù)據(jù)倉庫钠右、數(shù)據(jù)集市)
數(shù)據(jù)庫
然后是對(duì)采集過來的數(shù)據(jù)進(jìn)行清洗介评、轉(zhuǎn)換、加載爬舰,也就是我們所說的ETL過程们陆。經(jīng)過清洗之后的數(shù)據(jù)我們會(huì)把他放在數(shù)據(jù)庫里面,最后會(huì)得到一個(gè)一個(gè)類似于下圖的表結(jié)構(gòu)情屹,其中黑色的是維度表坪仇,紅色的是事實(shí)表。最后這些數(shù)據(jù)數(shù)據(jù)會(huì)存放在數(shù)據(jù)庫和數(shù)據(jù)倉庫里面垃你,比如業(yè)務(wù)系統(tǒng)和智能硬件產(chǎn)生的數(shù)據(jù)會(huì)被存放在事務(wù)數(shù)據(jù)庫上椅文,Nginx的數(shù)據(jù)會(huì)被存放在行為數(shù)據(jù)庫上,而第三方采集系統(tǒng)的數(shù)據(jù)會(huì)被直接存在數(shù)據(jù)倉庫中被用來分析數(shù)據(jù)惜颇。
數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的皆刺、集成的、與時(shí)間相關(guān)的凌摄、可修復(fù)的數(shù)據(jù)集合羡蛾。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像是一個(gè)過程锨亏。把數(shù)據(jù)庫里面的數(shù)據(jù)進(jìn)行抽取痴怨、轉(zhuǎn)化忙干、裝載最終以結(jié)構(gòu)化數(shù)據(jù)格式、半結(jié)構(gòu)化數(shù)據(jù)格式浪藻、非結(jié)構(gòu)化數(shù)據(jù)格式存放在數(shù)據(jù)倉庫上捐迫。
1.用戶構(gòu)成進(jìn)行多維建模(星型模型)。數(shù)據(jù)倉庫建模主要分為星型模型和雪花型模型爱葵。
可以從時(shí)間施戴、地域、性別萌丈、年齡暇韧、職業(yè)、等級(jí)浓瞪、渠道、學(xué)歷等維度來分析用戶是通過什么渠道巧婶,在什么時(shí)間節(jié)點(diǎn)訪問了哪個(gè)平臺(tái)進(jìn)行的注冊(cè)操作乾颁,還可以分析我們的產(chǎn)品最受哪個(gè)年齡段的用戶喜歡,他們一般是什么學(xué)歷艺栈,什么職業(yè)英岭,來自哪里,對(duì)產(chǎn)品的忠誠度怎么樣湿右。
2.訂單構(gòu)成進(jìn)行多維建模(雪花模型)诅妹。
可以從用戶、地域毅人、時(shí)間吭狡、商品、發(fā)票丈莺、優(yōu)惠券等幾個(gè)維度對(duì)訂單進(jìn)行分析划煮,觀察那個(gè)地方的然對(duì)哪些商品感興趣,什么時(shí)間節(jié)點(diǎn)下單比較多缔俄,我們的用戶對(duì)發(fā)票的需求大不大弛秋,哪些商品最受用戶歡迎,交易維度可以分析出什么樣的支付方式最受歡迎俐载。
3.渠道質(zhì)量分析(星型模型)
可以從設(shè)備蟹略、用戶、訂單遏佣、商品等維度進(jìn)行分析挖炬,這個(gè)渠道有多少設(shè)備、有多少注冊(cè)用戶状婶,有多少訂單茅茂,訂單的轉(zhuǎn)化率怎么樣捏萍,帶來了多少GMV, 這個(gè)渠道的用戶喜歡什么商品空闲。
建模之后數(shù)據(jù)需要通過ETL令杈,即數(shù)據(jù)的提取、轉(zhuǎn)化與裝載碴倾,生成新的事實(shí)表逗噩,并存儲(chǔ)在企業(yè)數(shù)據(jù)倉庫或ODS上,方便分析師進(jìn)行分析跌榔。
數(shù)據(jù)集市
人們?cè)谠缙痖_發(fā)企業(yè)級(jí)數(shù)據(jù)倉庫的時(shí)候异雁,一般是先建立一個(gè)全局的數(shù)據(jù)倉庫,然后在此基礎(chǔ)上建立各種應(yīng)用僧须,即“自頂向下”的方法纲刀。但在開發(fā)的過程中會(huì)出現(xiàn)以下問題:
1.如果按“自頂向下”的方法建立企業(yè)級(jí)數(shù)據(jù)倉庫,建設(shè)規(guī)模往往較大担平,建設(shè)周期長示绊,投資大。
2.在數(shù)據(jù)倉庫建好后暂论,隨著使用數(shù)據(jù)倉庫的部門爭奪面褐,對(duì)數(shù)據(jù)倉庫資源的競爭將成為企業(yè)面臨的一個(gè)難題。
3.各部門希望能定制數(shù)據(jù)倉庫中的數(shù)據(jù)取胎,但數(shù)據(jù)倉庫是面向企業(yè)的展哭。
由于以上問題,便出現(xiàn)了數(shù)據(jù)集市闻蛀,數(shù)據(jù)集市又會(huì)分為獨(dú)立數(shù)據(jù)集市和從屬數(shù)據(jù)集市匪傍,我理解的是獨(dú)立數(shù)據(jù)集市是面向公司的每個(gè)大部門,比如技術(shù)部觉痛,而從屬數(shù)據(jù)集市是面向大部門里面的小部門析恢,比如技術(shù)部里面的前端組。
比如企業(yè)里面有市場部秧饮、運(yùn)營部映挂、產(chǎn)品部、技術(shù)部盗尸,每個(gè)部門想要了解的數(shù)據(jù)柑船,關(guān)心的指標(biāo)都不一樣,這樣我們就需要有四個(gè)數(shù)據(jù)集市來為這些部門服務(wù)泼各。比如市場部主要關(guān)心渠道質(zhì)量鞍时、渠道的GMV貢獻(xiàn)等。
?
數(shù)據(jù)分析可以用AARRR、AHP逆巍、RFM等模型對(duì)數(shù)據(jù)倉庫和數(shù)據(jù)集市中冗余的數(shù)據(jù)進(jìn)行分析提取出對(duì)業(yè)務(wù)有幫助的關(guān)鍵指標(biāo)及塘,供數(shù)據(jù)需求方?jīng)Q策使用。
數(shù)據(jù)呈現(xiàn):最終以報(bào)表的形式呈現(xiàn)給數(shù)據(jù)需求方锐极,比如市場部
1.各渠道數(shù)據(jù)概覽(過去7日)
2.各渠道著陸頁的訪問用戶和跳出率(過去7日)
3.各渠道GMV的貢獻(xiàn)情況
4.各渠道購買轉(zhuǎn)化分析