前言:
本文重點理清三個概念:數(shù)據(jù)庫辫封、數(shù)據(jù)倉庫、數(shù)據(jù)市集。
數(shù)據(jù)庫:
1.數(shù)據(jù)庫是什么倦微?
數(shù)據(jù)庫是存儲數(shù)據(jù)的一個庫妻味,庫通常有多種數(shù)據(jù)表,表則是由字段(列名)和記錄(基本信息)組成璃诀。
比如:消費者在淘寶購買商品弧可,會產(chǎn)生訂單號、下單時間劣欢、瀏覽時間棕诵、瀏覽次數(shù)等關(guān)于單純購買商品的信息。
通常這些信息是商家導(dǎo)出到數(shù)據(jù)庫中進(jìn)行收集為一個csv文件或者excel文件凿将,亦或者直接導(dǎo)入數(shù)據(jù)庫如:Mysql校套、hive中。
這種數(shù)據(jù)涉及到買家的實時信息的記錄牧抵,通常叫做事實表笛匙。
2.數(shù)據(jù)庫有什么用?
用于業(yè)務(wù)分析犀变,了解情況妹孙、調(diào)整策略。
比如:商家收集到了消費者的下單情況获枝,可以進(jìn)行月消費金額的統(tǒng)計蠢正、購買人次的統(tǒng)計等。
一方面了解自身的銷售狀況省店,另一方面也可以進(jìn)行對用戶群體行為跟蹤分析嚣崭。
比如:買家的年齡段、同個買家在商家購買的產(chǎn)品次數(shù)及類型懦傍,來刻畫用戶畫像雹舀,以便調(diào)整推廣方式、銷售活動等粗俱。
通常符合身份標(biāo)簽的说榆,如QQ上的昵稱、年齡源梭、性別等組成的數(shù)據(jù)表娱俺,或者地理位置,國家废麻、省、區(qū)域的表一般叫做維度表模庐。
3.數(shù)據(jù)庫怎么用烛愧?
利用配套工具,進(jìn)行 查、增怜姿、刪慎冤、改 的基本操作,復(fù)雜點 進(jìn)行 分組聚合沧卢,求和蚁堤、計數(shù)、求平均等但狭。
最為廣泛的是excel披诗,一般單張表使用。
Mysql 用于 多張表立磁,一個庫呈队。
python 用于 自動化、標(biāo)準(zhǔn)式輸出的操作唱歧。
hive 用于 跨部門宪摧、互動式 操作。
數(shù)據(jù)倉庫:
1.數(shù)據(jù)倉庫是什么颅崩?
是存儲各種歷史信息的數(shù)據(jù)庫几于,一般存在數(shù)據(jù)量大、雜沿后,以及數(shù)據(jù)表極多的情況沿彭,且不是按天為單位的錄入信息,一般是月得运、年為單位的存儲信息膝蜈。
數(shù)據(jù)倉庫中存儲著不同主題的信息。
一句話概括:“面向分析的存儲系統(tǒng)”熔掺。
當(dāng)然饱搏,日常使用的叫做 操作型數(shù)據(jù)庫,就是“面向業(yè)務(wù)的實時存儲系統(tǒng)”置逻。
2.數(shù)據(jù)倉庫的作用是什么推沸?
數(shù)據(jù)倉庫作用是進(jìn)行歷史數(shù)據(jù)分析,負(fù)責(zé)利用歷史數(shù)據(jù)對公司各主題域進(jìn)行統(tǒng)計分析券坞。
3.操作型數(shù)據(jù)庫和數(shù)據(jù)倉庫有什么區(qū)別鬓催?
面向主題不同
操作型是為支持各種業(yè)務(wù)而建立,數(shù)據(jù)倉庫是為了對各種繁雜業(yè)務(wù)中抽象出來的分析主題進(jìn)行分析而建立恨锚。
歷史性
數(shù)據(jù)倉庫保存的時間通常以幾年宇驾、幾十年存在,前者通常僅保留幾個月猴伶。
范圍性
數(shù)據(jù)倉庫將不同主題的數(shù)據(jù)庫匯總一起课舍,面對的是整個公司塌西,而前者通常是單一主題,面對個體業(yè)務(wù)筝尾。
數(shù)據(jù)市集:
1.數(shù)據(jù)市集是什么捡需?
一句話概括,“面向單個主題分析的存儲系統(tǒng)”筹淫,或者“單一主題的數(shù)據(jù)倉庫”站辉。
它是一種“小型數(shù)據(jù)倉庫”,包含單個主題损姜,關(guān)注范圍并非全局饰剥。
數(shù)據(jù)集市可以分為兩種。
一種是獨立數(shù)據(jù)集市(independent data mart)薛匪,這類數(shù)據(jù)集市有自己的源數(shù)據(jù)庫和ETL架構(gòu)捐川;
另一種是非獨立數(shù)據(jù)集市(dependent data mart),這種數(shù)據(jù)集市沒有自己的源系統(tǒng)逸尖,它的數(shù)據(jù)來自數(shù)據(jù)倉庫古沥。當(dāng)用戶或者應(yīng)用程序不需要/不必要/不允許用到整個數(shù)據(jù)倉庫的數(shù)據(jù)時,非獨立數(shù)據(jù)集市就可以簡單為用戶提供一個數(shù)據(jù)倉庫的"子集"娇跟。