數(shù)據(jù)庫(kù) 和 數(shù)倉(cāng) 的本質(zhì)區(qū)別?
數(shù)據(jù)庫(kù) Database (Oracle, Mysql, PostgreSQL)主要用于事務(wù)處理咨油,數(shù)據(jù)倉(cāng)庫(kù) Datawarehouse (Amazon Redshift, Hive)主要用于數(shù)據(jù)分析。
為什么使用數(shù)倉(cāng)柒爵?
舉個(gè)最常見(jiàn)的例子役电,拿電商行業(yè)來(lái)說(shuō)好了。
基本每家電商公司都會(huì)經(jīng)歷棉胀,從只需要業(yè)務(wù)數(shù)據(jù)庫(kù)到要數(shù)據(jù)倉(cāng)庫(kù)的階段法瑟。
* 電商早期啟動(dòng)非常容易,入行門檻低唁奢。找個(gè)外包團(tuán)隊(duì)霎挟,做了一個(gè)可以下單的網(wǎng)頁(yè)前端 + 幾臺(tái)服務(wù)器 + 一個(gè)MySQL,就能開(kāi)門迎客了麻掸。這好比手工作坊時(shí)期酥夭。
* 第二階段,流量來(lái)了脊奋,客戶和訂單都多起來(lái)了采郎,普通查詢已經(jīng)有壓力了,這個(gè)時(shí)候就需要升級(jí)架構(gòu)變成多臺(tái)服務(wù)器和多個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)(量大+分庫(kù)分表)狂魔,這個(gè)階段的業(yè)務(wù)數(shù)字和指標(biāo)還可以勉強(qiáng)從業(yè)務(wù)數(shù)據(jù)庫(kù)里查詢蒜埋。初步進(jìn)入工業(yè)化。
* 第三個(gè)階段最楷,一般需要 3-5 年左右的時(shí)間整份,隨著業(yè)務(wù)指數(shù)級(jí)的增長(zhǎng)待错,數(shù)據(jù)量的會(huì)陡增,公司角色也開(kāi)始多了起來(lái)烈评,開(kāi)始有了 CEO火俄、CMO、CIO讲冠,大家需要面臨的問(wèn)題越來(lái)越復(fù)雜瓜客,越來(lái)越深入。高管們關(guān)心的問(wèn)題竿开,從最初非常粗放的:“昨天的收入是多少”谱仪、“上個(gè)月的 PV、UV 是多少”否彩,逐漸演化到非常精細(xì)化和具體的用戶的集群分析疯攒,特定用戶在某種使用場(chǎng)景中,例如“20~30歲女性用戶在過(guò)去五年的第一季度化妝品類商品的購(gòu)買行為與公司進(jìn)行的促銷活動(dòng)方案之間的關(guān)系”列荔。