數(shù)據(jù)倉(cāng)庫(kù)是從各種渠道收集和管理數(shù)據(jù)的技術(shù)古今,可提供有意義的業(yè)務(wù)洞察,戰(zhàn)略性地使用數(shù)據(jù)捉腥。
它用于查詢和分析而不是事務(wù)處理桃漾,是將數(shù)據(jù)轉(zhuǎn)換為信息并及時(shí)向用戶提供的過(guò)程恋追。
決策支持?jǐn)?shù)據(jù)庫(kù)(數(shù)據(jù)倉(cāng)庫(kù))與組織的運(yùn)營(yíng)數(shù)據(jù)庫(kù)分開(kāi)維護(hù)苦囱。 但是數(shù)據(jù)倉(cāng)庫(kù)不是產(chǎn)品猛拴,而是環(huán)境麻蹋。 它是屬于信息系統(tǒng)哥蔚,向用戶傳統(tǒng)運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)難以訪問(wèn)或展示的當(dāng)前和歷史決策支持信息。
數(shù)據(jù)倉(cāng)庫(kù)是BI系統(tǒng)的核心收奔,BI是為數(shù)據(jù)分析和報(bào)告而構(gòu)建的质蕉。
你們很多人都知道,3NF設(shè)計(jì)的庫(kù)存系統(tǒng)數(shù)據(jù)庫(kù)很多都有相互關(guān)聯(lián)的表翩肌。 例如模暗,有關(guān)當(dāng)前庫(kù)存信息的報(bào)告可包含超過(guò)12個(gè)連接條件,查詢慢念祭。 數(shù)據(jù)倉(cāng)庫(kù)提供了一種新設(shè)計(jì)兑宇,可以縮短響應(yīng)時(shí)間,提高報(bào)表和分析查詢的性能粱坤。
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的其他名稱:
- 決策支持系統(tǒng)(DSS Decision Support System)
- 執(zhí)行信息系統(tǒng)(Executive Information System)
- 管理信息系統(tǒng)(Management Information System)
- 商業(yè)智能解決方案(Management Information System)
- 分析應(yīng)用(Analytic Application)
- 數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)
數(shù)據(jù)倉(cāng)庫(kù)的歷史
數(shù)據(jù)倉(cāng)庫(kù)使用戶能夠理解并提高其組織的績(jī)效隶糕。 隨著計(jì)算機(jī)系統(tǒng)變得越來(lái)越復(fù)雜并需要處理越來(lái)越多的信息,倉(cāng)庫(kù)數(shù)據(jù)的需求也在不斷變化站玄。
1960年 - Dartmouth和General Mills在一個(gè)聯(lián)合研究項(xiàng)目中若厚,提出了維度概念。
1970 - Nielsen和IR為零售引入了維度數(shù)據(jù)蜒什。
1983- Tera推出了專為決策支持而設(shè)計(jì)的數(shù)據(jù)庫(kù)管理系統(tǒng)
數(shù)據(jù)倉(cāng)庫(kù)始于20世紀(jì)80年代后期,當(dāng)時(shí)IBM工作人員Paul Murphy和Barry Devlin開(kāi)發(fā)了業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù)疤估。
然而灾常,真正的概念是由Inmon Bill提出的霎冯。 他是數(shù)據(jù)倉(cāng)庫(kù)之父。 他撰寫(xiě)了關(guān)于倉(cāng)庫(kù)和公司信息工廠的建設(shè)钞瀑,使用和維護(hù)的各種主題沈撞。
Datawarehouse如何運(yùn)作?
數(shù)據(jù)倉(cāng)庫(kù)作為中央存儲(chǔ)庫(kù)雕什,信息從一個(gè)或多個(gè)數(shù)據(jù)源到達(dá)缠俺。 數(shù)據(jù)從事務(wù)系統(tǒng)和其他關(guān)系數(shù)據(jù)庫(kù)流入數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)可能是:
- 結(jié)構(gòu)化的
- 半結(jié)構(gòu)化
- 非結(jié)構(gòu)化數(shù)據(jù)
處理贷岸,轉(zhuǎn)換和提取數(shù)據(jù)壹士,以便用戶可以通過(guò)商業(yè)智能工具,SQL客戶端和電子表格訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)中的已處理數(shù)據(jù)偿警。 數(shù)據(jù)倉(cāng)庫(kù)將來(lái)自不同來(lái)源的信息合并到綜合數(shù)據(jù)庫(kù)中躏救。
通過(guò)合并所有這些信息,組織可以更全面地分析其客戶螟蒸。 這有助于確保它已考慮所有可用信息盒使。 數(shù)據(jù)倉(cāng)庫(kù)使數(shù)據(jù)挖掘成為可能。 數(shù)據(jù)挖掘旨在尋找可能導(dǎo)致更高銷(xiāo)售額和利潤(rùn)的數(shù)據(jù)模式七嫌。
數(shù)據(jù)倉(cāng)庫(kù)的類型
1.企業(yè)數(shù)據(jù)倉(cāng)庫(kù):
企業(yè)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)集中式倉(cāng)庫(kù)少办。 它為整個(gè)企業(yè)提供決策支持服務(wù)。 它提供了統(tǒng)一的方法來(lái)組織和表示數(shù)據(jù)诵原。 它還提供根據(jù)主題對(duì)數(shù)據(jù)進(jìn)行分類并根據(jù)這些劃分進(jìn)行訪問(wèn)的能力英妓。
2.運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ):
只需要數(shù)據(jù)存儲(chǔ)的運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)(也稱為ODS Operational Data Store)。 在ODS中皮假,數(shù)據(jù)倉(cāng)庫(kù)實(shí)時(shí)刷新鞋拟。 因此,它廣泛地用于諸如存儲(chǔ)雇員記錄等惹资。
3.數(shù)據(jù)集市:
數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的子集贺纲。 它專門(mén)針對(duì)特定業(yè)務(wù)部門(mén)而設(shè)計(jì),例如銷(xiāo)售褪测,財(cái)務(wù)猴誊,銷(xiāo)售或財(cái)務(wù)。 在獨(dú)立的數(shù)據(jù)集市中侮措,數(shù)據(jù)可以直接從源收集懈叹。
數(shù)據(jù)倉(cāng)庫(kù)的一般階段
離線操作數(shù)據(jù)庫(kù):
在此階段,數(shù)據(jù)只是從運(yùn)營(yíng)系統(tǒng)復(fù)制到服務(wù)器分扎。
離線數(shù)據(jù)倉(cāng)庫(kù):
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)定期從運(yùn)營(yíng)數(shù)據(jù)庫(kù)更新澄成。 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)經(jīng)過(guò)映射和轉(zhuǎn)換,以滿足數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)。
實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù):
運(yùn)營(yíng)數(shù)據(jù)庫(kù)中發(fā)生任何事務(wù)墨状,就會(huì)更新數(shù)據(jù)倉(cāng)庫(kù)卫漫。 例如,航空公司或鐵路預(yù)訂系統(tǒng)肾砂。
集成數(shù)據(jù)倉(cāng)庫(kù):
運(yùn)營(yíng)系統(tǒng)執(zhí)行事務(wù)時(shí)列赎,數(shù)據(jù)倉(cāng)庫(kù)會(huì)不斷更新。 然后镐确,Datawarehouse生成傳遞回運(yùn)營(yíng)系統(tǒng)的事務(wù)包吝。
數(shù)據(jù)倉(cāng)庫(kù)的組件
數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)組成部分是:
加載管理器:加載管理器也稱為前端組件。 它執(zhí)行與提取和加載數(shù)據(jù)到倉(cāng)庫(kù)相關(guān)的所有操作源葫。 這些操作包括轉(zhuǎn)換準(zhǔn)備用于進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)诗越。
倉(cāng)庫(kù)管理:倉(cāng)庫(kù)管理執(zhí)行與倉(cāng)庫(kù)中數(shù)據(jù)管理相關(guān)的操作。 它執(zhí)行數(shù)據(jù)分析等操作臼氨,以確保一致性掺喻,索引和視圖的創(chuàng)建,非規(guī)范化和聚合的生成储矩,源數(shù)據(jù)的轉(zhuǎn)換和合并以及歸檔和備份數(shù)據(jù)感耙。
查詢管理器:查詢管理器 也被稱為后端組件。 它執(zhí)行與用戶查詢管理相關(guān)的所有操作操作持隧。 此數(shù)據(jù)倉(cāng)庫(kù)組件的操作是對(duì)相應(yīng)表的直接查詢即硼。
最終用戶訪問(wèn)工具:
這分為五個(gè)不同的組,如1.數(shù)據(jù)報(bào)告 2.查詢工具 3.應(yīng)用程序開(kāi)發(fā)工具 4. EIS工具 5.OLAP工具和數(shù)據(jù)挖掘工具屡拨。
參考資料
- python測(cè)試開(kāi)發(fā)項(xiàng)目實(shí)戰(zhàn)-目錄
- python工具書(shū)籍下載-持續(xù)更新
- python 3.7極速入門(mén)教程 - 目錄
- 討論qq群630011153 144081101
- 原文地址
- 本文涉及的python測(cè)試開(kāi)發(fā)庫(kù) 謝謝點(diǎn)贊只酥!
- [本文相關(guān)海量書(shū)籍下載](https://github.com/china-testing/python-api-tesing/blob/master/books.md
- http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html
誰(shuí)需要數(shù)據(jù)倉(cāng)庫(kù)?
- 依賴大數(shù)據(jù)的決策者
- 使用自定義復(fù)雜流程從多個(gè)數(shù)據(jù)源獲取信息的用戶呀狼。
航空公司:
在航空公司系統(tǒng)中裂允,它用于職員分配,路線盈利能力分析哥艇,旅客計(jì)劃促銷(xiāo)等绝编。
銀行業(yè):
管理可用的資源。 一些銀行也用于市場(chǎng)調(diào)研貌踏,產(chǎn)品和運(yùn)營(yíng)的績(jī)效分析十饥。
衛(wèi)生保健:
醫(yī)療保健行業(yè)還使用數(shù)據(jù)倉(cāng)庫(kù)來(lái)制定戰(zhàn)略并預(yù)測(cè)結(jié)果祖乳,生成患者的治療報(bào)告逗堵,與保險(xiǎn)公司等共享數(shù)據(jù),醫(yī)療援助服務(wù)等眷昆。
公共部門(mén):
在公共部門(mén)蜒秤,數(shù)據(jù)倉(cāng)庫(kù)用于情報(bào)收集汁咏。 它有助于政府機(jī)構(gòu)維護(hù)和分析每個(gè)人的稅務(wù)記錄,健康政策記錄作媚。
投資和保險(xiǎn)業(yè):
分析數(shù)據(jù)模式梆暖,客戶趨勢(shì)以及跟蹤市場(chǎng)變動(dòng)。
零售:
在零售連鎖店中掂骏,數(shù)據(jù)倉(cāng)庫(kù)廣泛用于分銷(xiāo)和營(yíng)銷(xiāo)。 它還有助于跟蹤項(xiàng)目厚掷,客戶購(gòu)買(mǎi)模式弟灼,促銷(xiāo)以及用于確定定價(jià)政策。
電信:
產(chǎn)品促銷(xiāo)冒黑,銷(xiāo)售決策和制定分銷(xiāo)決策田绑。
酒店業(yè):
設(shè)計(jì)和估計(jì)他們希望根據(jù)客戶的反饋和旅行模式定位客戶的廣告和促銷(xiāo)活動(dòng)。
實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的步驟
- 企業(yè)戰(zhàn)略 :在此我們確定技術(shù)抡爹,包括當(dāng)前的架構(gòu)和工具掩驱。 我們還確定事實(shí),維度和屬性冬竟。 還傳遞了數(shù)據(jù)映射和轉(zhuǎn)換欧穴。
- 分階段交付 :應(yīng)根據(jù)主題領(lǐng)域分階段實(shí)施數(shù)據(jù)倉(cāng)庫(kù)。 應(yīng)首先實(shí)施預(yù)訂和計(jì)費(fèi)等相關(guān)業(yè)務(wù)實(shí)體泵殴,然后相互集成涮帘。
- 迭代原型 :數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該迭代開(kāi)發(fā)和測(cè)試。
這里是Datawarehouse實(shí)施的關(guān)鍵步驟及其可交付成果笑诅。
實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的最佳實(shí)踐
- 確定計(jì)劃以測(cè)試數(shù)據(jù)的一致性调缨,準(zhǔn)確性和完整性。
- 數(shù)據(jù)倉(cāng)庫(kù)必須很好地集成吆你,定義良好并帶有時(shí)間戳弦叶。
- 在設(shè)計(jì)Datawarehouse時(shí),請(qǐng)確保使用正確的工具妇多,堅(jiān)持生命周期伤哺,注意數(shù)據(jù)沖突并準(zhǔn)備好從錯(cuò)誤中學(xué)習(xí)。
- 切勿更換運(yùn)營(yíng)系統(tǒng)和報(bào)告
- 不要在提取砌梆,清理和加載數(shù)據(jù)上花費(fèi)太多時(shí)間默责。
- 確保所有利益相關(guān)者(包括業(yè)務(wù)人員)參與數(shù)據(jù)倉(cāng)庫(kù)實(shí)施流程。 確定數(shù)據(jù)倉(cāng)庫(kù)是聯(lián)合/團(tuán)隊(duì)項(xiàng)目咸包。 您不希望創(chuàng)建對(duì)最終用戶無(wú)用的數(shù)據(jù)倉(cāng)庫(kù)桃序。
- 為最終用戶準(zhǔn)備培訓(xùn)計(jì)劃。
為什么我們需要數(shù)據(jù)倉(cāng)庫(kù)烂瘫? 優(yōu)點(diǎn)缺點(diǎn)
數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)點(diǎn):
- 數(shù)據(jù)倉(cāng)庫(kù)允許業(yè)務(wù)用戶快速訪問(wèn)來(lái)自某些來(lái)源的關(guān)鍵數(shù)據(jù)媒熊。
- 數(shù)據(jù)倉(cāng)庫(kù)提供有關(guān)各種跨職能活動(dòng)的一致信息奇适。 它還支持臨時(shí)報(bào)告和查詢。
- 數(shù)據(jù)倉(cāng)庫(kù)有助于集成許多數(shù)據(jù)源芦鳍,以減少生產(chǎn)系統(tǒng)的壓力嚷往。
- 數(shù)據(jù)倉(cāng)庫(kù)有助于縮短分析和報(bào)告的總周轉(zhuǎn)時(shí)間。
- 重組和集成使用戶更容易用于報(bào)告和分析柠衅。
- 數(shù)據(jù)倉(cāng)庫(kù)允許用戶訪問(wèn)多個(gè)源關(guān)鍵數(shù)據(jù)皮仁。 因此,它節(jié)省了用戶從多個(gè)源檢索數(shù)據(jù)的時(shí)間菲宴。
- 數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)大量歷史數(shù)據(jù)贷祈。 這有助于用戶分析不同的時(shí)間段和趨勢(shì),以便進(jìn)行未來(lái)的預(yù)測(cè)喝峦。
數(shù)據(jù)倉(cāng)庫(kù)的缺點(diǎn):
- 不是非結(jié)構(gòu)化數(shù)據(jù)的理想選擇势誊。
- 數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建和實(shí)施肯定會(huì)有時(shí)間混亂。
- 數(shù)據(jù)倉(cāng)庫(kù)很容易過(guò)時(shí)
- 難以對(duì)數(shù)據(jù)類型和范圍谣蠢,數(shù)據(jù)源架構(gòu)粟耻,索引和查詢進(jìn)行更改。
- 數(shù)據(jù)倉(cāng)庫(kù)看起來(lái)很簡(jiǎn)單眉踱,但實(shí)際上挤忙,對(duì)于普通用戶來(lái)說(shuō),它太復(fù)雜了勋锤。
- 盡管在項(xiàng)目管理方面做出了最大努力饭玲,但數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目范圍仍將不斷增加。
- 有時(shí)倉(cāng)庫(kù)用戶會(huì)制定不同的業(yè)務(wù)規(guī)則叁执。
- 組織需要將大量資源用于培訓(xùn)和實(shí)施目的茄厘。
數(shù)據(jù)倉(cāng)庫(kù)的未來(lái)
- 監(jiān)管約束的變化可能會(huì)限制組合不同數(shù)據(jù)來(lái)源的能力。 這些不同的來(lái)源可能包括難以存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)谈宛。
- 隨著數(shù)據(jù)庫(kù)規(guī)模的增長(zhǎng)次哈,對(duì)構(gòu)成非常大的數(shù)據(jù)庫(kù)的估計(jì)值繼續(xù)增長(zhǎng)。 構(gòu)建和運(yùn)行數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)非常復(fù)雜吆录,而且數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的規(guī)模也在不斷擴(kuò)大窑滞。 目前可用的硬件和軟件資源不允許在線保存大量數(shù)據(jù)。
- 多媒體數(shù)據(jù)檢索問(wèn)題恢筝。
數(shù)據(jù)倉(cāng)庫(kù)工具
市場(chǎng)上有許多數(shù)據(jù)倉(cāng)庫(kù)工具哀卫。 這里有一些最突出的:
1.MarkLogic:
MarkLogic使用一系列企業(yè)功能使數(shù)據(jù)集成更容易,更快捷撬槽。 此工具有助于執(zhí)行非常復(fù)雜的搜索操作此改。 它可以查詢不同類型的數(shù)據(jù),如文檔侄柔,關(guān)系和元數(shù)據(jù)共啃。
http://developer.marklogic.com/products
甲骨文:
Oracle是業(yè)界領(lǐng)先的數(shù)據(jù)庫(kù)占调。 它為內(nèi)部部署和云端提供了廣泛的數(shù)據(jù)倉(cāng)庫(kù)解決方案選擇。 它有助于通過(guò)提高運(yùn)營(yíng)效率來(lái)優(yōu)化客戶體驗(yàn)移剪。
https://www.oracle.com/index.html
3.亞馬遜RedShift:
它使用標(biāo)準(zhǔn)SQL和現(xiàn)有BI工具分析所有類型數(shù)據(jù)的簡(jiǎn)單且經(jīng)濟(jì)高效的工具究珊。 它還允許使用查詢優(yōu)化技術(shù)運(yùn)行針對(duì)數(shù)PB的結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜查詢。