大師兄的信息化管理學習筆記(五):數(shù)據(jù)庫與商業(yè)智能(一)
大師兄的信息化管理學習筆記(七):中間件技術
三女仰、聯(lián)系分析處理
- 聯(lián)機分析處理(OLAP)是使分析人員哟玷、管理人員或執(zhí)行人員能夠從多角度對信息快速橘洞、一致、交互地存取助币,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術跳夭。
- OLAP的目標是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報表需求亡笑。
-
OLAP的技術核心是維度概念。
1.OLAP和OLTP
- 聯(lián)機分析處理(OLAP)和聯(lián)機事務處理(OLTP)的區(qū)別在于最仑,OLAP側重數(shù)據(jù)分析,OLTP側重對數(shù)據(jù)庫進行增刪改和日常事務操作炊甲。
- | OLTP | OLAP |
---|---|---|
主要應用 | 數(shù)據(jù)庫 | 數(shù)據(jù)倉庫 |
功能 | 日常操作處理 | 決策分析 |
用戶 | 操作人員泥彤、底層管理人員 | 決策人員、高級管理人員 |
模型設計 | 面向應用 | 面向主題 |
時間要求 | 實時讀寫要求高 | 實時讀寫要求低 |
分析要求 | 低卿啡、簡單 | 高吟吝、復雜 |
數(shù)據(jù)處理 | 當前的、最新的颈娜、細節(jié)的剑逃、二維的、分立的 | 歷史的官辽、聚集的蛹磺、多維的、集成的同仆、統(tǒng)一的 |
數(shù)據(jù)規(guī)模 | 100MB - 1GB | 100GB - TB |
每次讀取 | 數(shù)百條數(shù)據(jù) | 數(shù)百萬條數(shù)據(jù) |
2. OLAP的分類
類別 | 描述 |
---|---|
ROLAP(Relational OLAP) | - 基于關系型數(shù)據(jù)庫的OLAP實現(xiàn)萤捆。 - 以關系型數(shù)據(jù)庫為核心,以關系型結構進行多維數(shù)據(jù)的表示和存儲俗批。 |
MOLAP(Multidimensional OLAP) | - 多維數(shù)據(jù)組織的OLAP實現(xiàn) |
HOLAP(Hybrid OLAP) | - 基于混合數(shù)據(jù)組織的OLAP實現(xiàn)俗或。 - 如底層是關系型,高層是多維矩陣型扶镀。 - 這種方式有更好的靈活性蕴侣。 |
四、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
- 數(shù)據(jù)挖掘(Data Mining)是從存放在數(shù)據(jù)庫臭觉,數(shù)據(jù)倉庫或其它信息庫中的大量數(shù)據(jù)中獲取有效的昆雀、新穎的辱志、潛在有用的、最終可理解的模型的過程狞膘。
- 知識發(fā)現(xiàn)(Knowledge Discovery in Database)是數(shù)據(jù)挖掘的一種更廣泛的說法揩懒,即從各種媒體表示的信息中心,根據(jù)不同的需求獲取知識挽封。
- 數(shù)據(jù)挖掘的方法如下:
方法 | 描述 |
---|---|
關聯(lián)規(guī)則(Association) | 反應一個事件和其他事件之間依賴或關聯(lián)的支持已球,目的是發(fā)現(xiàn)哪些事情總在一起發(fā)生。 |
序列(Sequence) | 關注時間之后的關聯(lián)關系辅愿,更關注關聯(lián)關系中事件發(fā)生的先后順序智亮。 |
聚類(Clustering) | 自動尋找并建立分組規(guī)則的方法,通過判斷樣本之間的相似性点待,把相似樣本劃分在一個簇中阔蛉。 |
分類(Classification) | 首先從已經(jīng)分好類的訓練集上建立一個分類模型,再將該模型用于對沒有分類的數(shù)據(jù)進行分類癞埠。 |
回歸(Regression) | 與分類類似状原,但輸出結果是連續(xù)型的數(shù)值。 |
時間序列(Time Serise) | 通過時間序列型數(shù)據(jù)苗踪,由歷史的和當前的數(shù)據(jù)取預測未來的情況颠区,實際上是一種以時間為關鍵屬性的回歸。 |
五通铲、實施商業(yè)智能的步驟
- 需求分析
- 數(shù)據(jù)倉庫建模
- 數(shù)據(jù)抽取
- 建立商業(yè)只能分析報表
- 用戶培訓和數(shù)據(jù)模擬測試
- 系統(tǒng)改進和完善
六毕莱、ETL
- ETL(Extract-Transform-Load)指將數(shù)據(jù)從來源端經(jīng)過至目的端的過程。
- Extract抽取
- Transform轉換
-
Load加載
七颅夺、元數(shù)據(jù)
- 元數(shù)據(jù)(Metadata)是關于數(shù)據(jù)的數(shù)據(jù)央串,主要用來描述數(shù)據(jù)屬性(property)信息,用來支持如指示存儲位置碗啄、歷史數(shù)據(jù)质和、資源查找和文件記錄等。
- 數(shù)據(jù)倉庫中的元數(shù)據(jù)包括:
- 數(shù)據(jù)倉庫表的結構
- 數(shù)據(jù)倉庫標的屬性
- 數(shù)據(jù)倉庫的源數(shù)據(jù)
- 從記錄系統(tǒng)到數(shù)據(jù)倉庫的映射
- 數(shù)據(jù)模型的規(guī)格說明
- 抽取日志和訪問數(shù)據(jù)的公用例行程序等
八稚字、數(shù)據(jù)預處理
- 數(shù)據(jù)預處理是指在主要處理前對數(shù)據(jù)進行的處理:
步驟 | 描述 |
---|---|
數(shù)據(jù)清洗 | 通過填寫缺失的值饲宿、平滑噪聲數(shù)據(jù)、清楚重復數(shù)據(jù)胆描、識別或刪除離群點并解決不一致性來清理數(shù)據(jù)瘫想。 |
數(shù)據(jù)集成 | 將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成昌讲。 |
數(shù)據(jù)變換 | 通過平滑聚類国夜,數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉換成適用于數(shù)據(jù)挖掘的形式短绸。 |
數(shù)據(jù)規(guī)約 | 縮小數(shù)據(jù)取值范圍车吹,使其更適合于數(shù)據(jù)挖掘算法筹裕,能夠得到和原始數(shù)據(jù)相同的分析結果。盡可能保持數(shù)據(jù)原貌窄驹,最大限度精簡舒居量朝卒。 |