Data Warehouse概说,數(shù)據(jù)倉庫,可簡寫為DW或DWH嚣伐。數(shù)據(jù)倉庫糖赔,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合轩端。它是單個數(shù)據(jù)存儲放典,出于分析性報告和決策支持目的而創(chuàng)建。 為需要業(yè)務(wù)智能的企業(yè)基茵,提供指導(dǎo)業(yè)務(wù)流程改進奋构、監(jiān)視時間成本、質(zhì)量以及控制進拱层。
OLTP:On-Line Transaction Processing聯(lián)機事務(wù)處理過程(OLTP)弥臼,也稱為面向交易的處理過程,其基本特征是前臺接收的用戶數(shù)據(jù)可以立即傳送到計算中心進行處理根灯,并在很短的時間內(nèi)給出處理結(jié)果径缅,是對用戶操作快速響應(yīng)的方式之一。有數(shù)據(jù)庫即可完成箱吕。
-
OLAP:在線分析處理(OLAP Online Analytical Processing)芥驳,為業(yè)務(wù)決策提供數(shù)據(jù)分析柿冲。 OLAP系統(tǒng)允許用戶一次分析來自多個數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)庫信息茬高。需要建立多維數(shù)據(jù)模型。
Data Mart假抄,數(shù)據(jù)集市怎栽,也叫數(shù)據(jù)市場,為滿足特定的部門或者用戶需求宿饱,按照多維的方式進行存儲熏瞄,包括定義維度、需要計算的指標谬以、維度的層次等强饮,生成面向決策分析需求的數(shù)據(jù)立方體。
5.** 維度表**:維度表是維度屬性的集合为黎,是分析問題的一個窗口邮丰。是人們觀察數(shù)據(jù)的特定角度行您,是考慮問題時的一類屬性,屬性的集合構(gòu)成一個維剪廉。事實表:事實表是數(shù)據(jù)倉庫結(jié)構(gòu)中的中央表娃循,它包含聯(lián)系事實與維度表的數(shù)字度量值和鍵。事實表包含描述業(yè)務(wù)(例如產(chǎn)品銷售)內(nèi)特定時間的數(shù)據(jù)斗蒋。
ETL:是英文Extract-Transform-Load的縮寫捌斧,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)泉沾、轉(zhuǎn)換(transform)捞蚂、加載(load)至目的端的過程。
結(jié)構(gòu)化數(shù)據(jù):結(jié)構(gòu)化的數(shù)據(jù)是指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲跷究,表現(xiàn)為二維形式的數(shù)據(jù)洞难。一般特點是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個實體的信息揭朝,每一行數(shù)據(jù)的屬性是相同的队贱。
半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu)潭袱,但包含相關(guān)標記柱嫌,用來分隔語義元素以及對記錄和字段進行分層。因此屯换,它也被稱為自描述的結(jié)構(gòu)编丘。
非結(jié)構(gòu)化數(shù)據(jù):就是沒有固定結(jié)構(gòu)的數(shù)據(jù)。各種文檔彤悔、圖片嘉抓、視頻/音頻等都屬于非結(jié)構(gòu)化數(shù)據(jù)。對于這類數(shù)據(jù)晕窑,我們一般直接整體進行存儲抑片,而且一般存儲為二進制的數(shù)據(jù)格式。
Json:是一種輕量級的數(shù)據(jù)交換格式
維度建模(dimensional modeling)是數(shù)據(jù)倉庫建設(shè)中的一種數(shù)據(jù)建模方法杨赤,將數(shù)據(jù)結(jié)構(gòu)化的邏輯設(shè)計方法敞斋。
多維矩陣:多維矩陣是一種新的理論,是一種新的處理多指標問題的方法和體系。
ACID原則是數(shù)據(jù)庫事務(wù)正常執(zhí)行的四個疾牲,分別指原子性植捎、一致性、獨立性及持久性阳柔。
- 事務(wù)的原子性(Atomicity):是指一個事務(wù)要么全部執(zhí)行焰枢,要么不執(zhí)行,也就是說一個事務(wù)不可能只執(zhí)行了一半就停止了。比如你從取款機取錢济锄,這個事務(wù)可以分成兩個步驟:1劃卡枫匾,2出錢。不可能劃了卡拟淮,而錢卻沒出來干茉。這兩步必須同時完成,要么就不完成很泊。
- 事務(wù)的一致性(Consistency):是指事務(wù)的運行并不改變數(shù)據(jù)庫中數(shù)據(jù)的一致性角虫。例如,完整性約束了a+b=10委造,一個事務(wù)改變了a戳鹅,那么b也應(yīng)該隨之改變。
- 獨立性(Isolation):事務(wù)的獨立性也有稱作隔離性昏兆,是指兩個以上的事務(wù)不會出現(xiàn)交錯執(zhí)行的狀態(tài)枫虏。因為這樣可能會導(dǎo)致數(shù)據(jù)不一致。
- 持久性(Durability):事務(wù)的持久性是指事務(wù)執(zhí)行成功以后爬虱,該事務(wù)對數(shù)據(jù)庫所作的更改便是持久的保存在數(shù)據(jù)庫之中隶债,不會無緣無故的回滾。
- ERP:是企業(yè)資源計劃(Enterprise Resource Planning )的簡稱跑筝,是指建立在信息技術(shù)基礎(chǔ)上死讹,集信息技術(shù)與先進管理思想于一身,以系統(tǒng)化的管理思想曲梗,為企業(yè)員工及決策層提供決策手段的管理平臺赞警。
- SCM(Supply Chain Management) 供應(yīng)鏈管理,就是對企業(yè)供應(yīng)鏈的管理虏两,是對供應(yīng)愧旦、需求、原材料采購定罢、市場笤虫、生產(chǎn)、庫存引颈、定單耕皮、分銷發(fā)貨等的管理境蜕,包括了從生產(chǎn)到發(fā)貨蝙场、從供應(yīng)商的供應(yīng)商到顧客的每一個環(huán)節(jié)。
- External Data : 外部數(shù)據(jù)源
- ODS: (Operational Data Store)是一個面向主題的粱年、集成的售滤、可變的、當前的細節(jié)數(shù)據(jù)集合,用于支持企業(yè)對于即時性的完箩、操作性的赐俗、集成的全體信息的需求。常常被作為數(shù)據(jù)倉庫的過渡弊知,也是數(shù)據(jù)倉庫項目的可選項之一阻逮。
- Staging Area: 暫存區(qū)域,臨時區(qū)域秩彤,通常在很多傳統(tǒng)集中式版本控制系統(tǒng)中叔扼,只有兩個空間用來管理你的數(shù)據(jù),一個是你的working copy(工作區(qū))漫雷,另一個便是datastore(版本庫)瓜富,然而在Git中,引入了staging area(index)這一概念降盹,我們可以把它看做一個“碼頭”与柑,你來決定其中的哪些改變可以被“運走”。
- HDFS: (Hadoop Distributed Filesystem), 即Hadoop分布式文件系統(tǒng)蓄坏,簡單理解就是多臺機?組成的一個文件系統(tǒng)价捧。