作為對(duì)商業(yè)數(shù)據(jù)計(jì)算機(jī)化管理的響應(yīng),在20世紀(jì)60年代出現(xiàn)了最早的數(shù)據(jù)庫(kù)系統(tǒng)“静裕現(xiàn)代的數(shù)據(jù)庫(kù)應(yīng)用包括有非常復(fù)雜的全球型企業(yè)郁季。跟現(xiàn)代的數(shù)據(jù)庫(kù)應(yīng)用相比梦裂,那些早期的應(yīng)用是相對(duì)簡(jiǎn)單的年柠。
所有的數(shù)據(jù)庫(kù)應(yīng)用,不管老的還是新的答憔,都共享重要的公共元素虐拓。比如數(shù)據(jù)庫(kù)應(yīng)用的核心不是執(zhí)行某種計(jì)算的程序蓉驹,而是數(shù)據(jù)本身。今天狠持,一些最有價(jià)值的公司之所以有價(jià)值喘垂,不是因?yàn)樗鼈兊挠行钨Y產(chǎn)正勒,而是因?yàn)樗鼈儞碛械男畔⑸迪场O胂笠幌拢绻粋€(gè)銀行沒(méi)有了賬戶(hù)和客戶(hù)數(shù)據(jù)阱驾,一個(gè)社交網(wǎng)站丟失了用戶(hù)之間的聯(lián)系里覆,則這些公司的價(jià)值就全部喪失了喧枷。
適合使用數(shù)據(jù)庫(kù)來(lái)管理的數(shù)據(jù)集有以下特點(diǎn):
- 數(shù)據(jù)非常有價(jià)值隧甚;
- 數(shù)據(jù)量相對(duì)較大渡冻;
- 數(shù)據(jù)會(huì)同時(shí)被許多用戶(hù)和應(yīng)用訪問(wèn);
畫(huà)外音:
如果應(yīng)用的數(shù)據(jù)不是非常有價(jià)值帽借,或者數(shù)據(jù)量不是很大砍艾,或者很少會(huì)被用戶(hù)和應(yīng)用同時(shí)訪問(wèn)脆荷,則就不適合使用數(shù)據(jù)庫(kù)系統(tǒng)來(lái)管理數(shù)據(jù)蜓谋。
第一批數(shù)據(jù)庫(kù)應(yīng)用有的僅是簡(jiǎn)單的孤澎、格式精確的覆旭、結(jié)構(gòu)化的數(shù)據(jù)型将。今天七兜,數(shù)據(jù)庫(kù)應(yīng)用可能包含具有復(fù)雜關(guān)系和結(jié)構(gòu)可變的數(shù)據(jù)腕铸。
先看一個(gè)具有結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用示例:一個(gè)大學(xué)里有關(guān)課程狠裹、學(xué)生涛菠、課程注冊(cè)等信息的記錄俗冻。該大學(xué)為每門(mén)課程保留相同類(lèi)型的信息:課程標(biāo)識(shí)符迄薄、課程名噪奄、所屬系勤篮、課程編號(hào)等碰缔,為每個(gè)學(xué)生信息也保留相同類(lèi)型的信息:學(xué)生標(biāo)識(shí)符戳护、學(xué)生名、地址榛瓮、電話號(hào)碼等禀晓,課程注冊(cè)是由(課程標(biāo)識(shí)符, 學(xué)生標(biāo)識(shí)符)這樣的對(duì)組成的集合粹懒。這類(lèi)信息具有著標(biāo)準(zhǔn)的凫乖、重復(fù)性的結(jié)構(gòu)帽芽,是可追溯至20世紀(jì)60年代的數(shù)據(jù)庫(kù)應(yīng)用類(lèi)型的典型代表嚣镜。
跟這個(gè)簡(jiǎn)單的大學(xué)數(shù)據(jù)庫(kù)應(yīng)用相比,一個(gè)社交網(wǎng)站的用戶(hù)會(huì)發(fā)布有關(guān)他們自己的各種類(lèi)型的信息跌捆,從姓名佩厚、出生日期等簡(jiǎn)單信息抄瓦,到由文本钙姊、圖片、視頻膊毁、指向其他用戶(hù)的鏈接組成的復(fù)雜信息描焰。雖然這些數(shù)據(jù)之間具有共同結(jié)構(gòu)的數(shù)量是有限的荆秦,但是這兩類(lèi)應(yīng)用都具有數(shù)據(jù)庫(kù)的基本特征嵌巷。
現(xiàn)代數(shù)據(jù)庫(kù)不僅利用數(shù)據(jù)結(jié)構(gòu)中的共性來(lái)提升效率,而且支持弱結(jié)構(gòu)的數(shù)據(jù)以及格式高度可變的數(shù)據(jù)室抽。
因此搪哪,數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)大型的、復(fù)雜的軟件系統(tǒng)坪圾,它的任務(wù)是管理大型晓折、復(fù)雜的數(shù)據(jù)集。
復(fù)雜性管理不僅在數(shù)據(jù)管理領(lǐng)域非常有挑戰(zhàn)性兽泄,而且在任何一個(gè)領(lǐng)域都是很有挑戰(zhàn)性的漓概。
復(fù)雜性管理的的關(guān)鍵是抽象。抽象允許一個(gè)人使用一個(gè)復(fù)雜的設(shè)備或者系統(tǒng)病梢,而不用知道設(shè)備或者系統(tǒng)是如何被構(gòu)建的胃珍。比如觅彰,一個(gè)人能開(kāi)車(chē)隧期,只要知道如何操作這部車(chē)的控制部件就行了,而不用知道如何制造車(chē)或者車(chē)子的運(yùn)行原理。所有的司機(jī)需要知道的是汽車(chē)能做什么的一個(gè)抽象概念。
類(lèi)似地西采,面對(duì)一堆大型且復(fù)雜的數(shù)據(jù)霹崎,數(shù)據(jù)庫(kù)系統(tǒng)需要提供一個(gè)更簡(jiǎn)單的派诬、抽象的信息視圖括勺,以便用戶(hù)和應(yīng)用程序員不需用知道數(shù)據(jù)在底層是如何存儲(chǔ)和組織的拾氓。通過(guò)提供高層次的抽象,數(shù)據(jù)庫(kù)系統(tǒng)使得企業(yè)能將不同類(lèi)型的數(shù)據(jù)整合成一個(gè)統(tǒng)一的信息倉(cāng)庫(kù)疲酌。
有一些使用數(shù)據(jù)庫(kù)系統(tǒng)的典型應(yīng)用:
- 企業(yè)信息
- 銷(xiāo)售信息
比如顧客载绿、產(chǎn)品及購(gòu)買(mǎi)信息谊囚; - 會(huì)計(jì)信息
比如支付奠伪、收據(jù)即舌、賬戶(hù)余額紊搪、資產(chǎn)及其他會(huì)計(jì)信息; - 人力資源
比如雇員信息、工資乓梨、工資稅、福利等信息及用于生成工資的信息
- 銷(xiāo)售信息
- 制造業(yè)
比如用于供應(yīng)鏈管理的信息荸频,以及用于追蹤工廠中物品的生產(chǎn)、倉(cāng)庫(kù)和商店中物品的庫(kù)存及物品訂單等信息 - 銀行和金融業(yè)
- 銀行信息
比如客戶(hù)信息褒繁、賬戶(hù)、貸款磨澡、銀行交易等信息 - 信用卡交易信息
比如信用卡購(gòu)買(mǎi)信息尉共、用于月度賬單生成的信息等 - 金融信息
比如存儲(chǔ)有關(guān)金融工具(股票和債券等)的持有、銷(xiāo)售及購(gòu)買(mǎi)信息;存儲(chǔ)實(shí)時(shí)市場(chǎng)數(shù)據(jù)扎运,以便客戶(hù)進(jìn)行在線交易和公司進(jìn)行自動(dòng)交易齿椅;
- 銀行信息
- 大學(xué)
比如學(xué)生信息、課程注冊(cè)、分?jǐn)?shù)等信息 - 民用航空業(yè)
比如預(yù)定和調(diào)度等信息 - 電信業(yè)
比如保存電話記錄蘑志、文本記錄请敦、數(shù)據(jù)使用率等信息勾笆,用于生成閱讀賬單蒲每、維護(hù)有關(guān)預(yù)付電話卡的余額拷恨、存儲(chǔ)有關(guān)通信網(wǎng)絡(luò)的信息 - 基于互聯(lián)網(wǎng)的服務(wù)
- 社交媒體
保存用戶(hù)記錄兢交、用戶(hù)之間的連接(比如朋友溉潭、關(guān)注等信息)、由用戶(hù)發(fā)布的消息少欺、有關(guān)該消息的關(guān)注度等信息 - 電商
為任何一個(gè)零售商保存銷(xiāo)售數(shù)據(jù)和訂單喳瓣,追蹤用戶(hù)看過(guò)的商品、搜索項(xiàng)等信息來(lái)為了給用戶(hù)推薦最合適的商品 - 互聯(lián)網(wǎng)廣告
為了實(shí)現(xiàn)有針對(duì)性地投放廣告赞别、產(chǎn)品建議畏陕、新聞文章等,保存點(diǎn)擊歷史記錄仿滔。每當(dāng)人們做一次互聯(lián)網(wǎng)搜索惠毁、線上購(gòu)買(mǎi)或者訪問(wèn)一次社交網(wǎng)站,他們都會(huì)訪問(wèn)這些數(shù)據(jù)庫(kù)崎页。
- 社交媒體
- 文檔數(shù)據(jù)庫(kù)
維護(hù)新文章鞠绰、專(zhuān)利、公開(kāi)的研究論文等信息 - 導(dǎo)航系統(tǒng)
維護(hù)各種名勝古跡的位置以及精確的公路路線飒焦、火車(chē)路線蜈膨、公交路線等
如這個(gè)列表所示,數(shù)據(jù)庫(kù)不僅是每個(gè)企業(yè)的必要組成部分牺荠,而且也構(gòu)成了一個(gè)人每日活動(dòng)的很大部分翁巍。
人們跟數(shù)據(jù)庫(kù)的交互方式是隨著時(shí)間而改變的。早期的數(shù)據(jù)庫(kù)是作為后臺(tái)辦公系統(tǒng)維護(hù)的休雌,人們通過(guò)打印的報(bào)告及紙質(zhì)表單作為輸入來(lái)跟其交互的灶壶。隨著數(shù)據(jù)庫(kù)變得更復(fù)雜,更好的語(yǔ)言被開(kāi)發(fā)出來(lái)供程序員使用來(lái)跟數(shù)據(jù)交互挑辆,更好的用戶(hù)界面也被開(kāi)發(fā)出來(lái)使得企業(yè)內(nèi)的終端用戶(hù)能查詢(xún)和更新數(shù)據(jù)例朱。隨著程序員跟數(shù)據(jù)庫(kù)交互方式的改進(jìn)孝情,計(jì)算機(jī)硬件性能的提升鱼蝉,出現(xiàn)了更復(fù)雜的應(yīng)用,使得數(shù)據(jù)庫(kù)中的數(shù)據(jù)不僅對(duì)企業(yè)內(nèi)部的終端用戶(hù)可得箫荡,而且對(duì)大眾也可得魁亦。雖然曾經(jīng)銀行客戶(hù)必須要跟出納員進(jìn)行每筆交易,但是現(xiàn)在ATM機(jī)支持直接跟客戶(hù)交互羔挡。今天洁奈,幾乎每個(gè)企業(yè)都部署有互聯(lián)網(wǎng)應(yīng)用或者移動(dòng)應(yīng)用间唉,來(lái)支持它的客戶(hù)直接跟企業(yè)的數(shù)據(jù)庫(kù)交互,即跟企業(yè)自己交互利术。
用戶(hù)或者消費(fèi)者能集中在產(chǎn)品或者服務(wù)上呈野,而不用了解使得交互可行的大型數(shù)據(jù)庫(kù)的細(xì)節(jié)。比如印叁,當(dāng)你閱讀一條社交媒體消息被冒、訪問(wèn)在線書(shū)店、瀏覽一本書(shū)或者音樂(lè)集時(shí)轮蜕,你就是在訪問(wèn)存儲(chǔ)在某個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)昨悼。當(dāng)你輸入一條在線訂單時(shí),你的訂單將會(huì)被存到某個(gè)數(shù)據(jù)庫(kù)中跃洛。當(dāng)你訪問(wèn)一個(gè)銀行網(wǎng)站率触,檢索你的銀行余額和交易信息時(shí),信息是從該銀行的數(shù)據(jù)中檢索的汇竭。當(dāng)你訪問(wèn)一個(gè)網(wǎng)站時(shí)葱蝗,有關(guān)你的信息可能會(huì)從數(shù)據(jù)庫(kù)中檢索出來(lái)用于為你選擇應(yīng)該看到的廣告。幾乎跟智能手機(jī)的每次交互都會(huì)導(dǎo)致某種類(lèi)型的數(shù)據(jù)庫(kù)訪問(wèn)细燎。有關(guān)你的互聯(lián)網(wǎng)訪問(wèn)數(shù)據(jù)可能被保存在某個(gè)數(shù)據(jù)庫(kù)中垒玲。
因此,雖然用戶(hù)界面隱藏了許多數(shù)據(jù)庫(kù)的訪問(wèn)細(xì)節(jié)找颓,大部分人并沒(méi)有感覺(jué)到他們是在跟一個(gè)數(shù)據(jù)庫(kù)打交道合愈,但是訪問(wèn)數(shù)據(jù)庫(kù)構(gòu)成了今天每個(gè)人生活的必要組成部分。
從廣義上講击狮,數(shù)據(jù)庫(kù)被使用有兩種模式:
-
在線事務(wù)處理
大量用戶(hù)使用數(shù)據(jù)庫(kù)佛析,其中每個(gè)用戶(hù)都只是檢索小部分信息,執(zhí)行小型更新彪蓬;
對(duì)我們之前總結(jié)的數(shù)據(jù)庫(kù)應(yīng)用的大部分用戶(hù)來(lái)說(shuō)寸莫,這是主要的使用模式; -
數(shù)據(jù)分析
比如档冬,銀行需要決定是否把貸款發(fā)放給某個(gè)貸款申請(qǐng)人膘茎,在線廣告商需要決定將哪一個(gè)廣告展示給特定用戶(hù)。
再比如酷誓,制造商和零售商需要決定制造哪些物品或者訂購(gòu)多少量披坏。這些決定深受分析過(guò)去數(shù)據(jù)、預(yù)測(cè)趨勢(shì)的技術(shù)的驅(qū)動(dòng)盐数。因?yàn)樽鲥e(cuò)誤決策的成本非常高棒拂,因此組織愿意投資許多錢(qián)來(lái)收集或者購(gòu)買(mǎi)所需數(shù)據(jù),構(gòu)建能使用數(shù)據(jù)做正確預(yù)測(cè)的系統(tǒng)。
解決這些任務(wù)需要兩步:
首先帚屉,數(shù)據(jù)分析技術(shù)嘗試從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)規(guī)則和模式谜诫,創(chuàng)建預(yù)測(cè)模型。這些模型把個(gè)人特征作為輸入攻旦,輸出一些預(yù)測(cè)喻旷,比如償還貸款的可能性、點(diǎn)擊一個(gè)廣告的可能性等牢屋。
然后掰邢,使用這些預(yù)測(cè)來(lái)做商業(yè)決策。
數(shù)據(jù)挖掘領(lǐng)域?qū)⑷斯ぶ悄苎芯空吆徒y(tǒng)計(jì)學(xué)者發(fā)明的知識(shí)發(fā)現(xiàn)技術(shù)跟高效實(shí)現(xiàn)整合起來(lái)使其能夠用于超大型數(shù)據(jù)庫(kù)伟阔。