?
一、關(guān)系型數(shù)據(jù)庫簡介
a)DML
SQL語言是非過程的备典,一次查詢中异旧,可以輸入多張表,但結(jié)果只是一張表提佣。比如
select instructor.name
from instructor
where instructor.dept_name=’history’吮蛹,
查詢語句定義了要查找dept_name列為history的數(shù)據(jù),并顯示name列拌屏,執(zhí)行后得到的是一張表潮针,只有一個name列,每個符合dept_name=’history’篩選條件的數(shù)據(jù)作為一行倚喂。
b) DDL
DDL可以定義表每篷、約束、斷言等端圈,比如有如下創(chuàng)建表的語句:
create table department(
dept_name char(20),
building char(15),
budget numeric(12,2));
創(chuàng)建了表department和它的列焦读,并指定了各列的數(shù)據(jù)類型鸟辅。DDL語句會同時更新數(shù)據(jù)字典平项。
c) 從應(yīng)用程序訪問數(shù)據(jù)庫
SQL語句沒有通用的圖靈機那么強大氓栈,有很多計算是SQL無法做到的帆吻,比如接收用戶輸入衷掷、顯示內(nèi)容粉渠、網(wǎng)絡(luò)通訊等狼荞,這些功能必須使用像c宅粥、c++等宿主(host)語言來實現(xiàn)啊楚,然后在程序中嵌入SQL語言來訪問數(shù)據(jù)庫吠冤。
從應(yīng)用程序訪問數(shù)據(jù)庫有兩種方式:
提供應(yīng)用程序接口來傳遞DML、DDL恭理,然后取回結(jié)果拯辙。比如c語言的ODBC、java的JDBC等;
在應(yīng)用程序中使用DML預(yù)編譯器涯保,然后通過擴展宿主語言的語法來嵌入DML調(diào)用诉濒。
二、數(shù)據(jù)庫設(shè)計
需求分析階段夕春、概念設(shè)計階段和實現(xiàn)階段未荒。
a)在概念設(shè)計階段,要選擇數(shù)據(jù)模型及志,將需求轉(zhuǎn)化為schema片排,這個階段的重點是對數(shù)據(jù)和數(shù)據(jù)關(guān)系進行描述。這個階段要解決使用哪些(what)字段和怎樣(how)組織這些字段的問題速侈,前者是商業(yè)問題率寡,后者才是計算機科學問題。
關(guān)于組織字段的的方式通常有兩種倚搬,一種是使用E-R模型冶共,一種是使用算法自動生成表。
這個階段設(shè)計的schema需要滿足對數(shù)據(jù)增刪改查的要求每界,
b) 實現(xiàn)階段比默,包括邏輯設(shè)計和物理設(shè)計兩步,邏輯設(shè)計將高度抽象的概念模型轉(zhuǎn)換為數(shù)據(jù)庫實現(xiàn)盆犁,然后物理設(shè)計則解決文件的組織命咐、存儲結(jié)構(gòu)等問題。
c) 不好的設(shè)計會造成信息的冗余以及缺乏表達某些信息的能力:
比如這張表同時包含了教師(id,name,salary)和部門信息谐岁,history信息在兩行中都有醋奠,修改history的budget時需要兩行都修改;而如果我們想增加一個部門時伊佃,就會暴露出這個設(shè)計表達能力不足的問題窜司,因為只有先增加一個教師才能增加部門。
三航揉、數(shù)據(jù)存儲和檢索
對一個數(shù)據(jù)庫系統(tǒng)來說塞祈,存儲管理器和查詢處理器是非常重要的兩部分。
a) 存儲管理器
數(shù)據(jù)存儲在硬盤上帅涂,CPU的和內(nèi)存的速度大于硬盤的讀取速度议薪,所以它需要盡可能地減少數(shù)據(jù)在硬盤與內(nèi)存之間的轉(zhuǎn)移,并負責將DML語句翻譯成物理層的命令媳友。即存儲管理器負責數(shù)據(jù)的增刪改查斯议,它包含的模塊或功能有:
權(quán)限及完整性管理器:負責檢查完整性約束、控制用戶訪問權(quán)限醇锚;
事務(wù)管理器:用于保證系統(tǒng)在發(fā)生故障時的一致(正確)狀態(tài)哼御,以及保證并發(fā)事物無沖突地執(zhí)行;
文件管理器:負責硬盤空間的分配并管理保存在硬盤上的數(shù)據(jù)結(jié)構(gòu);
緩存管理器:負責將數(shù)據(jù)從硬盤讀取到內(nèi)存恋昼,并決定將哪些數(shù)據(jù)緩存到內(nèi)存看靠。緩存管理器是數(shù)據(jù)庫系統(tǒng)的重要部分,有了緩存管理器液肌,數(shù)據(jù)庫才能夠處理比內(nèi)存容積大得多的數(shù)據(jù)挟炬。
存儲管理器所操作的文件類型有:
數(shù)據(jù)文件:數(shù)據(jù)庫本身
數(shù)據(jù)字典:對schema的描述
索引:用于提高檢索效率,索引維護了一系列指向特定數(shù)據(jù)的指針
b) 查詢處理器
包含多個部分:
DDL翻譯器:翻譯DDL指令并記錄到數(shù)據(jù)字典
DML編譯器:將DML語句編譯成查詢評估引擎能理解的低級指令矩屁。DML語句往往可以有不同的翻譯辟宗,這些翻譯的執(zhí)行結(jié)果相同但性能不一爵赵,DML編譯器也負責查詢優(yōu)化吝秕,選擇性能最高的翻譯方式。
查詢評估引擎:執(zhí)行由DML編譯器生成的低級指令
四空幻、事務(wù)管理
a) 某些對數(shù)據(jù)的的操作常常會形成單一的邏輯工作單元烁峭,比如轉(zhuǎn)賬,從A賬戶扣款M元秕铛,然后給B賬戶增加M元约郁,這兩步操作必須要么都成功,要么都失敗但两,這樣的要求也稱為原子性(atomicity)鬓梅;另外A、B賬戶的總和在操作事務(wù)前后保持不變谨湘,這稱為一致性(consistency)绽快。事務(wù)操作必須滿足原子性和一致性,在操作過程中允許暫時地違背一致性(比如轉(zhuǎn)賬紧阔,A坊罢、B賬戶的增減需要過程)。
b) 一致性由開發(fā)人員來保證擅耽,而原子性由數(shù)據(jù)庫自身來保證活孩;
對于轉(zhuǎn)賬操作來說,開發(fā)人員需要合理地劃分操作步驟乖仇,比如講之分為從A賬戶轉(zhuǎn)出和給B賬戶轉(zhuǎn)入兩步憾儒,如果將這兩步劃分為一個事務(wù),則符合一致性乃沙,如果任何一步獨立航夺,則會違背一致性;
c) 數(shù)據(jù)庫的恢復(fù)管理器負(recovery manager)負責原子性崔涂,實際應(yīng)用中阳掐,事務(wù)難免會失敗,這時要屏蔽失敗的事務(wù)對數(shù)據(jù)庫的影響(回滾到失敗前的狀態(tài)failure recovery)。
并發(fā)控制器(concurrency-control manager)缭保,在遇到事務(wù)需要并發(fā)執(zhí)行時汛闸,無法保存操作前的狀態(tài),這時由并發(fā)控制器通過控制事務(wù)間的交互來保證一致性艺骂。
恢復(fù)管理器和并發(fā)控制器組成了事務(wù)管理器诸老。
五、數(shù)據(jù)庫結(jié)構(gòu)(database architecture)
數(shù)據(jù)庫的結(jié)構(gòu)多種多樣钳恕,比如有集中式(centralize)别伏、服務(wù)端-客戶端式、并行式(parallel)忧额、分布式(distrubuted)等厘肮。
數(shù)據(jù)庫的通用結(jié)構(gòu)如圖:
六、數(shù)據(jù)庫的普通用戶和管理員
數(shù)據(jù)庫的用戶可以分為普通用戶(user)和管理員(administrator)
a)普通用戶及對應(yīng)的用戶接口
依據(jù)用戶期望的與數(shù)據(jù)庫的交互方式可以進一步分為四類睦番,對應(yīng)有不同的用戶接口
無經(jīng)驗的用戶(naive user):使用事先寫好的程序與數(shù)據(jù)庫交互类茂,用戶接口通常為表單;
開發(fā)者:負責編寫數(shù)據(jù)庫交互界面托嚣;
熟練的用戶(sophisticate):比如數(shù)據(jù)分析員巩检,使用專業(yè)的分析軟件或直接寫SQL來與數(shù)據(jù)庫交互;
專門的用戶(specialized user)示启,編寫特殊的數(shù)據(jù)庫應(yīng)用的人員兢哭,比如計算機輔助設(shè)計系統(tǒng)、知識庫夫嗓、專家系統(tǒng)迟螺、存儲復(fù)雜數(shù)據(jù)結(jié)構(gòu)(聲音、圖像)的系統(tǒng)等啤月。
b)管理員(DBA)
通常DBA可以做的操作包括:
定義schema
定義數(shù)據(jù)的存儲結(jié)構(gòu)和訪問方式
修改schema和數(shù)據(jù)的物理組織方式
訪問權(quán)限控制
日常維護煮仇,比如定期備份、確保硬盤空間充足谎仲、監(jiān)控數(shù)據(jù)庫高效運行等
學習資料:Database System Concepts, by Abraham Silberschatz, Henry F.Korth, S.Sudarshan