作者:?阮一峰? ?http://www.ruanyifeng.com/blog/2014/07/database_implementation.html
所有應(yīng)用軟件之中,數(shù)據(jù)庫可能是最復(fù)雜的嗜愈。
MySQL的手冊有3000多頁赞季,PostgreSQL的手冊有2000多頁凯肋,Oracle的手冊更是比它們相加還要厚习贫。
但是粟害,自己寫一個最簡單的數(shù)據(jù)庫甚疟,做起來并不難。Reddit上面有一個帖子金麸,只用了幾百個字擎析,就把原理講清楚了。下面是我根據(jù)這個帖子整理的內(nèi)容。
一揍魂、數(shù)據(jù)以文本形式保存
第一步桨醋,就是將所要保存的數(shù)據(jù),寫入文本文件现斋。這個文本文件就是你的數(shù)據(jù)庫喜最。
為了方便讀取,數(shù)據(jù)必須分成記錄庄蹋,每一條記錄的長度規(guī)定為等長瞬内。比如,假定每條記錄的長度是800字節(jié)限书,那么第5條記錄的開始位置就在3200字節(jié)虫蝶。
大多數(shù)時候,我們不知道某一條記錄在第幾個位置倦西,只知道主鍵(primary key)的值能真。這時為了讀取數(shù)據(jù),可以一條條比對記錄调限。但是這樣做效率太低舟陆,實際應(yīng)用中误澳,數(shù)據(jù)庫往往采用B樹(B-tree)格式儲存數(shù)據(jù)耻矮。
二、什么是B樹忆谓?
要理解B樹裆装,必須從二叉查找樹(Binary search tree)講起。
二叉查找樹是一種查找效率非常高的數(shù)據(jù)結(jié)構(gòu)倡缠,它有三個特點哨免。
二叉查找樹的結(jié)構(gòu)不適合數(shù)據(jù)庫,因為它的查找效率與層數(shù)相關(guān)昙沦。越處在下層的數(shù)據(jù)琢唾,就需要越多次比較。極端情況下盾饮,n個數(shù)據(jù)需要n次比較才能找到目標值采桃。對于數(shù)據(jù)庫來說,每進入一層丘损,就要從硬盤讀取一次數(shù)據(jù)普办,這非常致命,因為硬盤的讀取時間遠遠大于數(shù)據(jù)處理時間徘钥,數(shù)據(jù)庫讀取硬盤的次數(shù)越少越好衔蹲。
B樹是對二叉查找樹的改進。它的設(shè)計思想是呈础,將相關(guān)數(shù)據(jù)盡量集中在一起舆驶,以便一次讀取多個數(shù)據(jù)橱健,減少硬盤操作次數(shù)。
B樹的特點也有三個沙廉。
這種數(shù)據(jù)結(jié)構(gòu)畴博,非常有利于減少讀取硬盤的次數(shù)。假定一個節(jié)點可以容納100個值蓝仲,那么3層的B樹可以容納100萬個數(shù)據(jù)俱病,如果換成二叉查找樹,則需要20層袱结!假定操作系統(tǒng)一次讀取一個節(jié)點亮隙,并且根節(jié)點保留在內(nèi)存中,那么B樹在100萬個數(shù)據(jù)中查找目標值垢夹,只需要讀取兩次硬盤溢吻。
三、索引
數(shù)據(jù)庫以B樹格式儲存果元,只解決了按照"主鍵"查找數(shù)據(jù)的問題促王。如果想查找其他字段,就需要建立索引(index)而晒。
所謂索引蝇狼,就是以某個字段為關(guān)鍵字的B樹文件。假定有一張"雇員表"倡怎,包含了員工號(主鍵)和姓名兩個字段迅耘。可以對姓名建立索引文件监署,該文件以B樹格式對姓名進行儲存颤专,每個姓名后面是其在數(shù)據(jù)庫中的位置(即第幾條記錄)。查找姓名的時候钠乏,先從索引中找到對應(yīng)第幾條記錄栖秕,然后再從表格中讀取。
這種索引查找方法晓避,叫做"索引順序存取方法"(Indexed Sequential Access Method)簇捍,縮寫為ISAM。它已經(jīng)有多種實現(xiàn)(比如C-ISAM庫和D-ISAM庫)够滑,只要使用這些代碼庫垦写,就能自己寫一個最簡單的數(shù)據(jù)庫。
四彰触、高級功能
部署了最基本的數(shù)據(jù)存忍萃丁(包括索引)以后,還可以實現(xiàn)一些高級功能。
(1)SQL語言是數(shù)據(jù)庫通用操作語言分蓖,所以需要一個SQL解析器尔艇,將SQL命令解析為對應(yīng)的ISAM操作。
(2)數(shù)據(jù)庫連接(join)是指數(shù)據(jù)庫的兩張表通過"外鍵"么鹤,建立連接關(guān)系终娃。你需要對這種操作進行優(yōu)化。
(3)數(shù)據(jù)庫事務(wù)(transaction)是指批量進行一系列數(shù)據(jù)庫操作蒸甜,只要有一步不成功棠耕,整個操作都不成功。所以需要有一個"操作日志"柠新,以便失敗時對操作進行回滾窍荧。
(4)備份機制:保存數(shù)據(jù)庫的副本。
(5)遠程操作:使得用戶可以在不同的機器上恨憎,通過TCP/IP協(xié)議操作數(shù)據(jù)庫蕊退。
(完)