Partial page write
InnoDB將數(shù)據(jù)寫(xiě)入到磁盤(pán)是以Page為單位進(jìn)行操作的腿时。Page Size一般是16KB,其數(shù)據(jù)校驗(yàn)也是針對(duì)這16KB來(lái)計(jì)算的。由于文件系統(tǒng)對(duì)一次大數(shù)據(jù)頁(yè)大多數(shù)情況下不是原子操作,這意味著如果服務(wù)器宕機(jī)了,可能只做了部分寫(xiě)入梆靖。16K的數(shù)據(jù),寫(xiě)入4K時(shí)笔诵,發(fā)生了系統(tǒng)斷電/os crash 返吻,只有一部分寫(xiě)是成功的,這種情況下就是partial page write問(wèn)題乎婿。
如果發(fā)生寫(xiě)失效测僵,MySQL可以根據(jù)redo log進(jìn)行恢復(fù)。這是一個(gè)辦法谢翎,但是必須清楚地認(rèn)識(shí)到捍靠,redo log中記錄的是對(duì)頁(yè)的物理修改,如偏移量800森逮,寫(xiě)’aaaa’記錄榨婆。如果這個(gè)頁(yè)本身已經(jīng)發(fā)生了損壞,再對(duì)其進(jìn)行重做是沒(méi)有意義的褒侧。
MySQL在恢復(fù)的過(guò)程中檢查page的checksum良风,checksum就是檢查page的最后事務(wù)號(hào),發(fā)生partial page write問(wèn)題時(shí)闷供,page已經(jīng)損壞拖吼,找不到該page中的事務(wù)號(hào)。在InnoDB看來(lái)这吻,這樣的數(shù)據(jù)頁(yè)是無(wú)法通過(guò)checksum驗(yàn)證的,就無(wú)法恢復(fù)篙议。即時(shí)我們強(qiáng)制讓其通過(guò)驗(yàn)證唾糯,也無(wú)法從崩潰中恢復(fù),因?yàn)楫?dāng)前InnoDB存在的一些日志類(lèi)型鬼贱,有些是邏輯操作移怯,并不能做到冪等。
Double write buffer
為了解決這個(gè)問(wèn)題这难,InnoDB實(shí)現(xiàn)了double write buffer舟误,簡(jiǎn)單來(lái)說(shuō),就是在寫(xiě)數(shù)據(jù)頁(yè)之前姻乓,先把這個(gè)數(shù)據(jù)頁(yè)寫(xiě)到一塊獨(dú)立的物理文件位置(ibdata)嵌溢,然后再寫(xiě)到數(shù)據(jù)頁(yè)眯牧。這樣在宕機(jī)重啟時(shí),如果出現(xiàn)數(shù)據(jù)頁(yè)損壞赖草,那么在應(yīng)用redo log之前学少,需要通過(guò)該頁(yè)的副本來(lái)還原該頁(yè),然后再進(jìn)行redo log重做秧骑,這就是double write版确。