1.1. Log & Checkpoint
Innodb的事務(wù)日志是指Redo log探入,簡(jiǎn)稱(chēng)Log,保存在日志文件ib_logfile里面。Innodb還有另外一個(gè)日志Undo log,但Undo log是存放在共享表空間里面的(ibdata文件)阿浓。
由于Log和Checkpoint緊密相關(guān)堕战,因此將這兩部分合在一起分析。
名詞解釋?zhuān)篖SN引几,日志序列號(hào)昧互,Innodb的日志序列號(hào)是一個(gè)64位的整型。
1.1.1. 寫(xiě)入機(jī)制
1.1.1.1. Log寫(xiě)入
LSN實(shí)際上對(duì)應(yīng)日志文件的偏移量伟桅,新的LSN=舊的LSN + 寫(xiě)入的日志大小敞掘。舉例如下:
LSN=1G,日志文件大小總共為600M楣铁,本次寫(xiě)入512字節(jié)玖雁,則實(shí)際寫(xiě)入操作為:
l 求出偏移量:由于LSN數(shù)值遠(yuǎn)大于日志文件大小,因此通過(guò)取余方式盖腕,得到偏移量為400M赫冬;
l 寫(xiě)入日志:找到偏移400M的位置,寫(xiě)入512字節(jié)日志內(nèi)容溃列,下一個(gè)事務(wù)的LSN就是1000000512劲厌;
1.1.1.2. Checkpoint寫(xiě)入
Innodb實(shí)現(xiàn)了Fuzzy Checkpoint的機(jī)制,每次取到最老的臟頁(yè)听隐,然后確保此臟頁(yè)對(duì)應(yīng)的LSN之前的LSN都已經(jīng)寫(xiě)入日志文件补鼻,再將此臟頁(yè)的LSN作為Checkpoint點(diǎn)記錄到日志文件,意思就是“此LSN之前的LSN對(duì)應(yīng)的日志和數(shù)據(jù)都已經(jīng)寫(xiě)入磁盤(pán)文件”×苫希恢復(fù)數(shù)據(jù)文件的時(shí)候增淹,Innodb掃描日志文件,當(dāng)發(fā)現(xiàn)LSN小于Checkpoint對(duì)應(yīng)的LSN乌企,就認(rèn)為恢復(fù)已經(jīng)完成虑润。
Checkpoint寫(xiě)入的位置在日志文件開(kāi)頭固定的偏移量處,即每次寫(xiě)Checkpoint都覆蓋之前的Checkpoint信息加酵。
1.1.2. 管理機(jī)制
由于Checkpoint和日志緊密相關(guān)拳喻,將日志和Checkpoint一起說(shuō)明,詳細(xì)的實(shí)現(xiàn)機(jī)制如下:

如上圖所示猪腕,Innodb的一條事務(wù)日志共經(jīng)歷4個(gè)階段:
l 創(chuàng)建階段:事務(wù)創(chuàng)建一條日志冗澈;
l 日志刷盤(pán):日志寫(xiě)入到磁盤(pán)上的日志文件;
l 數(shù)據(jù)刷盤(pán):日志對(duì)應(yīng)的臟頁(yè)數(shù)據(jù)寫(xiě)入到磁盤(pán)上的數(shù)據(jù)文件陋葡;
l 寫(xiě)CKP:日志被當(dāng)作Checkpoint寫(xiě)入日志文件亚亲;
對(duì)應(yīng)這4個(gè)階段,系統(tǒng)記錄了4個(gè)日志相關(guān)的信息腐缤,用于其它各種處理使用:
l Log sequence number(LSN1):當(dāng)前系統(tǒng)LSN最大值捌归,新的事務(wù)日志LSN將在此基礎(chǔ)上生成(LSN1+新日志的大小)岭粤;
l Log flushed up to(LSN2):當(dāng)前已經(jīng)寫(xiě)入日志文件的LSN惜索;
l Oldest modified data log(LSN3):當(dāng)前最舊的臟頁(yè)數(shù)據(jù)對(duì)應(yīng)的LSN,寫(xiě)Checkpoint的時(shí)候直接將此LSN寫(xiě)入到日志文件剃浇;
l Last checkpoint at(LSN4):當(dāng)前已經(jīng)寫(xiě)入Checkpoint的LSN巾兆;
對(duì)于系統(tǒng)來(lái)說(shuō),以上4個(gè)LSN是遞減的虎囚,即: LSN1>=LSN2>=LSN3>=LSN4.
具體的樣例如下(使用show innodb status /G命令查看角塑,Oldest modified data log沒(méi)有顯示):

1.1.3. 保護(hù)機(jī)制
Innodb的數(shù)據(jù)并不是實(shí)時(shí)寫(xiě)盤(pán)的,為了避免宕機(jī)時(shí)數(shù)據(jù)丟失淘讥,保證數(shù)據(jù)的ACID屬性吉拳,Innodb至少要保證數(shù)據(jù)對(duì)應(yīng)的日志不能丟失。對(duì)于不同的情況适揉,Innodb采取不同的對(duì)策:
l 宕機(jī)導(dǎo)致日志丟失Innodb有日志刷盤(pán)機(jī)制留攒,可以通過(guò)innodb_flush_log_at_trx_commit參數(shù)進(jìn)行控制;
l 日志覆蓋導(dǎo)致日志丟失
Innodb日志文件大小是固定的嫉嘀,寫(xiě)入的時(shí)候通過(guò)取余來(lái)計(jì)算偏移量炼邀,這樣存在兩個(gè)LSN寫(xiě)入到同一位置的可能,后面寫(xiě)的把前面寫(xiě)得就覆蓋了剪侮,以“寫(xiě)入機(jī)制”章節(jié)的樣例為例拭宁,LSN=100000000和LSN=1600000000兩個(gè)日志的偏移量是相同的了洛退。這種情況下,為了保證數(shù)據(jù)一致性杰标,必須要求LSN=1000000000對(duì)應(yīng)的臟頁(yè)數(shù)據(jù)都已經(jīng)刷到磁盤(pán)中兵怯,也就是要求Last checkpoint對(duì)應(yīng)的LSN一定要大于1000000000,否則覆蓋后日志也沒(méi)有了腔剂,數(shù)據(jù)也沒(méi)有刷盤(pán)媒区,一旦宕機(jī),數(shù)據(jù)就丟失了掸犬。
為了解決第二種情況導(dǎo)致數(shù)據(jù)丟失的問(wèn)題袜漩,Innodb實(shí)現(xiàn)了一套日志保護(hù)機(jī)制,詳細(xì)實(shí)現(xiàn)如下:

上圖中湾碎,直線(xiàn)代表日志空間(Log cap宙攻,約等于日志文件總大小*0.8,0.8是一個(gè)安全系數(shù))介褥,Ckp age和Buf age是兩個(gè)浮動(dòng)的點(diǎn)座掘,Buf async、Buf sync柔滔、Ckp async溢陪、Ckp sync是幾個(gè)固定的點(diǎn)。各個(gè)概念的含義如下:
當(dāng)事務(wù)執(zhí)行速度大于臟頁(yè)刷盤(pán)速度時(shí)廊遍,Ckp age和Buf age會(huì)逐步增長(zhǎng),當(dāng)達(dá)到async點(diǎn)的時(shí)候贩挣,強(qiáng)制進(jìn)行臟頁(yè)刷盤(pán)或者寫(xiě)Checkpoint喉前,如果這樣做還是趕不上事務(wù)執(zhí)行的速度,則為了避免數(shù)據(jù)丟失王财,到達(dá)sync點(diǎn)的時(shí)候,會(huì)阻塞其它所有的事務(wù),專(zhuān)門(mén)進(jìn)行臟頁(yè)刷盤(pán)或者寫(xiě)Checkpoint暑椰。
因此從理論上來(lái)說(shuō),只要事務(wù)執(zhí)行速度大于臟頁(yè)刷盤(pán)速度洽议,最終都會(huì)觸發(fā)日志保護(hù)機(jī)制,進(jìn)而將事務(wù)阻塞挂疆,導(dǎo)致MySQL操作掛起改览。
由于寫(xiě)Checkpoint本身的操作相比寫(xiě)臟頁(yè)要簡(jiǎn)單,耗費(fèi)時(shí)間也要少得多缤言,且Ckp sync點(diǎn)在Buf sync點(diǎn)之后宝当,因此絕大部分的阻塞都是阻塞在了Buf sync點(diǎn),這也是當(dāng)事務(wù)阻塞的時(shí)候胆萧,IO很高的原因庆揩,因?yàn)檫@個(gè)時(shí)候在不斷的刷臟頁(yè)數(shù)據(jù)到磁盤(pán)。例如如下截圖的日志顯示了很多事務(wù)阻塞在了Buf sync點(diǎn):

附注:Innodb的日志保護(hù)機(jī)制實(shí)現(xiàn)可以參考log0log.c文件的void log_check_margins(v