MySQL Group Commit 的優(yōu)化

科多大數(shù)據(jù)小課堂之MySQL Group Commit的優(yōu)化

背景

關(guān)于Group Commit網(wǎng)上的資料其實(shí)已經(jīng)足夠多了卵凑，我這里只簡(jiǎn)單的介紹一下旁趟。

眾所周知贾节，在MySQL5.6之前的版本袖肥，由于引入了Binlog/InnoDB的XA火欧，Binlog的寫(xiě)入和InnoDB commit完全串行化執(zhí)行棋电，大概的執(zhí)行序列如下：

Mysql代碼

1.InnoDB prepare （持有prepare_commit_mutex）茎截；

2.write/sync Binlog；

3.InnoDB commit (寫(xiě)入COMMIT標(biāo)記后釋放prepare_commit_mutex)赶盔。

當(dāng)sync_binlog=1時(shí)企锌，很明顯上述的第二步會(huì)成為瓶頸，而且還是持有全局大鎖于未，這也是為什么性能會(huì)急劇下降撕攒。

很快Mariadb就提出了一個(gè)Binlog Group Commit方案，即在準(zhǔn)備寫(xiě)入Binlog時(shí)沉眶，維持一個(gè)隊(duì)列打却，最早進(jìn)入隊(duì)列的是leader，后來(lái)的是follower谎倔，leader為搜集到的隊(duì)列中的線程依次寫(xiě)B(tài)inlog文件, 并commit事務(wù)柳击。Percona 的Group Commit實(shí)現(xiàn)也是Port自Mariadb。不過(guò)仍在使用Percona Server5.5的朋友需要注意片习，該Group Commit實(shí)現(xiàn)可能破壞掉Semisync的行為捌肴，感興趣的點(diǎn)擊bug#1254571

Oracle MySQL 在5.6版本開(kāi)始也支持Binlog Group Commit，使用了和Mariadb類似的思路藕咏，但將Group Commit的過(guò)程拆分成了三個(gè)階段：flush stage 將各個(gè)線程的binlog從cache寫(xiě)到文件中; sync stage 對(duì)binlog做fsync操作（如果需要的話）状知；commit stage 為各個(gè)線程做引擎層的事務(wù)commit。每個(gè)stage同時(shí)只有一個(gè)線程在操作孽查。

Tips：當(dāng)引入Group Commit后饥悴，sync_binlog的含義就變了，假定設(shè)為1000盲再，表示的不是1000個(gè)事務(wù)后做一次fsync西设，而是1000個(gè)事務(wù)組。

Oracle MySQL的實(shí)現(xiàn)的優(yōu)勢(shì)在于三個(gè)階段可以并發(fā)執(zhí)行答朋，從而提升效率贷揽。

XA Recover

在Binlog打開(kāi)的情況下，MySQL默認(rèn)使用MySQL_BIN_LOG來(lái)做XA協(xié)調(diào)者梦碗，大致流程為：

引用

1.掃描最后一個(gè)Binlog文件禽绪，提取其中的xid；

2.InnoDB維持了狀態(tài)為Prepare的事務(wù)鏈表洪规，將這些事務(wù)的xid和Binlog中記錄的xid做比較印屁，如果在Binlog中存在，則提交斩例，否則回滾事務(wù)库车。

通過(guò)這種方式，可以讓InnoDB和Binlog中的事務(wù)狀態(tài)保持一致樱拴。顯然只要事務(wù)在InnoDB層完成了Prepare柠衍，并且寫(xiě)入了Binlog，就可以從崩潰中恢復(fù)事務(wù)晶乔，這意味著我們無(wú)需在InnoDB commit時(shí)顯式的write/fsync redo log珍坊。

Tips：MySQL為何只需要掃描最后一個(gè)Binlog文件呢？原因是每次在rotate到新的Binlog文件時(shí)正罢，總是保證沒(méi)有正在提交的事務(wù)阵漏，然后fsync一次InnoDB的redo log。這樣就可以保證老的Binlog文件中的事務(wù)在InnoDB總是提交的翻具。

問(wèn)題

其實(shí)問(wèn)題很簡(jiǎn)單：每個(gè)事務(wù)都要保證其Prepare的事務(wù)被write/fsync到redo log文件履怯。盡管某個(gè)事務(wù)可能會(huì)幫助其他事務(wù)完成redo 寫(xiě)入，但這種行為是隨機(jī)的裆泳，并且依然會(huì)產(chǎn)生明顯的log_sys->mutex開(kāi)銷叹洲。

優(yōu)化

從XA恢復(fù)的邏輯我們可以知道，只要保證InnoDB Prepare的redo日志在寫(xiě)B(tài)inlog前完成write/sync即可工禾。因此我們對(duì)Group Commit的第一個(gè)stage的邏輯做了些許修改运提，大概描述如下：

引用

Step1. InnoDB Prepare，記錄當(dāng)前的LSN到thd中闻葵；

Step2. 進(jìn)入Group Commit的flush stage民泵；Leader搜集隊(duì)列，同時(shí)算出隊(duì)列中最大的LSN槽畔。

Step3. 將InnoDB的redo log write/fsync到指定的LSN

Step4. 寫(xiě)B(tài)inlog并進(jìn)行隨后的工作(sync Binlog, InnoDB commit , etc)

通過(guò)延遲寫(xiě)redo log的方式栈妆，顯式的為redo log做了一次組寫(xiě)入，并減少了log_sys->mutex的競(jìng)爭(zhēng)厢钧。

目前官方MySQL已經(jīng)根據(jù)我們r(jià)eport的bug#73202鎖提供的思路鳞尔，對(duì)5.7.6的代碼進(jìn)行了優(yōu)化，對(duì)應(yīng)的Release Note如下：

Java代碼

1.When using InnoDB with binary logging enabled, concurrent transactions written in the InnoDB redo log are now grouped together before synchronizing to disk when innodb_flush_log_at_trx_commit is set to 1, which reduces the amount of synchronization operations. This can lead to improved performance.

性能數(shù)據(jù)

簡(jiǎn)單測(cè)試了下坏快，使用sysbench, update_non_index.lua, 100張表铅檩，每張10w行記錄，innodb_flush_log_at_trx_commit=2, sync_binlog=1000莽鸿，關(guān)閉Gtid

引用

并發(fā)線程原生修改后

32 25600 27000

64 30000 35000

128 33000 39000

256 29800 38000

最后編輯于：2017.12.08 18:19:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末昧旨，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子祥得，更是在濱河造成了極大的恐慌兔沃，老刑警劉巖，帶你破解...
沈念sama閱讀 218,640評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件级及，死亡現(xiàn)場(chǎng)離奇詭異乒疏，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)饮焦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,254評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)怕吴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)窍侧，“玉大人，你說(shuō)我怎么就攤上這事转绷∥凹” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,011評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵议经，是天一觀的道長(zhǎng)斧账。經(jīng)常有香客問(wèn)我，道長(zhǎng)煞肾，這世上最難降的妖魔是什么咧织？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,755評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮籍救，結(jié)果婚禮上习绢，老公的妹妹穿的比我還像新娘。我一直安慰自己钧忽，他們只是感情好毯炮，可當(dāng)我...
茶點(diǎn)故事閱讀 67,774評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著耸黑，像睡著了一般桃煎。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上大刊，一...
開(kāi)封第一講書(shū)人閱讀 51,610評(píng)論 1贊 305
城市分裂傳說(shuō)
那天为迈，我揣著相機(jī)與錄音，去河邊找鬼缺菌。笑死葫辐，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的伴郁。我是一名探鬼主播耿战，決...
沈念sama閱讀 40,352評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼焊傅！你這毒婦竟也來(lái)了剂陡？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,257評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤狐胎，失蹤者是張志新（化名）和其女友劉穎鸭栖，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體握巢，經(jīng)...
沈念sama閱讀 45,717評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡晕鹊，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,894評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片溅话。...
茶點(diǎn)故事閱讀 40,021評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡晓锻，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出飞几，到底是詐尸還是另有隱情带射，我是刑警寧澤，帶...
沈念sama閱讀 35,735評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布循狰，位于F島的核電站，受9級(jí)特大地震影響券勺，放射性物質(zhì)發(fā)生泄漏绪钥。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,354評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一关炼、第九天我趴在偏房一處隱蔽的房頂上張望程腹。院中可真熱鬧，春花似錦儒拂、人聲如沸寸潦。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,936評(píng)論 0贊 22
一樁弒父案社痛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)见转。三九已至，卻和暖如春蒜哀，著一層夾襖步出監(jiān)牢的瞬間斩箫，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,054評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工撵儿，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乘客，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,224評(píng)論 3贊 371
代替公主和親
正文我出身青樓淀歇，卻偏偏與公主長(zhǎng)得像易核，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子浪默，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,974評(píng)論 2贊 355

MySQL Group Commit 的優(yōu)化

推薦閱讀更多精彩內(nèi)容