MySQL 的解析器以及 MySQL8.0 做出的改進(jìn) | StoneDB技術(shù)分享 #2

image.png

設(shè)計(jì):小艾
審核:丁奇
編輯:宇亭

作者:柳湛宇(花名:烏淄)
浙江大學(xué)-軟件工程-在讀碩士开睡、StoneDB 內(nèi)核研發(fā)實(shí)習(xí)生

一袭艺、MySQL 的解析器

MySQL 所使用的解析器(即 Lexer 和 Parser 的組合)是嵌入了 C/C++語言的 yacc/lex 組合亏吝,在 linux/GNU 體系上主儡,這一組合的實(shí)現(xiàn)是 GNU Bison/Flex雀久,即 Flex 負(fù)責(zé)生成 tokens构眯, Bison 負(fù)責(zé)語法解析芯义。

對(duì)于 Bison哈垢,請(qǐng)參閱[1]

Bison 本是一個(gè)自底向上(Bottom-Up)的解析器,但是由于歷史原因扛拨,MySQL 語法編寫的規(guī)則是以自頂向下(Top-Down)的耘分,這將會(huì)產(chǎn)生一些問題,我們首先簡要介紹這兩種解析模式绑警。

二求泰、自底向上與自頂向下解析模式

更多詳細(xì)講解,請(qǐng)參閱[2]

當(dāng)我們?cè)谡務(wù)撟缘紫蛏虾妥皂斚蛳聝煞N解析模式時(shí)计盒,局面是我們手上已經(jīng)有了編寫完成的語法規(guī)則和將輸入語句詞法解析完成后的 token 數(shù)組渴频,而之后的任務(wù)總體上就是構(gòu)建語法解析樹。

以下 yacc 語法約束和匹配序列(「例 1」)用于展示兩種解析模式的不同北启。

exp1:
 'a' 'b' | 'b' 'c';
exp2:
 'x' 'y' 'z' | 'a' exp3;
exp3:
 'c' 'd' | exp1 'd';

a b c d作為輸入序列卜朗。

自底向上(Bottom-Up)解析模式

自底向上的解析模式類似于進(jìn)行「拼圖」拔第。對(duì)每一個(gè)入棧后 token 組成的序列,都盡可能嘗試將其規(guī)約(reduce)成一個(gè)語法規(guī)則中規(guī)定的表達(dá)式并將新的表達(dá)式壓棧场钉。在達(dá)到 token 數(shù)組末尾時(shí)蚊俺,棧中的表達(dá)式應(yīng)且僅應(yīng)匹配一個(gè)頂層表達(dá)式,如果因?yàn)橐?guī)約順序不符合實(shí)際表達(dá)式順序而無法匹配到頂層表達(dá)式逛万,則應(yīng)當(dāng)進(jìn)行回溯并嘗試新的規(guī)約選擇泳猬。

對(duì)于例 1,自底向上解析模式的解析步驟為:

  • a不能被規(guī)約(沒有可以匹配a的表達(dá)式子項(xiàng))
  • a b可以被規(guī)約:
    • exp1 c d被規(guī)約為exp1 exp3
    • exp1 exp3無法被規(guī)約
    • 達(dá)到序列末尾宇植,需要回溯
    • a b規(guī)約為exp1
    • exp1 c無法被規(guī)約
    • exp1 c d可以被規(guī)約:
    • 因此得封,exp1 c d無法被規(guī)約
    • 達(dá)到序列末尾,需要回溯
  • 因此指郁,a b無法被規(guī)約
  • a b c可以被規(guī)約:
    • a b c可以被規(guī)約為a exp1
    • a exp1 d可以被規(guī)約
    • a exp1 d可以被規(guī)約為a exp3
    • a exp3可以被規(guī)約:
    • a exp3可以被規(guī)約為exp2
    • 達(dá)到序列末尾呛每, a b c d成功匹配表達(dá)式exp2

自頂向下(Top-Down)解析模式

自頂向下的表達(dá)式類似于「多叉樹的先序遍歷」。對(duì)于給定的每一個(gè) token 子序列坡氯,都嘗試斷言(Assertion)其匹配一個(gè)表達(dá)式晨横,并進(jìn)一步遞歸地考察:

?

1.這個(gè)序列是否能通過斷言匹配該表達(dá)式的子選項(xiàng);
2.斷言匹配子選項(xiàng)后箫柳,其對(duì)應(yīng)改規(guī)則可歸約的子串是否匹配子選項(xiàng)中的表達(dá)式手形。

?

每當(dāng)斷言失敗時(shí),同樣進(jìn)行回溯悯恍,來嘗試匹配不同的表達(dá)式或表達(dá)式內(nèi)不同的子選項(xiàng)库糠,直至構(gòu)建正確的語法解析樹或匹配失敗而報(bào)錯(cuò)。

對(duì)于例 1涮毫,自頂向下解析模式的解析步驟為:

  • 假設(shè)(此處的原語是斷言瞬欧,Assertion)a b c d匹配exp1的第一個(gè)子選項(xiàng)'a' 'b'
  • 斷言錯(cuò)誤,因此排除這一選項(xiàng)罢防;
  • 同樣地艘虎,顯然可以排除exp1的第二個(gè)子選項(xiàng)'b' 'c'exp2的第一個(gè)子選項(xiàng)'x' 'y' 'z',此處省略這些步驟;
  • 假設(shè)a b c d匹配exp2的第二個(gè)子選項(xiàng)'a' exp3
    • 應(yīng)有b c d匹配exp3
    • 假設(shè)b c d匹配'c' 'b'
    • 斷言錯(cuò)誤咒吐,排除這一選項(xiàng)
    • 假設(shè)b c d匹配'exp1' 'd'
    • 應(yīng)有b c匹配exp1
    • 假設(shè)b c匹配'a' 'b'
    • 斷言錯(cuò)誤野建,排除這一選項(xiàng)
    • 假設(shè)b c匹配'b' 'c'
    • 「斷言正確且無子表達(dá)式,匹配成功恬叹,」a b c d「匹配」exp2

二者的對(duì)比與 MySQL 面臨的問題

可以看到候生,自底向上解析模式更符合計(jì)算機(jī)程序的風(fēng)格,其將規(guī)約操作提前绽昼,在后半部分執(zhí)行匹配和回溯動(dòng)作唯鸭。但其缺點(diǎn)在于,每一次匹配和回溯的觸發(fā)點(diǎn)都僅僅在達(dá)到 token 數(shù)組末尾時(shí)進(jìn)行硅确,因此如果沒有優(yōu)先級(jí)約束目溉,每次有效回溯的代價(jià)都較大唠粥。

自頂向下的解析模式更符合人類閱讀和編寫語法文件的習(xí)慣,其將斷言和回溯動(dòng)作提前停做,將實(shí)際的匹配動(dòng)作置于解析的后半段。這樣的模式缺點(diǎn)在于大莫,它需要回溯的次數(shù)更多蛉腌,同時(shí)語法愈發(fā)復(fù)雜,如果沒有合適的斷言順序(實(shí)際上對(duì)于不同的 SQL 語句只厘,最優(yōu)的斷言順序也不盡相同)烙丛,就會(huì)有更多冗余的比較分支和更深的有效回溯長度。

由于 MySQL 因歷史原因選擇了易讀的自頂向下的解析模式羔味,其在語法解析時(shí)河咽,會(huì)產(chǎn)生二義性帶來的兩種沖突(conflict):移位/規(guī)約(shift/reduce)沖突和規(guī)約/規(guī)約(reduce/reduce)沖突,而使用自底向上解析模式的 posgres[3]則不會(huì)產(chǎn)生這兩種沖突赋元。

三忘蟹、移位/規(guī)約沖突與規(guī)約/規(guī)約沖突

兩種操作

首先簡要介紹自底向上分析方法的移位(shift)和規(guī)約(reduce)操作。按自底向上的解析模式搁凸,解析器對(duì)輸入符號(hào)串從左到右掃描媚值,讀取輸入并與語法規(guī)則比較,其中:

  • 移位操作是將符號(hào)從輸入流轉(zhuǎn)入分析棧中的操作护糖。如果當(dāng)前輸入與語法規(guī)則匹配褥芒,解析器就將當(dāng)前輸入移入(shift)語法棧中,并繼續(xù)嘗試處理下一個(gè)符號(hào)嫡良。簡單演示見下例 2:

對(duì)于如下語法定義:

simpleStrSeq:
 'a' 'b' 'c' | 'e' 'f' 'g';

處理輸入串a b c時(shí)锰扶,處理前兩個(gè) token 時(shí)都會(huì)將其直接放入語法棧,因?yàn)樗鼈兤ヅ?code>simpleStrSeq表達(dá)式寝受。

  • 規(guī)約操作是將語法棧上的一部分內(nèi)容替換為相應(yīng)的非終結(jié)符的操作坷牛。當(dāng)解析器發(fā)現(xiàn)輸入與語法規(guī)則的右側(cè)匹配時(shí),它可以執(zhí)行歸約操作很澄,將右側(cè)的符號(hào)替換為對(duì)應(yīng)的非終結(jié)符漓帅。簡單演示見下例 3:

對(duì)于如下語法定義:

%type<int> num
%%
product:
num '*' num;
plus:
product '*' product;
%%

處理輸入串1 * 2 + 3 * 4時(shí),在處理到符號(hào)2時(shí)痴怨,會(huì)將語法棧中現(xiàn)有的1 * 2規(guī)約(reduce)為product忙干,進(jìn)一步地,會(huì)在處理到4時(shí)將3 * 4規(guī)約為product浪藻,將product + product規(guī)約為plus

兩種沖突

上述的移位和規(guī)約操作是針對(duì)自底向上范式提出的爱葵,因此使用自頂向下順序編寫語法約束,就會(huì)產(chǎn)生移位/規(guī)約沖突與規(guī)約/規(guī)約沖突:

  • 移位/規(guī)約沖突:移位/規(guī)約沖突指當(dāng)解析器處理一個(gè)符號(hào)時(shí),它既可以進(jìn)行移位(shift)操作月劈,將符號(hào)部分或完全匹配一個(gè)表達(dá)式藤乙,同時(shí)也可以進(jìn)行規(guī)約(reduce)操作坛梁,將當(dāng)前語法棧內(nèi)的內(nèi)容聯(lián)合輸入替換成表達(dá)式划咐。簡單演示見下例 4:

對(duì)于如下語法定義:

%type<int> num
%%
numToken:
 numToken '+' numToken | num;
%%

?

當(dāng)處理輸入1 + 2 + 3時(shí)褐缠,處理到符號(hào)2時(shí)送丰,解析器既可以僅僅將其視作numToken的第二個(gè)子選項(xiàng),移入(shift)語法棧俐载,也可以將其與語法棧中部分內(nèi)容結(jié)合組成1 + 2登失,匹配成為一個(gè)numToken表達(dá)式揽浙。因此,這個(gè)輸入合法語法樹(指最終結(jié)果只有一個(gè)頂層表達(dá)式)就有 2 個(gè):

image.png

  • 規(guī)約/規(guī)約沖突:規(guī)約/規(guī)約沖突是在解析器在遇到一個(gè)輸入符號(hào)時(shí)膛虫,存在多個(gè)可以進(jìn)行歸約操作的情況。這種沖突通常在文法規(guī)則中存在二義性或相似的產(chǎn)生式時(shí)發(fā)生账月。簡單演示見下例 5:

對(duì)于如下語法定義:

%type<int> num
%%
numToken:
 numToken '+' numToken |  numToken '*' numToken | num;
%%

?

當(dāng)處理輸入1 + 2 * 3時(shí)局齿,解析器既可以將2其視作numToken的第 1 個(gè)子選項(xiàng)的后半部分規(guī)約為加法抓歼,也可以將其視作numToken第 2 個(gè)與子項(xiàng)的前半副本,規(guī)約為乘法拌禾。因此展哭,這個(gè)輸入合法語法樹(指最終結(jié)果只有一個(gè)頂層表達(dá)式)就有 2 個(gè):

image.png

MySQL 中的語法沖突

我們之前提到匪傍,由于歷史原因和可讀性考慮您市,MySQL 的 yacc 語法文件采用自頂向下的編寫方式役衡,它引入了上述兩種語法沖突茵休。產(chǎn)生沖突的原因是手蝎,自頂向下的解析方法需要層層進(jìn)行斷言與子表達(dá)式的匹配榕莺,而在更頂層的子表達(dá)式無法在實(shí)際上以自底向上執(zhí)行的 Bison 解析器中直接確定匹配選項(xiàng)棵介。

這意味著語法沖突并不總是意味著語句的二義性而導(dǎo)致解析失敹ぱ臁(對(duì)于確實(shí)需要指定關(guān)聯(lián)性和優(yōu)先級(jí)的操作符,MySQL 也對(duì)它們進(jìn)行了%left邮辽、%right%nonassoc)吨述,事實(shí)上 MySQL 的問題是廣泛存在的 shift/reduce 沖突引起的斷言失敗數(shù)量增加揣云,進(jìn)而使得解析時(shí)間變長亿笤。

image.png

正如我們從上圖中看到的栋猖,MySQL 各個(gè)版本中都有相當(dāng)數(shù)量的 shift/reduce 沖突蒲拉,但除了圖中顯示的 MySQL 4.0 中存在的 4 個(gè)會(huì)導(dǎo)致解析二義性的 reduce/reduce 沖突[4]肃拜,shift/reduce 沖突不會(huì)使得解析器最終得到正確的結(jié)果,因此 MySQL8.0 的態(tài)度是:

?

1.We do not accept any reduce/reduce conflicts
2.We should not introduce new shift/reduce conflicts any more.

?

四雌团、MySQL 8.0 對(duì)語法約束的改進(jìn)

從上圖中可以看到燃领,MySQL 8.0 版本降低了語法文件中的 shift/reduce 沖突數(shù)量,且隨著版本不斷更新锦援,目前這一沖突數(shù)量已下降到了 63[5](通過語法文件中的%expect語句顯式聲明)猛蔽。

MySQL 8.0 做出了很多努力來達(dá)到這一成果。其中最關(guān)鍵一點(diǎn)在于對(duì) query 語句整體格式的重構(gòu)灵寺。MySQL 8.0 以前曼库,相同的語法結(jié)構(gòu)(如 create select 和 select 語句都是用的參數(shù)列表,select略板、update 和 delete 語句中都需要使用的 table 列表等)會(huì)直接被不同類型的語句直接引用毁枯,而沒有做額外的約束。

在 MySQL 8.0 中叮称,它同意了所有語句的語法結(jié)構(gòu)种玛,將共用的子結(jié)構(gòu)段進(jìn)行了進(jìn)一步的約束和封裝,這使得自頂向下的斷言可以更快地匹配到對(duì)應(yīng)的語法瓤檐,同時(shí)也能體現(xiàn)于結(jié)構(gòu)上的簡潔性蒂誉。

以下是 MySQL 5.7 到 MySQL 8.0 上層語法結(jié)構(gòu)對(duì)比一覽:

image.png
image.png

可以看出 MySQL 8.0 使得整體架構(gòu)更加清晰有序。

同時(shí)距帅,8.0 將部分只有一處定義的語法結(jié)構(gòu)展開到上層結(jié)構(gòu)的子選項(xiàng)中右锨,這樣的操作以增加邊緣功能的代碼行數(shù)、降低可讀性為代價(jià)減少了 shift/reduce 沖突碌秸。此外绍移,MySQL 8.0 通過顯示定義兩個(gè)偽 token:%left KEYWORD_USED_AS_IDENT%left KEYWORD_USED_AS_KEYWORD來顯式地聲明對(duì)以關(guān)鍵字作為標(biāo)識(shí)符的行為,減少了解析過程中二義性因其的斷言失敗讥电。

結(jié)論

從整體上看蹂窖,關(guān)系數(shù)據(jù)庫系統(tǒng)對(duì)于典型的 SQL 語句在語法解析階段的耗時(shí)很短,幾乎可以忽略不計(jì)恩敌,因此 MySQL 維持其自頂向下解析結(jié)構(gòu)以獲得語法文件的可讀性和可擴(kuò)展性是可以理解的瞬测。我們可以看到 MySQL 8.0 并沒有對(duì)將語法解析模塊更改成類似 Posgres 那樣 LALR 的模式以消除語法沖突,而是盡可能地將語法樹表達(dá)的更加簡潔,進(jìn)而使其對(duì)基于 MySQL 語法進(jìn)行擴(kuò)展和兼容的開發(fā)者更加友好月趟。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末灯蝴,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子孝宗,更是在濱河造成了極大的恐慌穷躁,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件因妇,死亡現(xiàn)場離奇詭異问潭,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)婚被,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門狡忙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人址芯,你說我怎么就攤上這事灾茁。” “怎么了是复?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵删顶,是天一觀的道長竖螃。 經(jīng)常有香客問我淑廊,道長,這世上最難降的妖魔是什么特咆? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任季惩,我火速辦了婚禮,結(jié)果婚禮上腻格,老公的妹妹穿的比我還像新娘画拾。我一直安慰自己,他們只是感情好菜职,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布青抛。 她就那樣靜靜地躺著,像睡著了一般酬核。 火紅的嫁衣襯著肌膚如雪蜜另。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天嫡意,我揣著相機(jī)與錄音举瑰,去河邊找鬼。 笑死蔬螟,一個(gè)胖子當(dāng)著我的面吹牛此迅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼耸序,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼忍些!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起佑吝,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤坐昙,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后芋忿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體炸客,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年戈钢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了痹仙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡殉了,死狀恐怖开仰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情薪铜,我是刑警寧澤众弓,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站隔箍,受9級(jí)特大地震影響谓娃,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蜒滩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一滨达、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧俯艰,春花似錦捡遍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至啦辐,卻和暖如春谓传,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背昧甘。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來泰國打工良拼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人充边。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓庸推,卻偏偏與公主長得像常侦,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子贬媒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容