精讀《手寫 SQL 編譯器 - 詞法分析》

1 引言

因為工作關(guān)系英妓，需要開發(fā)支持眾多方言的 SQL 編輯器也拜，所以復(fù)習(xí)了一下編譯原理相關(guān)知識泡嘴。

相比編譯原理專家丑瞧，我們只需要了解部分編譯原理即可實現(xiàn) SQL 編輯器柑土，所以這是一篇寫給前端的編譯原理文章。

解析 SQL 可以分為如下四步：

詞法分析绊汹，將 SQL 字符串拆分成包含關(guān)鍵詞識別的字符段（Tokens）稽屏。
語法分析，利用自頂向下或自底向上的算法西乖，將 Tokens 解析為 AST狐榔，可以手動，也可以自動获雕。
錯誤檢測薄腻、恢復(fù)、提示推斷届案，都需要利用語法分析產(chǎn)生的 AST庵楷。
語義分析，做完這一步就可以執(zhí)行 SQL 語句了萝玷，不過對前端而言嫁乘，不需要深入到這一步昆婿，可以跳過球碉。

2 精讀

詞法分析就像刀削面的過程，拿著一段字符串（面條）一端不斷下刀仓蛆，當(dāng)面條被切完也就完成了詞法分析睁冬，所以詞法分析是字符串 -> 一堆字符段的過程。

流程很簡單看疙，難點就在下刀的分寸了豆拨，每次砍幾厘米呢？

回到詞法分析能庆，為了準(zhǔn)備切分施禾，我們需要定義 SQL 的 Token 有哪些類型，即 Token 分類搁胆。

Token 分類

SQL 的 Token 可以分為如下幾類：

注釋弥搞。
關(guān)鍵字（SELECT邮绿、CREATE）。
操作符（+攀例、-船逮、>=）。
開閉合標(biāo)志（(粤铭、CASE）挖胃。
占位符（?）。
空格梆惯。
引號包裹的文本酱鸭、數(shù)字、字段垛吗。
方言語法（${variable}）凛辣。

可以看到，在詞法分析階段职烧，我們的 Tokens 不需要關(guān)心關(guān)鍵詞是什么扁誓，只要識別是不是關(guān)鍵詞即可，因為關(guān)鍵詞的辨認(rèn)會留到語法分析時處理蚀之。涉及到語意處理就要考慮上下文蝗敢，而這都不是詞法分析階段要考慮的。

同樣足删，操作符寿谴、空格、文本失受、占位符等構(gòu)成了 SQL 語句的其他部分讶泰，最后通過開閉合標(biāo)志比如左括號和右括號，讓 SQL 支持子語句拂到。

再強調(diào)一次痪署，雖然 SQL 支持子語句，但并不是放在任何位置都是合理的兄旬，其他類型 Token 同理狼犯，但是詞法分析不需要考慮 Token 是否合理，只要切分即可领铐。

用正則逐段分詞

像大多數(shù)語言一樣悯森，SQL 為了方便人類閱讀，采用從左到右的書寫方式绪撵，因此分詞方向也從左到右瓢姻。

我們?yōu)槊總€ Token 類型寫一個函數(shù)，比如匹配空格的匹配函數(shù)：

function getTokenWhitespace(restStr: string) {
  const matches = restStr.match(/^(\s+)/);

  if (matches) {
    return { type, value: matches[1] };
  }
}

restStr 表示掐去頭部剩下的 SQL 字符串音诈，所有匹配函數(shù)都拿 restStr 進(jìn)行匹配幻碱，已經(jīng)匹配的不需要再處理续膳。

通過正則 /^(\s+)/ 匹配到第一個以空格開頭的空格（讀起來有點別扭），匹配時必須保證以你要匹配的內(nèi)容開頭收班，而且只匹配一次坟岔，這樣才不會在切詞時發(fā)生遺漏。

同理匹配 /**/ 類型注釋時摔桦，也能通過正則輕而易舉的實現(xiàn)：

function getTokenBlockComment(restStr: string) {
  const matches = restStr.match(/^(\/\*[^]*?(?:\*\/|$))/);

  if (matches) {
    return { type, value: matches[1] };
  }
}

其中 (?:\*/\) 表示匹配到以 */ 結(jié)尾處社付，而 (?:\*\/|$) 后面的 |$ 表示或者直接匹配到結(jié)尾（如果一直沒有遇到 */ 那后面全部當(dāng)作注釋）。

所以只要 Token 分類得當(dāng)邻耕，并且能為每一個分類寫一個頭匹配正則鸥咖，分詞功能就實現(xiàn)了 90%。

方言拓展

為了支持某些方言兄世，需要從分詞時就開始做考慮啼辣。比如 ${variable} 作為一種變量用法時，我們需要在普通字段的正則匹配中御滩，加入一項 \$\{[a-zA-Z0-9]+\} 匹配鸥拧。

如果要支持純中文作為字段，可以再補充 |\u4e00-\u9fa5削解。

分詞主流程

有了一個個分詞函數(shù)富弦，再補充一個不斷匹配、切割字符串氛驮、再匹配的主函數(shù)即可腕柜，這一步更簡單：

while (sqlStr) {
  token =
    getTokenWhitespace(sqlStr, token) | getTokenBlockComment(sqlStr, token);

  sqlStr = sqlStr.substring(token.value.length);

  tokens.push(token);
}

上面的函數(shù)每取一次 Token，都將取到的 Token 長度丟掉矫废，繼續(xù)匹配剩下的字符串盏缤，直到字符串被切分完為止。

有些特殊情況需要拿到上次的 Token 才能判斷下一個 Token 該如何切割蓖扑，所以將 Token 傳給每一個下一步 Match 函數(shù)唉铜。

最后，執(zhí)行這個主函數(shù)赵誓，分詞就完成了打毛！

3 總結(jié)

分詞比較簡單，到這里就全部結(jié)束了俩功。后面即將進(jìn)入深水區(qū)語法分析，敬請期待碰声。

4 更多討論

討論地址是：精讀《手寫 SQL 編譯器 - 詞法分析》 · Issue #93 · dt-fe/weekly

如果你想?yún)⑴c討論诡蜓，請點擊這里，每周都有新的主題胰挑，周末或周一發(fā)布蔓罚。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末椿肩，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子豺谈，更是在濱河造成了極大的恐慌郑象，老刑警劉巖，帶你破解...
沈念sama閱讀 219,270評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件茬末，死亡現(xiàn)場離奇詭異厂榛，居然都是意外死亡，警方通過查閱死者的電腦和手機丽惭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門击奶，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人责掏，你說我怎么就攤上這事柜砾。” “怎么了换衬？”我有些...
開封第一講書人閱讀 165,630評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵痰驱，是天一觀的道長。經(jīng)常有香客問我瞳浦，道長萄唇，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,906評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任术幔，我火速辦了婚禮另萤，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘诅挑。我一直安慰自己四敞，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,928評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布拔妥。她就那樣靜靜地躺著忿危，像睡著了一般。火紅的嫁衣襯著肌膚如雪没龙。梳的紋絲不亂的頭發(fā)上铺厨，一...
開封第一講書人閱讀 51,718評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音硬纤，去河邊找鬼解滓。笑死，一個胖子當(dāng)著我的面吹牛筝家，可吹牛的內(nèi)容都是我干的洼裤。我是一名探鬼主播，決...
沈念sama閱讀 40,442評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼溪王，長吁一口氣：“原來是場噩夢啊……” “哼腮鞍！你這毒婦竟也來了值骇？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,345評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤移国，失蹤者是張志新（化名）和其女友劉穎吱瘩，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迹缀，經(jīng)...
沈念sama閱讀 45,802評論 1贊 317
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡使碾，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,984評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了裹芝。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片部逮。...
茶點故事閱讀 40,117評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖嫂易，靈堂內(nèi)的尸體忽然破棺而出兄朋，到底是詐尸還是另有隱情，我是刑警寧澤怜械，帶...
沈念sama閱讀 35,810評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布颅和，位于F島的核電站，受9級特大地震影響缕允，放射性物質(zhì)發(fā)生泄漏峡扩。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,462評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一障本、第九天我趴在偏房一處隱蔽的房頂上張望教届。院中可真熱鬧，春花似錦驾霜、人聲如沸案训。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,011評論 0贊 22
一樁弒父案粪糙，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽强霎。三九已至，卻和暖如春蓉冈，著一層夾襖步出監(jiān)牢的瞬間城舞，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,139評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工寞酿，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留家夺，地道東北人。一個月前我還...
沈念sama閱讀 48,377評論 3贊 373
代替公主和親
正文我出身青樓熟嫩，卻偏偏與公主長得像秦踪，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子掸茅，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,060評論 2贊 355