精讀《手寫 SQL 編譯器 - 詞法分析》

1 引言

因為工作關(guān)系英妓,需要開發(fā)支持眾多方言的 SQL 編輯器也拜,所以復(fù)習(xí)了一下編譯原理相關(guān)知識泡嘴。

相比編譯原理專家丑瞧,我們只需要了解部分編譯原理即可實現(xiàn) SQL 編輯器柑土,所以這是一篇寫給前端的編譯原理文章。

解析 SQL 可以分為如下四步:

  1. 詞法分析绊汹,將 SQL 字符串拆分成包含關(guān)鍵詞識別的字符段(Tokens)稽屏。
  2. 語法分析,利用自頂向下或自底向上的算法西乖,將 Tokens 解析為 AST狐榔,可以手動,也可以自動获雕。
  3. 錯誤檢測薄腻、恢復(fù)、提示推斷届案,都需要利用語法分析產(chǎn)生的 AST庵楷。
  4. 語義分析,做完這一步就可以執(zhí)行 SQL 語句了萝玷,不過對前端而言嫁乘,不需要深入到這一步昆婿,可以跳過球碉。

2 精讀

詞法分析就像刀削面的過程,拿著一段字符串(面條)一端不斷下刀仓蛆,當(dāng)面條被切完也就完成了詞法分析睁冬,所以詞法分析是 字符串 -> 一堆字符段 的過程。

流程很簡單看疙,難點就在下刀的分寸了豆拨,每次砍幾厘米呢?

回到詞法分析能庆,為了準(zhǔn)備切分施禾,我們需要定義 SQL 的 Token 有哪些類型,即 Token 分類搁胆。

Token 分類

SQL 的 Token 可以分為如下幾類:

  • 注釋弥搞。
  • 關(guān)鍵字(SELECT邮绿、CREATE)。
  • 操作符(+攀例、-船逮、>=)。
  • 開閉合標(biāo)志((粤铭、CASE)挖胃。
  • 占位符(?)。
  • 空格梆惯。
  • 引號包裹的文本酱鸭、數(shù)字、字段垛吗。
  • 方言語法(${variable})凛辣。

可以看到,在詞法分析階段职烧,我們的 Tokens 不需要關(guān)心關(guān)鍵詞是什么扁誓,只要識別是不是關(guān)鍵詞即可,因為關(guān)鍵詞的辨認(rèn)會留到語法分析時處理蚀之。涉及到語意處理就要考慮上下文蝗敢,而這都不是詞法分析階段要考慮的。

同樣足删,操作符寿谴、空格、文本失受、占位符等構(gòu)成了 SQL 語句的其他部分讶泰,最后通過開閉合標(biāo)志比如左括號和右括號,讓 SQL 支持子語句拂到。

再強調(diào)一次痪署,雖然 SQL 支持子語句,但并不是放在任何位置都是合理的兄旬,其他類型 Token 同理狼犯,但是詞法分析不需要考慮 Token 是否合理,只要切分即可领铐。

用正則逐段分詞

像大多數(shù)語言一樣悯森,SQL 為了方便人類閱讀,采用從左到右的書寫方式绪撵,因此分詞方向也從左到右瓢姻。

我們?yōu)槊總€ Token 類型寫一個函數(shù),比如匹配空格的匹配函數(shù):

function getTokenWhitespace(restStr: string) {
  const matches = restStr.match(/^(\s+)/);

  if (matches) {
    return { type, value: matches[1] };
  }
}

restStr 表示掐去頭部剩下的 SQL 字符串音诈,所有匹配函數(shù)都拿 restStr 進(jìn)行匹配幻碱,已經(jīng)匹配的不需要再處理续膳。

通過正則 /^(\s+)/ 匹配到第一個以空格開頭的空格(讀起來有點別扭),匹配時必須保證以你要匹配的內(nèi)容開頭收班,而且只匹配一次坟岔,這樣才不會在切詞時發(fā)生遺漏。

同理匹配 /**/ 類型注釋時摔桦,也能通過正則輕而易舉的實現(xiàn):

function getTokenBlockComment(restStr: string) {
  const matches = restStr.match(/^(\/\*[^]*?(?:\*\/|$))/);

  if (matches) {
    return { type, value: matches[1] };
  }
}

其中 (?:\*/\) 表示匹配到以 */ 結(jié)尾處社付,而 (?:\*\/|$) 后面的 |$ 表示或者直接匹配到結(jié)尾(如果一直沒有遇到 */ 那后面全部當(dāng)作注釋)。

所以只要 Token 分類得當(dāng)邻耕,并且能為每一個分類寫一個頭匹配正則鸥咖,分詞功能就實現(xiàn)了 90%。

方言拓展

為了支持某些方言兄世,需要從分詞時就開始做考慮啼辣。比如 ${variable} 作為一種變量用法時,我們需要在普通字段的正則匹配中御滩,加入一項 \$\{[a-zA-Z0-9]+\} 匹配鸥拧。

如果要支持純中文作為字段,可以再補充 |\u4e00-\u9fa5削解。

分詞主流程

有了一個個分詞函數(shù)富弦,再補充一個不斷匹配、切割字符串氛驮、再匹配的主函數(shù)即可腕柜,這一步更簡單:

while (sqlStr) {
  token =
    getTokenWhitespace(sqlStr, token) | getTokenBlockComment(sqlStr, token);

  sqlStr = sqlStr.substring(token.value.length);

  tokens.push(token);
}

上面的函數(shù)每取一次 Token,都將取到的 Token 長度丟掉矫废,繼續(xù)匹配剩下的字符串盏缤,直到字符串被切分完為止。

有些特殊情況需要拿到上次的 Token 才能判斷下一個 Token 該如何切割蓖扑,所以將 Token 傳給每一個下一步 Match 函數(shù)唉铜。

最后,執(zhí)行這個主函數(shù)赵誓,分詞就完成了打毛!

3 總結(jié)

分詞比較簡單,到這里就全部結(jié)束了俩功。后面即將進(jìn)入深水區(qū)語法分析,敬請期待碰声。

4 更多討論

討論地址是:精讀《手寫 SQL 編譯器 - 詞法分析》 · Issue #93 · dt-fe/weekly

如果你想?yún)⑴c討論诡蜓,請點擊這里,每周都有新的主題胰挑,周末或周一發(fā)布蔓罚。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末椿肩,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子豺谈,更是在濱河造成了極大的恐慌郑象,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件茬末,死亡現(xiàn)場離奇詭異厂榛,居然都是意外死亡,警方通過查閱死者的電腦和手機丽惭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進(jìn)店門击奶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人责掏,你說我怎么就攤上這事柜砾。” “怎么了换衬?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵痰驱,是天一觀的道長。 經(jīng)常有香客問我瞳浦,道長萄唇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任术幔,我火速辦了婚禮另萤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘诅挑。我一直安慰自己四敞,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布拔妥。 她就那樣靜靜地躺著忿危,像睡著了一般。 火紅的嫁衣襯著肌膚如雪没龙。 梳的紋絲不亂的頭發(fā)上铺厨,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天,我揣著相機與錄音硬纤,去河邊找鬼解滓。 笑死,一個胖子當(dāng)著我的面吹牛筝家,可吹牛的內(nèi)容都是我干的洼裤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼溪王,長吁一口氣:“原來是場噩夢啊……” “哼腮鞍!你這毒婦竟也來了值骇?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤移国,失蹤者是張志新(化名)和其女友劉穎吱瘩,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迹缀,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡使碾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了裹芝。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片部逮。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖嫂易,靈堂內(nèi)的尸體忽然破棺而出兄朋,到底是詐尸還是另有隱情,我是刑警寧澤怜械,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布颅和,位于F島的核電站,受9級特大地震影響缕允,放射性物質(zhì)發(fā)生泄漏峡扩。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一障本、第九天 我趴在偏房一處隱蔽的房頂上張望教届。 院中可真熱鬧,春花似錦驾霜、人聲如沸案训。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽强霎。三九已至,卻和暖如春蓉冈,著一層夾襖步出監(jiān)牢的瞬間城舞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工寞酿, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留家夺,地道東北人。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓熟嫩,卻偏偏與公主長得像秦踪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子掸茅,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容