學(xué)習(xí)Unix最開頭,大家都學(xué)過正則表達(dá)式(regexp)〗嗳颍可是有沒有人考慮過我們為什么需要正則表達(dá)式?
正則表達(dá)式本來的初衷是用來從無結(jié)構(gòu)的字符串中提取信息万细,殊不知這正好是Unix的缺陷所在扑眉。Unix用無結(jié)構(gòu)的字符串來表示數(shù)據(jù),導(dǎo)致了諸多復(fù)雜的基于regexp的軟件的誕生。sed, AWK, Perl,?...?都是為了同樣的目的來到這個世界上的襟雷。如果不是因為Unix用字符串來表示數(shù)據(jù)刃滓,我們就會擁有按數(shù)據(jù)結(jié)構(gòu)類型的直接存儲,而不需要折騰regexp耸弄。正則表達(dá)式有它自己的價值(針對自然語言)咧虎,但是我們其實不需要把它應(yīng)用到程序語言和操作系統(tǒng)里面。
正則表達(dá)式本身用一個字符串來表示计呈,這帶來另外一些問題砰诵。因為正則表達(dá)式的本質(zhì)不是字符串,而是一個數(shù)據(jù)結(jié)構(gòu)捌显。學(xué)過計算理論的人可能知道這個數(shù)據(jù)結(jié)構(gòu)叫做NFA(nondeterministic finite automaton茁彭,非確定性有限自動機(jī))。所有的數(shù)據(jù)結(jié)構(gòu)應(yīng)該由程序語言本身來表示扶歪,就像用Java構(gòu)造一個對象用 new ClassA("a")?一樣理肺。但是正則表達(dá)式強(qiáng)迫你把這個簡單的構(gòu)造函數(shù)調(diào)用寫成一個字符串。所以在這個比方之下善镰,你得寫成?"new ClassA(\"a\")"妹萨。這樣當(dāng)你想要組合這些表達(dá)式的時候就發(fā)現(xiàn),正則表達(dá)式幾乎都是不可組合(compose)的炫欺。你幾乎不可能不能把兩個regexp的變量A和B安全拼接成一個乎完,比如用Java的字符串拼接A+B。因為你不知道這兩個字符串拼在一起之后品洛,那些稀奇古怪的符號會出現(xiàn)什么交叉反應(yīng)树姨,使得最后的識別的東西根本不是你想要的。
在正則表達(dá)式中桥状,由于正則表達(dá)式本身的構(gòu)造函數(shù)與數(shù)據(jù)本身合并到一起帽揪,我們不得不對某些“特殊字符”進(jìn)行escape。這些特殊字符岛宦,其實是用來描述NFA的記號台丛,它們屬于更高一層的語言耍缴±危可是在正則表達(dá)式里,它們與NFA節(jié)點(diǎn)里的字符混為一談防嗡。比如很簡單的一個block comment的正則表達(dá)式变汪,卻要寫成這個樣子:
"/\\*([^\\*]|[^/])*\\*/"
顯然這樣的表達(dá)式很容易出錯。?如果我們用程序語言的表達(dá)式來構(gòu)造這個表達(dá)式蚁趁,它應(yīng)該是這樣:
在這個我自己設(shè)計的Scheme表達(dá)式里裙盾,以@開頭的標(biāo)識符都是構(gòu)造函數(shù)。其中?@...是構(gòu)造sequence,@*?是構(gòu)造一個zero-or-more的匹配番官,@!構(gòu)造一個否定匹配庐完。這個表達(dá)式是說:“以?/?*?開頭,接著零個或者多個不是?*?/?的字符徘熔,最后接著一個?*?/门躯。這樣一來清晰明了,什么表達(dá)式在什么“層次”都很清楚酷师,不需要什么反斜杠escape讶凉,而且這樣的表達(dá)式可以compose。比如:
定義這三個表達(dá)式之后山孔,我們之后可以用像?(@... reg1 (@or reg2 reg3))?這樣的表達(dá)式來連接3個不同的表達(dá)式懂讯,構(gòu)造出更大的表達(dá)式。這樣的構(gòu)造可以無限的擴(kuò)展台颠。從這里以及以往的經(jīng)驗褐望,我總結(jié)出一個普遍適用的程序設(shè)計的教訓(xùn):盡量不要把多個層次的語言“壓縮”到一層。我們也看到正則表達(dá)式與“Unix哲學(xué)”有很大關(guān)系串前。我沒有考古譬挚,所以不知道孰先孰后,但是它們肯定有直接的因果關(guān)系酪呻。兩者都是Unix復(fù)雜性的來源减宣。