[王垠系列]為什么需要正則表達(dá)式

學(xué)習(xí)Unix最開頭,大家都學(xué)過正則表達(dá)式(regexp)〗嗳颍可是有沒有人考慮過我們為什么需要正則表達(dá)式?

正則表達(dá)式本來的初衷是用來從無結(jié)構(gòu)的字符串中提取信息万细,殊不知這正好是Unix的缺陷所在扑眉。Unix用無結(jié)構(gòu)的字符串來表示數(shù)據(jù),導(dǎo)致了諸多復(fù)雜的基于regexp的軟件的誕生。sed, AWK, Perl,?...?都是為了同樣的目的來到這個世界上的襟雷。如果不是因為Unix用字符串來表示數(shù)據(jù)刃滓,我們就會擁有按數(shù)據(jù)結(jié)構(gòu)類型的直接存儲,而不需要折騰regexp耸弄。正則表達(dá)式有它自己的價值(針對自然語言)咧虎,但是我們其實不需要把它應(yīng)用到程序語言和操作系統(tǒng)里面。

正則表達(dá)式本身用一個字符串來表示计呈,這帶來另外一些問題砰诵。因為正則表達(dá)式的本質(zhì)不是字符串,而是一個數(shù)據(jù)結(jié)構(gòu)捌显。學(xué)過計算理論的人可能知道這個數(shù)據(jù)結(jié)構(gòu)叫做NFA(nondeterministic finite automaton茁彭,非確定性有限自動機(jī))。所有的數(shù)據(jù)結(jié)構(gòu)應(yīng)該由程序語言本身來表示扶歪,就像用Java構(gòu)造一個對象用 new ClassA("a")?一樣理肺。但是正則表達(dá)式強(qiáng)迫你把這個簡單的構(gòu)造函數(shù)調(diào)用寫成一個字符串。所以在這個比方之下善镰,你得寫成?"new ClassA(\"a\")"妹萨。這樣當(dāng)你想要組合這些表達(dá)式的時候就發(fā)現(xiàn),正則表達(dá)式幾乎都是不可組合(compose)的炫欺。你幾乎不可能不能把兩個regexp的變量A和B安全拼接成一個乎完,比如用Java的字符串拼接A+B。因為你不知道這兩個字符串拼在一起之后品洛,那些稀奇古怪的符號會出現(xiàn)什么交叉反應(yīng)树姨,使得最后的識別的東西根本不是你想要的。

在正則表達(dá)式中桥状,由于正則表達(dá)式本身的構(gòu)造函數(shù)與數(shù)據(jù)本身合并到一起帽揪,我們不得不對某些“特殊字符”進(jìn)行escape。這些特殊字符岛宦,其實是用來描述NFA的記號台丛,它們屬于更高一層的語言耍缴±危可是在正則表達(dá)式里,它們與NFA節(jié)點(diǎn)里的字符混為一談防嗡。比如很簡單的一個block comment的正則表達(dá)式变汪,卻要寫成這個樣子:

"/\\*([^\\*]|[^/])*\\*/"

顯然這樣的表達(dá)式很容易出錯。?如果我們用程序語言的表達(dá)式來構(gòu)造這個表達(dá)式蚁趁,它應(yīng)該是這樣:

在這個我自己設(shè)計的Scheme表達(dá)式里裙盾,以@開頭的標(biāo)識符都是構(gòu)造函數(shù)。其中?@...是構(gòu)造sequence,@*?是構(gòu)造一個zero-or-more的匹配番官,@!構(gòu)造一個否定匹配庐完。這個表達(dá)式是說:“以?/?*?開頭,接著零個或者多個不是?*?/?的字符徘熔,最后接著一個?*?/门躯。這樣一來清晰明了,什么表達(dá)式在什么“層次”都很清楚酷师,不需要什么反斜杠escape讶凉,而且這樣的表達(dá)式可以compose。比如:

定義這三個表達(dá)式之后山孔,我們之后可以用像?(@... reg1 (@or reg2 reg3))?這樣的表達(dá)式來連接3個不同的表達(dá)式懂讯,構(gòu)造出更大的表達(dá)式。這樣的構(gòu)造可以無限的擴(kuò)展台颠。從這里以及以往的經(jīng)驗褐望,我總結(jié)出一個普遍適用的程序設(shè)計的教訓(xùn):盡量不要把多個層次的語言“壓縮”到一層。我們也看到正則表達(dá)式與“Unix哲學(xué)”有很大關(guān)系串前。我沒有考古譬挚,所以不知道孰先孰后,但是它們肯定有直接的因果關(guān)系酪呻。兩者都是Unix復(fù)雜性的來源减宣。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市玩荠,隨后出現(xiàn)的幾起案子漆腌,更是在濱河造成了極大的恐慌,老刑警劉巖阶冈,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件闷尿,死亡現(xiàn)場離奇詭異,居然都是意外死亡女坑,警方通過查閱死者的電腦和手機(jī)填具,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來匆骗,“玉大人劳景,你說我怎么就攤上這事〉锞停” “怎么了盟广?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長瓮钥。 經(jīng)常有香客問我筋量,道長烹吵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任桨武,我火速辦了婚禮肋拔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘呀酸。我一直安慰自己只损,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布七咧。 她就那樣靜靜地躺著跃惫,像睡著了一般。 火紅的嫁衣襯著肌膚如雪艾栋。 梳的紋絲不亂的頭發(fā)上爆存,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天,我揣著相機(jī)與錄音蝗砾,去河邊找鬼先较。 笑死,一個胖子當(dāng)著我的面吹牛悼粮,可吹牛的內(nèi)容都是我干的闲勺。 我是一名探鬼主播,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼扣猫,長吁一口氣:“原來是場噩夢啊……” “哼菜循!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起申尤,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤癌幕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后昧穿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體勺远,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年时鸵,在試婚紗的時候發(fā)現(xiàn)自己被綠了胶逢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡饰潜,死狀恐怖初坠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情囊拜,我是刑警寧澤某筐,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站冠跷,受9級特大地震影響南誊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蜜托,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一抄囚、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧橄务,春花似錦幔托、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至棠涮,卻和暖如春谬哀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背严肪。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工史煎, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人驳糯。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓篇梭,卻偏偏與公主長得像,于是被迫代替她去往敵國和親酝枢。 傳聞我的和親對象是個殘疾皇子恬偷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容