去年立下的flag,試著對(duì)這篇博文進(jìn)行翻譯:
https://www.johndcook.com/blog/regex-perl-python-emacs/
現(xiàn)在要兌現(xiàn)了:
正則表達(dá)式非常方便摔刁,但是在不同場(chǎng)景下的實(shí)現(xiàn)不盡相同齿尽。本文將對(duì)正則表達(dá)式在Perl, Python和Emacs中的異同作一些總結(jié)哨苛,但不能做到面面俱到均蜜。
文中的提到“Python”正則但绕,指的是2015年底re
模塊所實(shí)現(xiàn)的版本却特,據(jù)說(shuō)還有一些更兼容Perl的選項(xiàng)扶供,將來(lái)可能會(huì)被合并到官方版中。
此外裂明,本文注重正則表達(dá)式的語(yǔ)法椿浓,而非如何使用。更多地關(guān)注于常見(jiàn)任務(wù)中正則表達(dá)式的比較闽晦,比如在Perl和Python中的搜索與替換扳碍。
Emacs, Python, Perl中正則表達(dá)式的共同特性
在所有的實(shí)現(xiàn)中,最基本的regex特征都是一致的:通配符(.
)仙蛉,量化符(*
,+
,?
)笋敞,錨點(diǎn)(^
,$
),[]
內(nèi)的字符和反向引用(\1
,\2
,\3
)等荠瘪。
最新的Emacs版本支持\b
表示詞邊界(word boundaries)夯巷,\B
表示非詞邊界(non-word boundaries),\w
表示單詞字符(word characters)哀墓,\W
表示非單詞字符(non-word characters)趁餐。
通常Emacs只支持最古老的正則特性,但也支持相對(duì)較新的非貪婪量化符(non-greedy quantifiers)篮绰,如*?
,+?
,??
后雷。
Emacs中的基本特性都需要反斜杠(\
)
替換符在Perl和Python中都是用|
表示,但在Emacs中必須寫成\|
阶牍,類似地喷面,括號(hào)在Emacs中也必須轉(zhuǎn)義為\(
和\)
。同樣的還有表示匹配次數(shù)的大括號(hào)\{
和\}
走孽。
Emacs支持的一個(gè)新特性是非分組括號(hào)(non-grouping parentheses)惧辈,然而這也需要用反斜杠轉(zhuǎn)義作:\(?:
...\)
。
Emacs特有的特性
語(yǔ)法類
Emacs中的語(yǔ)法類以\s
打頭磕瓷,跟其他正則慣例一樣盒齿,否定使用大寫字母\S
念逞。
例如,\s.
表示任意標(biāo)點(diǎn)符號(hào)边翁,而\S.
表示任何非標(biāo)點(diǎn)翎承。Emacs還使用\s(
和\s)
表示定界符(分隔符,delimiters)的開(kāi)始與結(jié)尾符匾,\s<
和\s>
表示注釋的開(kāi)頭和結(jié)尾叨咖,等等。
需要注意的是啊胶,由于Emacs使用\s
和\S
表示語(yǔ)法類甸各,所以就不能像Perl和Python一樣來(lái)表示空格和非空格。因此焰坪,Emacs中空格表示為\s-
趣倾,非空格表示為\S-
。
字符類
字符類類似于語(yǔ)法類某饰,但以\c
和\C
打頭表示是或否儒恋。這類似于Perl中的Unicode屬性\p{}
和\P{}
。
例如黔漂,\cg
代表任意希臘字母诫尽,\Cg
表示任意非希臘字母∥练拢可以通過(guò)運(yùn)行M-x describe-categories
查看更多字符類的信息箱锐。
Python和Perl中有,而Emacs沒(méi)有的特性
Perl和Python都可以使用(?aimsx)
對(duì)正則表達(dá)式進(jìn)行修改劳较。例如驹止,(?i)
可使正則不區(qū)分大小寫。
也可以使用(?#
...)
引入注釋观蜗。
Perl和Python使用相同的語(yǔ)法進(jìn)行正向或反向查找:(?=)
, (?!)
, (?<=)
,和(?<!)
臊恋。
Perl和Python都支持錨點(diǎn)\A
和\Z
,以及\d
, \D
, \s
和\S
墓捻。
這兩種語(yǔ)言都使用(?P<
name>)
和?P=
name)
來(lái)命名和引用一個(gè)capture抖仅。Perl亦有其自己的語(yǔ)法。
Perl中有砖第,Python中沒(méi)有的特性
Perl正則相比于Python撤卢,其擁有的最大特點(diǎn)是Unicode字符類。(即這篇文章撰寫時(shí)梧兼,Python的re
module還不支持的放吩。)使用\p{}
和\P{}
表示該類及其否定。
Perl中的\X
是Unicode中.
的變體羽杰,Programming Perl這樣描述它:
\X
可以匹配一個(gè)用戶可見(jiàn)的字符(grapheme)渡紫,即使這需要幾個(gè)程序員可見(jiàn)的字符(code-points)才能匹配到推。
Perl還有的一些特征是,用\Q
和\E
來(lái)引用惕澎,用\l
和\u
表示大小寫莉测,用\L
或\U
表示小寫或大寫的字符序列,用\E
來(lái)結(jié)束唧喉。
Perl的正則表達(dá)式還有很多特性沒(méi)有一一列出拳恋。
更多資源請(qǐng)見(jiàn):