正則表達式(Regular Expression,RE)是透過一些特殊字符的排列签赃,用以[搜尋/取代/刪除]一列或多列文字字符串,簡單的說界拦,正則表達式就是用在字符串的處理上面的一項“表達式”吸申。如果想要以正則表達式的方式處理字符串,就要使用支持正則表達式的工具程序享甸,例如 vi,grep,sed,awk等截碴。但是像cp,ls等指令并不支持正則表達式,所以就只能使用bash自己本身的通配符蛉威。
注意:
- 正則表達式的符號與通配符是完全不一樣的東西
因為通配符(wildcard)代表的是bash操作接口的一個功能日丹,但正則表達式則是一種字符串處理的的表示方式。兩者要分清楚啊~- 語系對正則表達式有影響
因此在使用正則表達式時蚯嫌,要特別留意當時環(huán)境的語系為何哲虾,否則可能會發(fā)現(xiàn)與別人不相同的擷取結(jié)果。
下面關(guān)于正則表達式的練習和舉例择示,都使用我們熟悉的grep來展示束凑,grep是一個擷取命令,如果你不了解grep栅盲,可以從這篇小文章里簡單了解一些Linux 之 Bash -- 管線命令
grep 的一些進階選項
之所以這么說汪诉,是因為Linux 之 Bash -- 管線命令里面都沒有提到~~
工作模式:grep [-A] [-B] [--color=auto]'搜尋字符串' filename
-A
后面可加數(shù)字,為after的意思谈秫,除了列出該行外扒寄,后面的n行也列出來
-B
后面可加數(shù)字,為before的意思拟烫,除了列出該行外该编,前面的n行也列出來
--color=auto
可將正確的那個擷取數(shù)據(jù)列出顏色
1.基礎(chǔ)正則表達式
下面總結(jié)了一個精簡的基礎(chǔ)正則表達式的字符表格,不過不要局限于其中的范例啊硕淑,還要根據(jù)實際情況靈活改變课竣,它的價值可遠不止于此~
表達式 | 描述 | 范例 |
---|---|---|
^ | 行首標記 | ^test 匹配以 test 起始的行 |
$ | 行尾標記 | test$ 匹配以 test 結(jié)尾的行 |
. | 任意字符 |
t.t 匹配任意代替. 的一個字母(它就是英文狀態(tài)的句號)嘉赎,如txt,但不能是兩個字母如text |
[] | 匹配其中任意一個 |
t[ex]t 匹配 tet 或 txt |
[^] | 除了其中任意一個 |
te[^xt] 除了 tet 和 txt 不能匹配,其他任意 |
[a-d] | 匹配指定范圍內(nèi)任一個 | 能匹配a,b,c,d中任意一個字母 |
{n} | 匹配之前n項 |
grep -w '[0-9]\{2\}' filename 擷取存在兩位數(shù)字的文本行 |
{n,m} | 最少匹配n次稠氮,最多m次 |
[0-9]\{2,4\} 匹配2位數(shù)到4位數(shù) |
{n, } | 至少匹配前面n次 |
[0-9]\{n, \} 匹配至少是兩位數(shù)的 |
* | 匹配之前多個或沒有 |
tx*t 匹配 tt 或 txt/txxt/txxxt/... |
\ | 轉(zhuǎn)義(向來放在特殊符號前曹阔,* + 半开?等) | 如bio\ +info 匹配bio+info |
[^]
表示反向選擇
[^a-z]
表示非小寫字母
^[]
表示定位在行首
^[a-z]
表示行首非小寫字母
^$
表示空白行
g..d
代表共4個字符隔披,開頭為g,結(jié)尾為d(.代表絕對有一個任意字符)
g.*g
代表g開頭且g結(jié)尾的字符串
[0-9][0-9]*
表示任意數(shù)字
go\{2,5\}g
表示g后面接2-5個o和一個g的字符串(因為{}
在shell中有特殊意義寂拆,所以用\
來跳脫奢米。這也是為什么??表格的大括號{}
都寫成了\{\}
)
ls -l . | grep '^l'
列出當前目錄下的鏈接文檔
(利用了鏈接文檔的一個特性,其標頭會是 lrwxrwxr)
再次提醒:正則表達式的 原字符
*
和 通配符*
不是一回事哦
- 通配符中纠永,它代表0-無窮多個字符
- 正則表達式中鬓长,它代表匹配0-無窮多個的前一個RE字符
2.延伸正則表達
一般來講,了解基礎(chǔ)型的正則表達式已經(jīng)能夠幫助我們解決很多問題了尝江。不過涉波,某些時刻為了要簡化整個指令操作,使用范圍更廣的延伸型正則表達會更加方便炭序。
eg:延伸型正則表達可以透過群組功能‘|
’來進行一次搜尋啤覆,其中的管道符|
意義為“或 or”。不過惭聂,grep預(yù)設(shè)僅支持基礎(chǔ)正則表達式窗声,如果要使用延伸型正則表達,可以使用grep -E 或者 egrep辜纲。我覺得后者使用起來更方便哦(不用來回切換大小寫~)
表達式 | 描述 | 范例 |
---|---|---|
+ | 匹配之前1個或多個 |
tx+t 匹配 txt 或 txxt/txxxt/... |
笨觅? | 匹配之前1個或沒有 |
te?xt 只能匹配 txt 或 text |
| |
用或的方式找出字符串 |
gd|god|good 匹配gd,god,good |
() | 匹配括號中的字符串 |
bio(info)? 匹配 bio 或 bioinfo |
()+ | 多個重復群組的判別 |
A(xyz)+C 匹配AxyzC或AxyzxyzC等... |