title: "正則表達(dá)式學(xué)習(xí)筆記"
author: "Dong Lei-ming"
date: "2017年10月28日"
output: html_document
如果需要從文本文件中識(shí)別具有一定模式的字符串時(shí)熄捍,學(xué)一點(diǎn)正則表達(dá)式比一個(gè)個(gè)查找-復(fù)制粘貼效率要高得多。
我常用的能夠通過正則表達(dá)式進(jìn)行檢索的軟件有:Notepad++和Filelocator伟桅。用Notepad的機(jī)會(huì)更多一些奈虾。轉(zhuǎn)入正題:
比如我有一串字符:
Aoli|XP_011119616.1,Aoli|XP_011122673.1,Aoli|XP_011128430.1,Bbas|XP_008594286.1,Bbas|XP_008594329.1,Bbas|XP_008595160.1,
Bbas|XP_008596935.1,Bbas|XP_008597129.1,Bbas|XP_008597693.1,Bbas|XP_008598495.1,Bbas|XP_008600657.1,Bbas|XP_008600739.1,
Bbas|XP_008601538.1,Bbas|XP_008603064.1,Bbas|XP_008603175.1,Bbas|XP_008603621.1,Chig|XP_018154735.1,Chig|XP_018155044.1,
Chig|XP_018155047.1,Chig|XP_018153301.1,Chig|XP_018151759.1,Chig|XP_018164608.1,Chig|XP_018152642.1,Chig|XP_018152650.1,
Chig|XP_018150745.1,Chig|XP_018151082.1,Chig|XP_018151207.1,Chig|XP_018151210.1,Chig|XP_018151211.1,Chig|XP_018151295.1,
Chig|XP_018151323.1,Chig|XP_018151575.1,Chig|XP_018151609.1,Chig|XP_018151641.1,Chig|XP_018163482.1,Chig|XP_018150468.1
我需要把|
連同之前的字符都去掉勾扭,如果手動(dòng)刪除或是用空值一組一組地替換是非常繁瑣的,數(shù)據(jù)量非常大時(shí)成本很高。而如果采用正則表達(dá)式則是幾秒鐘的事:查找\w*\|
湘纵,然后替換框里空著斤彼,全部替換就可以了(Fig 1)分瘦,Amazing蘸泻!
Fig 1
匹配字符
-
.
,句點(diǎn)代表除換行符外的所有字符嘲玫。比如a..b
能匹配類似a alb
悦施,A18|B
,ATP-b
去团。不區(qū)分大小寫抡诞,當(dāng)然也可以區(qū)分,下同土陪。 -
[...]
昼汗,代表字符集。a[rl_]b
匹配arb
鬼雀,AlB
顷窒,A_b
。 -
\d
源哩, 代表數(shù)字鞋吉。XP_\d
匹配XP_0
,XP_0
励烦,...谓着,XP_9
。 -
\D
坛掠, 代表非數(shù)字赊锚。 -
\s
, 代表空白字符屉栓。a\sb
匹配a b
舷蒲。 -
\S
, 代表非空白字符友多。 -
\w
阿纤, 代表字母和數(shù)字。[a-z0-9]夷陋。 -
\w
欠拾, 代表非字母和數(shù)字。 -
\b
骗绕, 代表邊界藐窄,如\b love
,不會(huì)匹配alove
之類的單詞酬土。 -
\r\n
荆忍,這是Notepad里替換換換行符的字符串,有時(shí)會(huì)用到,非常方便刹枉!比如(\r\n){2}
能替換空行叽唱,類似Word里的^p^p
。
匹配字符的次數(shù)
-
*
微宝,≥0次棺亭。 -
+
,≥1次蟋软。 -
?
镶摘,匹配問號(hào)前一個(gè)字符前面的全部字符含有或不含問號(hào)前這個(gè)字符,比較難理解岳守,試一下就知道了凄敢。kdheo?
,問號(hào)前一個(gè)字符是o
湿痢,o
前面的全部字符是kdhe
涝缝,kdheo?
匹配kdheo(含o)
或kdhe(不含o)
。 -
{}
譬重,花括號(hào)里是匹配前一個(gè)字符的次數(shù)1-9俊卤,也可以是個(gè)范圍{1,5}。
邏輯匹配
想要同時(shí)匹配多個(gè)字符串時(shí)用邏輯字符|
害幅,如blue|Blue
,能忽略blue首字母的大小寫岂昭。
以含有多個(gè)字符的字符串為單位進(jìn)行處理時(shí)要用圓括號(hào)()
括起來以现。
一個(gè)例子
有這樣一串字符:
[1] "db" "G.clavigera" "F.graminearum" "M.oryzae" "Z.tritici" "C.higginsianum"
[7] "V.dahliae" "C.militaris" "B.bassiana" "M.anisopliae" "M.robertsii" "M.libera"
[13] "S.insectorum" "A.oligospora" "D.haptotyla" "E.vermicola" "H.minnesotensis" "D.coniospora"
[19] "P.chlamydosporia" "O.piceae" "S.schenckii" "S.brasiliensis"
特點(diǎn)是有方括號(hào)
, 方括號(hào)括起來的數(shù)字
且位數(shù)不等约啊,有空格
且空格的個(gè)數(shù)不等邑遏,還有換行符
。
我想要的是保留引號(hào)中的內(nèi)容(連同引號(hào))恰矩,之間用逗點(diǎn)隔開记盒,放到一行中。
具體步驟:
- 去掉方括號(hào)及其中的數(shù)字外傅,表達(dá)式為
\[[0-9]+\]
纪吮; - 去掉換行符,表達(dá)式為
\r\n
萎胰; - 去掉空格碾盟,表達(dá)式為
\s+
,替換為,
技竟,然后去掉兩頭多于的逗點(diǎn)即可冰肴。